這裡記錄每週值得分享的科技內容,週五釋出。
本雜誌開源,歡迎投稿。週刊另有《誰在招人》服務,釋出程式設計師招聘資訊。合作推廣請郵件聯絡([email protected])。
封面圖
這不是美術館,而是杭州臨安三口村的楊梅大棚,沿著山坡堆疊在一起。(via)
本週話題:訓練材料用完之日
現在的新聞報導,天天有 AI 的新聞,裡面會提到很多模型。
分辨模型的強弱,有一個關鍵指標,就是看它有多少個引數。一般來說,引數的數量越多,模型就越強。
GPT-2 有15億個引數,GPT-3 和 ChatGPT 有1750億個,GPT-4 沒有公佈這個指標,據傳比上一代大5倍以上。
那麼,什麼是引數呢?
按照我粗淺的理解,引數相當於模型預測時,所依據的神經網路的節點數量。引數越多,就代表了模型所考慮的各種可能性越多,計算量越大,效果越好。
既然引數越多越好,那麼引數會無限增長嗎?
答案是不會的,因為引數受到訓練材料的制約。必需有足夠的訓練材料,才能計算出這些引數,如果引數無限增長,訓練材料勢必也要無限增長。
我看到的一種說法是,訓練材料至少應該是引數的10倍。舉例來說,一個區分貓照片和狗照片的模型,假定有1,000個引數,那麼至少應該用10,000張圖片來訓練。
ChatGPT 有1750億個引數,那麼訓練材料最好不少於17500億個詞元(token)。"詞元"就是各種單詞和符號,以小說《紅樓夢》為例,它有788,451字,就算100萬個詞元。那麼, ChatGPT 的訓練材料相當於175萬本《紅樓夢》。
根據報導,ChatGPT 實際上用了 570 GB 的訓練材料,來自維基百科、網際網路圖書館、Reddit 論壇、推特等等。
大家想一想,更強大的模型需要更多的訓練材料,問題是能找到這麼多材料嗎,會不會材料有一天不夠用?
我告訴大家,真的有學者寫過論文,研究這個問題。
過去10年來,AI 訓練資料集的增長速度遠快於全世界的資料存量的增長速度。如果這種趨勢繼續下去,耗盡資料存量是不可避免的。
論文給出了三個時間點。
- 2026年:用完一般的語言資料
- 2030年~2050年:用完所有的語言資料
- 2030年~2060年:用完所有的視覺資料
也就是說,根據他們的預測,大概三四年後,新的訓練材料就會很難找。最遲三十年後,全世界所有材料都不夠 AI 的訓練。
上圖是作者給的趨勢圖,虛線是訓練材料的增長速度,紅線和藍線是模型增長速度的不同預測。到了2035年以後,這三根線就合在一起了,曲線變得越來越平。
作者認為,到了那時,由於沒有足夠的訓練材料,AI 模型的發展速度可能就會顯著放緩。
如果他的預測是正確的,就意味著,跟大家想的不一樣,AI 飛速發展不會持續很久。現在也許就是發展最快的階段,然後就會開始放慢,等到本世紀中葉就會顯著放慢,接近停滯,跟量子物理學的現狀差不多。
科技動態
1、車輪轉向系統
韓國現代汽車釋出了一項新技術,允許每個車輪獨立轉動90度。
演示影片中,這輛概念車可以橫著開,也可以原地調頭。
雖然實用性很強,但是該技術增加了車輛的複雜性和成本,對於正常行駛是否有影響也未知。現代汽車沒透露,是否會將其投入生產。
2、電腦椅的靜電
一位國外網友發帖說,他家的顯示器經常莫名其妙暗掉幾秒鐘,然後又好了。
他原以為是顯示器問題,後來發現只有移動電腦椅、或者坐下站起時,才會發生這個故障。
他的電腦椅是宜家的 MARKUS,很多網友回帖說,他們的這把電腦椅也有這個問題。
這把椅子的織物材料或者金屬座架,容易帶有靜電,一移動就會導致放電,使得電腦顯示器短時間關閉。
解決方法似乎只有換掉這把椅子,但也有動手能力強的網友,為椅子接上地線,讓它通地,從而解決了放電問題。
一項研究發現,無線耳機可以取代助聽器,幫助聽力受損的人,
蘋果的 Airpods 耳機有一個"實時收聽"功能,可以放大外界聲音,跟助聽器的功能很像,實際效果也很好。
助聽器的價格非常貴,好的要幾萬元人民幣,普通的也要幾千。無線耳機如果真能替代,將造福很多失聰的人。
4、沙壩蓄水池
韓國為了解決山區在旱季斷水的問題,新建了該國第一座沙壩蓄水池。
壩體內部有一個砂石的蓄水池,平時用來蓄水,需要時開啟管道,讓水流向下游。
這樣做據說有三個好處:水的蒸發大大減少;水質在透過沙床時得到改善;冬天的水不結冰。
5、智慧婚戒
一家捷克公司推出"智慧婚戒",這種婚戒可以感知佩戴者的心跳,並且能將心跳曲線顯示在戒指上。
有趣的地方是,它顯示的不是自己的心跳,而是對方的心跳。
它透過藍芽與手機通訊,只要佩戴者按壓戒指,手機就會聯絡另一隻配對的戒指。
對方的心跳頻率,就會傳到你的手機上,心跳曲線也顯示在戒指上。
發明者稱,它讓你隨時感受到愛人的浪漫心跳。它採用玫瑰金材質,報價是3000美元/對。
文章
1、我的開源經歷(中文)
作者分享自己的經歷,開發一個圖片編輯的網頁應用。(@nihaojob 投稿)
2、如何自己實現 CodePen(英文)
CodePen 是著名的網頁實時編輯預覽工具,本文教你怎麼實現它的主要功能,非常簡單。
3、tcpdump 快速上手(英文)
作者教你怎麼使用 tcpdump 這個命令列工具,檢視某個網站的 TCP 通訊。
4、WebGPU 為什麼重要(英文)
作業系統的圖形 API,目前是不統一的:Windows 是 DirectX,蘋果是 Metal,Linux 是 Vulkan。
WebGPU 是一種跨平臺的解決方案,提供了統一的介面。推薦這篇長文。
5、我開發 PCalc 的30年(英文)
作者在1992年為 Macintosh 電腦寫了一個計算器 PCalc(上圖)。後來,他一直維護這個專案30年,還把它移植到蘋果公司的其他裝置上,比如 iPhone 和 iWatch(下圖)。作者回憶了他這30年。
6、使用 hurl 自動化 HTTP 測試(英文)
本文介紹一種簡單的方法,使用 hurl 這個軟體,對網站 API 進行自動化測試,看它是否正確響應。
7、程式語言的錯誤處理機制(英文)
本文討論不同的語言如何處理報錯,比如 Java 會丟擲異常,而 Go 將錯誤賦值給一個變數。
這裡還有一篇相同主題的文章,也值得參考。
8、瘋狂的 C 語言字串(英文)
本文是 C 語言的字串教程,從結尾的\0
講到 Unicode,結論就是在 C 語言裡面,正確處理字串是一件多麼麻煩的事情。
工具
1、stagit
這個軟體可以將 Git 倉庫轉為一個靜態網站,為每個檔案、每次提交生成一個頁面。
2、元標籤生成器
很多社交媒體對於外部 URL,會顯示一個卡片,上面有標題、縮圖和頁面簡要內容。這些資訊來自網頁裡面的元標籤,這個工具可以幫助你生成這些元標籤。
3、CJK 字型識別
上傳一張東亞文字的圖片,這個開源工具可以識別這些文字用了什麼字型。(@JeffersonQin 投稿)
一個自託管的開源微博網站,只能一個人使用(即沒有多使用者),支援 ActivityPub 協議。
一個終端視窗的 Markdown 檔案渲染器,適合用來在終端下閱讀 Markdown 檔案。
這個網站為使用者輸入的文字,生成一個用於分享的 URL。但是,這個 URL 只能開啟一次,第二次訪問就會不存在,有點像"閱後即焚"。
一個帶有上傳進度顯示的網頁多檔案上傳 JS 庫。
8、snappify
一個將程式碼片段生成截圖的工具。
9、RustDesk
一個開源的遠端桌面軟體,讓你遠端操作其他電腦的桌面,有各種作業系統的客戶端。
10、LosslessCut
一個影片編輯器,最大特點是不進行重新編碼,按照原影片的格式進行剪下連線,因此速度極快。
資源
吳恩達與 OpenAI 合作的免費英文課程,教大家怎麼編寫 ChatGPT 提示,做出一個自己的聊天機器人。
Udemy 高分付費課程的中文字幕版。(@lyf61 投稿)
解釋 QUIC 協議通訊的每個位元組的含義,原始英文版的翻譯。(@cangSDARM 投稿)
4、Musico
一個自動生成音樂的 AI 模型,它的官網可以收聽這個模型生成的音樂。
圖片
1、雲的表情
一位美國藝術家專門為各種雲的照片,新增表情,使得雲看上去像一個卡通人物。
他原本只是出於無聊,隨手拍了一些雲的照片,畫上表情以後,發到網上。
後來,他發現很多人喜歡這些作品,就堅持了下來。
他說:"看著雲,你會產生無窮無盡的靈感。"
現在,越來越多的讀者向他投稿。他還準備出書。
文摘
1、忙碌的七個層次
生活的忙碌可以分成七個層次。
大家可以對照一下,自己屬於哪個層次?
第 1 級:一點不忙。
時間很自由,怎麼安排都可以,沒有一定要去完成的事項,週末想睡多久就多久。
第 2 級:有一些小事。
你記得有一些事要做。這些事情是合理的事項,沒有截止期,但是你知道這些事遲早要做。
第 3 級:有一些重要的事。
你有必須要做的事情,需要及時跟蹤,不能拖延,你會時刻提醒自己這些事情。
第 4 級:日程排滿了。
你的日程排滿了,不得不經常問自己"什麼事情更重要?",以便決定先做哪些事,後做哪些事。
你沒有計劃外的時間,不過你還能控制日程。
第 5 級:生活出現混亂。
你的事情在工作時間做不完,你開始加班了。
你經常因為事情來不及,而對別人說"對不起"。那些事情並沒有被你放棄,只是你不得不趕時間,有些事情執行變得草率。
第 6 級:任務做不完。
你需要做的事情,超過了你安排日程的能力。即使放棄某些事情,你依然做不完剩下的事情。
你的工作時間大大延長,影響到正常生活。你感到非常疲勞。
第 7 級:日子過不下去。
各種任務塞滿了你醒著的每一分鐘。吃飯和其他生活必需的事情,都是抽時間來做。你忙起來的時候,甚至飯也沒時間吃。
你不寫日程安排了,因為根本沒有時間做計劃,每個小時情況都在發生變化。
你走路也心不在焉,常常覺得要崩潰,日子過不下去了。
言論
1、
我離開谷歌,是為了呼籲 AI 的風險,在谷歌任職不方便談論這些事情。
-- "深度學習之父"傑弗裡·欣頓(Geoffrey Hinton),宣佈從谷歌辭職
2、
歐洲的問題是,沒有將網際網路視為可利用的經濟機會,而是看成需要監管的物件。
3、
大多數人都認為,手下的人比自己聰明,是沒有問題的。一般來說,領導人都要聘請比自己聰明的顧問和幕僚。
那麼,當你的手下變成了比你聰明的 AI 模型時,人們為什麼會感到受威脅呢?
-- Yann LeCun,Meta 首席 AI 科學家
4、
要成為優秀程式設計師,請編寫大量程式碼;要成為頂級程式設計師,請閱讀大量程式碼。
歷史上的本週
如何走出失望和懷疑(2022 #206)
顯示卡缺貨與異業競爭(2021 #156)
數字遊民(2020 #106)
文科生為什麼不容易就業?(2019 #56)
鳴謝
週刊得到國內新一代知識管理與協作平臺 FlowUs 的幫助,深表感謝。
FlowUS = 文件 + 表格 + 網盤。你可以用它寫文件、做主頁、管理資料、儲存檔案等等。
每一期週刊同時釋出在 FlowUs 專欄,歡迎大家也去開通自己的專欄和主頁。
(完)