科技愛好者週刊(第 253 期):訓練材料用完之日

阮一峰發表於2023-05-05

本雜誌開源,歡迎投稿。週刊另有《誰在招人》服務,釋出程式設計師招聘資訊。合作推廣請郵件聯絡[email protected])。

封面圖

這不是美術館,而是杭州臨安三口村的楊梅大棚,沿著山坡堆疊在一起。(via

本週話題:訓練材料用完之日

現在的新聞報導,天天有 AI 的新聞,裡面會提到很多模型。

分辨模型的強弱,有一個關鍵指標,就是看它有多少個引數。一般來說,引數的數量越多,模型就越強。

GPT-2 有15億個引數,GPT-3 和 ChatGPT 有1750億個,GPT-4 沒有公佈這個指標,據傳比上一代大5倍以上。

那麼,什麼是引數呢?

按照我粗淺的理解,引數相當於模型預測時,所依據的神經網路的節點數量。引數越多,就代表了模型所考慮的各種可能性越多,計算量越大,效果越好。

既然引數越多越好,那麼引數會無限增長嗎?

答案是不會的,因為引數受到訓練材料的制約。必需有足夠的訓練材料,才能計算出這些引數,如果引數無限增長,訓練材料勢必也要無限增長。

我看到的一種說法是,訓練材料至少應該是引數的10倍。舉例來說,一個區分貓照片和狗照片的模型,假定有1,000個引數,那麼至少應該用10,000張圖片來訓練。

ChatGPT 有1750億個引數,那麼訓練材料最好不少於17500億個詞元(token)。"詞元"就是各種單詞和符號,以小說《紅樓夢》為例,它有788,451字,就算100萬個詞元。那麼, ChatGPT 的訓練材料相當於175萬本《紅樓夢》。

根據報導,ChatGPT 實際上用了 570 GB 的訓練材料,來自維基百科、網際網路圖書館、Reddit 論壇、推特等等。

大家想一想,更強大的模型需要更多的訓練材料,問題是能找到這麼多材料嗎,會不會材料有一天不夠用?

我告訴大家,真的有學者寫過論文,研究這個問題。

過去10年來,AI 訓練資料集的增長速度遠快於全世界的資料存量的增長速度。如果這種趨勢繼續下去,耗盡資料存量是不可避免的。

論文給出了三個時間點。

  • 2026年:用完一般的語言資料
  • 2030年~2050年:用完所有的語言資料
  • 2030年~2060年:用完所有的視覺資料

也就是說,根據他們的預測,大概三四年後,新的訓練材料就會很難找。最遲三十年後,全世界所有材料都不夠 AI 的訓練。

上圖是作者給的趨勢圖,虛線是訓練材料的增長速度,紅線和藍線是模型增長速度的不同預測。到了2035年以後,這三根線就合在一起了,曲線變得越來越平。

作者認為,到了那時,由於沒有足夠的訓練材料,AI 模型的發展速度可能就會顯著放緩。

如果他的預測是正確的,就意味著,跟大家想的不一樣,AI 飛速發展不會持續很久。現在也許就是發展最快的階段,然後就會開始放慢,等到本世紀中葉就會顯著放慢,接近停滯,跟量子物理學的現狀差不多。

科技動態

1、車輪轉向系統

韓國現代汽車釋出了一項新技術,允許每個車輪獨立轉動90度。

演示影片中,這輛概念車可以橫著開,也可以原地調頭。

雖然實用性很強,但是該技術增加了車輛的複雜性和成本,對於正常行駛是否有影響也未知。現代汽車沒透露,是否會將其投入生產。

2、電腦椅的靜電

一位國外網友發帖說,他家的顯示器經常莫名其妙暗掉幾秒鐘,然後又好了。

他原以為是顯示器問題,後來發現只有移動電腦椅、或者坐下站起時,才會發生這個故障。

他的電腦椅是宜家的 MARKUS,很多網友回帖說,他們的這把電腦椅也有這個問題。

這把椅子的織物材料或者金屬座架,容易帶有靜電,一移動就會導致放電,使得電腦顯示器短時間關閉。

解決方法似乎只有換掉這把椅子,但也有動手能力強的網友,為椅子接上地線,讓它通地,從而解決了放電問題。

3、無線耳機的助聽作用

一項研究發現,無線耳機可以取代助聽器,幫助聽力受損的人,

蘋果的 Airpods 耳機有一個"實時收聽"功能,可以放大外界聲音,跟助聽器的功能很像,實際效果也很好。

助聽器的價格非常貴,好的要幾萬元人民幣,普通的也要幾千。無線耳機如果真能替代,將造福很多失聰的人。

4、沙壩蓄水池

韓國為了解決山區在旱季斷水的問題,新建了該國第一座沙壩蓄水池。

壩體內部有一個砂石的蓄水池,平時用來蓄水,需要時開啟管道,讓水流向下游。

這樣做據說有三個好處:水的蒸發大大減少;水質在透過沙床時得到改善;冬天的水不結冰。

5、智慧婚戒

一家捷克公司推出"智慧婚戒",這種婚戒可以感知佩戴者的心跳,並且能將心跳曲線顯示在戒指上。

有趣的地方是,它顯示的不是自己的心跳,而是對方的心跳。

它透過藍芽與手機通訊,只要佩戴者按壓戒指,手機就會聯絡另一隻配對的戒指。

對方的心跳頻率,就會傳到你的手機上,心跳曲線也顯示在戒指上。

發明者稱,它讓你隨時感受到愛人的浪漫心跳。它採用玫瑰金材質,報價是3000美元/對。

文章

1、我的開源經歷(中文)

作者分享自己的經歷,開發一個圖片編輯的網頁應用。(@nihaojob 投稿)

2、如何自己實現 CodePen(英文)

CodePen 是著名的網頁實時編輯預覽工具,本文教你怎麼實現它的主要功能,非常簡單。

3、tcpdump 快速上手(英文)

作者教你怎麼使用 tcpdump 這個命令列工具,檢視某個網站的 TCP 通訊。

4、WebGPU 為什麼重要(英文)

作業系統的圖形 API,目前是不統一的:Windows 是 DirectX,蘋果是 Metal,Linux 是 Vulkan。

WebGPU 是一種跨平臺的解決方案,提供了統一的介面。推薦這篇長文。

5、我開發 PCalc 的30年(英文)

作者在1992年為 Macintosh 電腦寫了一個計算器 PCalc(上圖)。後來,他一直維護這個專案30年,還把它移植到蘋果公司的其他裝置上,比如 iPhone 和 iWatch(下圖)。作者回憶了他這30年。

6、使用 hurl 自動化 HTTP 測試(英文)

本文介紹一種簡單的方法,使用 hurl 這個軟體,對網站 API 進行自動化測試,看它是否正確響應。

7、程式語言的錯誤處理機制(英文)

本文討論不同的語言如何處理報錯,比如 Java 會丟擲異常,而 Go 將錯誤賦值給一個變數。

這裡還有一篇相同主題的文章,也值得參考。

8、瘋狂的 C 語言字串(英文)

本文是 C 語言的字串教程,從結尾的\0講到 Unicode,結論就是在 C 語言裡面,正確處理字串是一件多麼麻煩的事情。

工具

1、stagit

這個軟體可以將 Git 倉庫轉為一個靜態網站,為每個檔案、每次提交生成一個頁面。

2、元標籤生成器

很多社交媒體對於外部 URL,會顯示一個卡片,上面有標題、縮圖和頁面簡要內容。這些資訊來自網頁裡面的元標籤,這個工具可以幫助你生成這些元標籤。

3、CJK 字型識別

上傳一張東亞文字的圖片,這個開源工具可以識別這些文字用了什麼字型。(@JeffersonQin 投稿)

4、microblog.pub

一個自託管的開源微博網站,只能一個人使用(即沒有多使用者),支援 ActivityPub 協議。

5、Textual Markdown Browser

一個終端視窗的 Markdown 檔案渲染器,適合用來在終端下閱讀 Markdown 檔案。

6、HorusPass

這個網站為使用者輸入的文字,生成一個用於分享的 URL。但是,這個 URL 只能開啟一次,第二次訪問就會不存在,有點像"閱後即焚"。

7、Progress-up

一個帶有上傳進度顯示的網頁多檔案上傳 JS 庫。

8、snappify

一個將程式碼片段生成截圖的工具。

9、RustDesk

一個開源的遠端桌面軟體,讓你遠端操作其他電腦的桌面,有各種作業系統的客戶端。

10、LosslessCut

一個影片編輯器,最大特點是不進行重新編碼,按照原影片的格式進行剪下連線,因此速度極快。

資源

1、面向開發人員的 ChatGPT 提示工程

吳恩達與 OpenAI 合作的免費英文課程,教大家怎麼編寫 ChatGPT 提示,做出一個自己的聊天機器人。

2、Next.js 和 React 完整指南

Udemy 高分付費課程的中文字幕版。(@lyf61 投稿)

3、圖解 QUIC 連線(中文版)

解釋 QUIC 協議通訊的每個位元組的含義,原始英文版的翻譯。(@cangSDARM 投稿)

4、Musico

一個自動生成音樂的 AI 模型,它的官網可以收聽這個模型生成的音樂。

圖片

1、雲的表情

一位美國藝術家專門為各種雲的照片,新增表情,使得雲看上去像一個卡通人物。

他原本只是出於無聊,隨手拍了一些雲的照片,畫上表情以後,發到網上。

後來,他發現很多人喜歡這些作品,就堅持了下來。

他說:"看著雲,你會產生無窮無盡的靈感。"

現在,越來越多的讀者向他投稿。他還準備出書。

文摘

1、忙碌的七個層次

生活的忙碌可以分成七個層次。

大家可以對照一下,自己屬於哪個層次?

第 1 級:一點不忙。

時間很自由,怎麼安排都可以,沒有一定要去完成的事項,週末想睡多久就多久。

第 2 級:有一些小事。

你記得有一些事要做。這些事情是合理的事項,沒有截止期,但是你知道這些事遲早要做。

第 3 級:有一些重要的事。

你有必須要做的事情,需要及時跟蹤,不能拖延,你會時刻提醒自己這些事情。

第 4 級:日程排滿了。

你的日程排滿了,不得不經常問自己"什麼事情更重要?",以便決定先做哪些事,後做哪些事。

你沒有計劃外的時間,不過你還能控制日程。

第 5 級:生活出現混亂。

你的事情在工作時間做不完,你開始加班了。

你經常因為事情來不及,而對別人說"對不起"。那些事情並沒有被你放棄,只是你不得不趕時間,有些事情執行變得草率。

第 6 級:任務做不完。

你需要做的事情,超過了你安排日程的能力。即使放棄某些事情,你依然做不完剩下的事情。

你的工作時間大大延長,影響到正常生活。你感到非常疲勞。

第 7 級:日子過不下去。

各種任務塞滿了你醒著的每一分鐘。吃飯和其他生活必需的事情,都是抽時間來做。你忙起來的時候,甚至飯也沒時間吃。

你不寫日程安排了,因為根本沒有時間做計劃,每個小時情況都在發生變化。

你走路也心不在焉,常常覺得要崩潰,日子過不下去了。

言論

1、

我離開谷歌,是為了呼籲 AI 的風險,在谷歌任職不方便談論這些事情。

-- "深度學習之父"傑弗裡·欣頓(Geoffrey Hinton),宣佈從谷歌辭職

2、

歐洲的問題是,沒有將網際網路視為可利用的經濟機會,而是看成需要監管的物件。

-- 《歐洲沒有準備好成為"第三超級大國"》

3、

大多數人都認為,手下的人比自己聰明,是沒有問題的。一般來說,領導人都要聘請比自己聰明的顧問和幕僚。

那麼,當你的手下變成了比你聰明的 AI 模型時,人們為什麼會感到受威脅呢?

-- Yann LeCun,Meta 首席 AI 科學家

4、

要成為優秀程式設計師,請編寫大量程式碼;要成為頂級程式設計師,請閱讀大量程式碼。

--《請編寫 CRISP 程式碼》

歷史上的本週

如何走出失望和懷疑(2022 #206)

顯示卡缺貨與異業競爭(2021 #156)

數字遊民(2020 #106)

文科生為什麼不容易就業?(2019 #56)

鳴謝

週刊得到國內新一代知識管理與協作平臺 FlowUs 的幫助,深表感謝。

FlowUS = 文件 + 表格 + 網盤。你可以用它寫文件、做主頁、管理資料、儲存檔案等等。

每一期週刊同時釋出在 FlowUs 專欄,歡迎大家也去開通自己的專欄和主頁。

(完)

相關文章