科技愛好者週刊(第 299 期):AI 的關鍵是語料

阮一峰發表於2024-05-10

本雜誌開源,歡迎投稿。另有《誰在招人》服務,釋出程式設計師招聘資訊。合作請郵件聯絡[email protected])。

封面圖

上圖是河南新鄉的中原融創文旅城"冰立方",模仿冰塊堆疊的效果,10個玻璃冰塊組成三個建築單元。(via

AI 的關鍵是語料

大家有沒有發現,現在開啟新聞,都是 AI 模型的訊息。

今天甲釋出一個模型,明天乙釋出一個模型,個個(聽上去)都具備了不得的能力。

2023年5月有一個統計,那個時候,10億引數以上的模型,中國已經發布了79個。一年過去了,現在恐怕上千了。

說實話,我現在看到新模型,已經麻木了,壓根不覺得這種訊息有什麼重要。

我的觀點是,不管怎麼調整模型的架構、功能、引數,作用是有限的,真正決定性的因素是訓練模型的語料。

不需要說,你的模型多新穎、多強大,只需要告訴我,你用什麼語料訓練模型。

模型完美,但是語料垃圾,一樣不行;反之,模型很平常,但是語料足夠,那就 OK。模型不是關鍵,語料才是關鍵。

這其實不是我的觀點,而是 OpenAI 的工程師 James Betker 的觀點。他是 AI 專家,著名"文生圖"模型 DALL-E 的第一作者。

去年,他寫過一篇文章,只有幾段話,在國外的影響很大。國內似乎沒人提到這件事。但是我認為,這篇文章很重要。

他說,自己的日常工作就是開發 AI 模型,但是不管怎麼增加引數、調整方程,模型效果都不如語料集的大小來得顯著。

更多的訓練材料,會顯著提升模型效果,影響遠大於其他因素。更神奇的是,不同的模型拿同樣的語料訓練,最後的表現居然很接近。

他的結論是,模型的差異其實不是關鍵,決定性的是你的訓練材料。只要有更多更好的語料,不管用什麼模型,都會得到差不多的結果。

初次聽到,你可能覺得,這個結論難以置信,但是仔細想想,你會發現它很可能是對的。

因為不管什麼 AI 模型,最終目標只有一個,就是模仿人類的思維。語料體現的正是人類思維,同一份語料,不管你拿什麼規則去分析,最後得到的結果應該是一樣的,因為它包含的人類思維是不變的。

這就好像,不同的畫家去臨摹同一個模特,如果目標都是復現原貌,那麼只要畫家達到一定水準,不管誰來畫,結果將非常接近,因為模特的長相是不變的。

這告訴我們兩點啟示。

(1)哪一家公司的語料的數量多、質量好,它的模型就會強於其他公司。

(2)開源模型完全可以替代閉源模型,前提是訓練語料要足夠。

下面是 James Betker 的原文,大家仔細讀讀,看看是否認同他的觀點。

每當我花了幾個小時,觀察和調整各種模型配置和引數時,有一件事讓我印象深刻,那就是所有訓練結果之間的相似性。

我越來越發現,這些模型以令人難以置信的程度,向它們的語料集靠近。

這表明在相同的語料集上訓練足夠長的時間,幾乎每個具有足夠權重和訓練時間的模型都會收斂到同一點。足夠大的擴散卷積網路會產生相同的結果。

這是一個令人驚訝的觀察!

這意味著模型行為不是由架構、引數或最佳化器決定的。它由你的語料集決定,沒有其他決定因素。其他一切因素都不過是為了有效計算以近似該語料集的手段。

當你談論 Lambda、ChatGPT、Bard 或Claude 時,指的並不是它們的模型,而是它們的語料集。

稀土開發者大會:徵集議題和早鳥票

國內開發者的線下大聚會要來了,今年的"稀土開發者大會"已經定下了時間,就在六月底。

這次大會的議題非常廣泛:前端、AI、雲端計算、架構、DevOps......

最重要的一點是,它向所有開發者開放演講臺如果你有工具要推出,有開發的經驗要分享,大會都會提供演講臺,讓你展示在全國開發者面前。

只要能引起聽眾興趣的乾貨內容,就可以申請成為演講嘉賓,在該主題的分論壇上臺發言。一旦組委會確定,即可免費參加本次大會。

其他朋友參加大會,可以現在購買早鳥票。兩天的所有活動,學生票只要99元,基本上就是電影票的價格。正常票的拼團價是139元,如果兩天包午餐,價格是799元。

提交議題和購票,都請點選這個連結,或者掃描上方海報的二維碼。早鳥票的時間和名額有限,如果你想結交朋友、感受業內動向,不妨抓緊時間購票。

科技動態

1、氣球屋

住宿平臺 airbnb 推出了一個氣球屋,完美地再現了迪斯尼電影《飛屋環遊記》,住客現在就可以申請入住。

這個屋子的所有傢俱和佈局,跟電影裡面一模一樣。

它的屋頂上了裝了8000個氦氣球。

這個屋子可以"飛"起來,當然不是氣球拉動的,而是用吊車把它吊在半空,然後遊客住在裡面。

我在想,如果吊在半空,水電怎麼供應呢?看來這棟屋子一定配備了水箱、水泵、發電機和電池。

2、AI 小姐

一家英國網際網路公司宣佈,舉辦第一屆世界 AI 小姐選美比賽。

今年5月10日之前,全世界的創作者都可以向它的官網提交作品。

作品不僅僅包括 AI 生成的虛擬美女照片,還必須在社交平臺上與粉絲互動,漲粉數量也是評選指標之一。

評審團將評出前三名,獲得"AI 小姐"的稱號,還有總額2萬美元的獎金。

主辦單位稱,該比賽是為了擴大 AI 的影響,幫助創作者將內容貨幣化。這件事表明,娛樂業將是 AI 最早、最大的應用領域之一。

3、摩托車的呼嘯聲

一些摩托車騎士喜歡非常響亮的引擎呼嘯聲,甚至去改動引擎。他們辯解,大音量的噪聲能夠讓別人儘早注意到,從而減少交通事故。

為了驗證這種說法是否正確,一個羅馬尼亞團隊進行了現場實驗。

他們一共實驗了6輛摩托車,噪音都在80分貝到110分貝之間。這是很大的噪音,飛機起飛時的噪音為100分貝到120分貝,摩托車的噪音就是這麼響。

研究人員發現,如果轎車司機關閉車窗,那麼只有摩托車距離汽車10米之內時,司機才會聽到聲音。這意味著,高速行駛時,司機根本來不及做出反應。

這個實驗說明,保證交通安全的不是響亮的引擎聲,而是要降低車速。

文章

1、CPU 超頻的天花板(中文)

很多玩家喜歡超頻 CPU,越快越好。但是,到達物理極限後,就很難突破。用了整整15年,世界紀錄才從 8G Hz 提高到 9G Hz。

2、空的 S3 儲存桶也能產生費用(英文)

亞馬遜 S3 是最流行的儲存雲服務,作者建了一個空儲存桶,萬萬沒想到,沒有寫入任何資料,兩天居然產生了1300美元的費用。

3、2024阿里巴巴全球數學競賽預選賽(中文)

作者參加2024阿里巴巴全球數學競賽預選賽,全部七道題只會做第1、2、6題,他分享了自己的解答。(@longluo 投稿)

4、Git 的離線使用(英文)

作者介紹沒有網路怎樣備份 Git 倉庫,比如把本地倉庫推送到 U 盤。

5、如何為專案設定打卡點(英文)

本文介紹一種便捷方法,使用 Makefile 在程式碼倉庫裡面設定打卡點(checkpoint)。

6、伺服器實時訊息獲取的技術方案(英文)

本文比較了瀏覽器獲得伺服器實時訊息的五種技術方案:WebSockets、伺服器傳送事件、長輪詢、WebRTC、WebTransport。

AI 相關

1、Remix Yourself

這個網站要求上傳三張照片,第一張是佈局,第二張是樣式,第三張是人像。

它會將它們合成一張。

2、twogethe.ai

這個網站使用 AI,生成你與名人(或者任意兩個人)的合照。

3、AI 說圖解圖

一個開源軟體,生成上傳圖片的文字描述,基於 ERNIE 3.5 和 GEMINI-PRO-1.5 API。(@ShurshanX 投稿)

4、AI 生成的音樂影片(英文)

OpenAI 釋出了一段4分鐘的音樂影片,畫面和音樂都是 AI 生成的。這是迄今 AI 生成的最長影片。

5、HackerNews 每日 AI 摘要

這個專案對 Hacker News 每天的熱點文章,生成中文的 AI 摘要,除了官網,還會發到飛書上面。(@rmrf 投稿)

6、MaxKB

一款基於 LLM 大語言模型的知識庫問答系統,可以無縫嵌入第三方網站,實現智慧問答。(@maninhill 投稿)

7、GeoSpy AI

這個網站使用 AI 識別上傳照片的拍攝地點。

8、七個免費 LLM Playground

本文列出七個可以線上試用各種 LLM 的網站。(@webup 投稿)

工具

1、ElysiaJS

JS 語言的 Web 框架,專門為 Bun 執行環境開發。

2、mcfly

Shell 操作歷史的搜尋工具,提供神經網路搜尋功能,可以替代 ctrl-r 快捷鍵。

3、DocKit

Elasticsearch/OpenSearch 的跨平臺桌面客戶端,整合了 OpenAI,可以用自然語言與資料庫互動。(@Blankll 投稿)

4、IMaker 創客

一款開源的封面設計工具,基於 JS 的 Web 應用,有試用 Demo。(@slince-zero 投稿)

5、VideoSubtitleGenerator

一個命令列工具,透過語音識別,批次為本地的影片檔案生成字幕,並支援翻譯。(@buxuku 投稿)

6、vmr

一個跨平臺的通用版本管理器,目前支援40多種程式語言和工具。(@moqsien 投稿)

另有一個類似工具 vfox。(@aooohan 投稿)

7、Pichome

一款開源網盤程式,使用 PHP 開發。(@fhxsnabi 投稿)

8、筆.COOL

CodePen 的國產替代品,實時預覽 HTML、CSS 和 JavaScript 程式碼的渲染結果。(@uovol 投稿)

9、vue-styled-components

一款類似 styled-components 的 CSS 工具,支援 vue 3。(@akinocccc 投稿)

10、MonsterMusic

一款開源的安卓音樂播放器。(@ZTFtrue 投稿)

11、豆瓣圖書館查詢助手

一款瀏覽器外掛,在豆瓣讀書頁面上,檢視該書在指定圖書館的藏書情況。(@wyj0605 投稿)

資源

1、技術概念示意圖

這個倉庫收集各種技術概念的示意圖。

2、海棠詩社

網友開發的詩詞網站。(@javayhu 投稿)

3、svgl

一個常用徽標 Logo 的搜尋引擎,提供 SVG 檔案下載。

4、Brick Center

你輸入一個關鍵詞,這個網站自動生成它的樂高拼裝。(@husu 投稿)

圖片

1、MacBook 的記憶體

蘋果的 MacBook 筆記本,記憶體是 8GB。如果要更多的記憶體,就要花錢買,價格非常貴。

大家都在質疑,為什麼記憶體這麼少?相比之下,Windows 筆記本的最小記憶體,現在一般都是 16GB。

蘋果解釋,macOS 系統效率高,自家的 8GB 記憶體等於別家的 16GB。

有人畫了一張 MacBook 記憶體演變圖。

從上圖可以看到,蘋果以前是經常升級記憶體的,每過幾年就升級一次。

但是,2011年以後只升級過一次記憶體,從 6GB 變成 8GB,以後就一直沒升級。

有意思的是,2011年是蒂姆·庫克成為蘋果 CEO 的時間。他以前是主管供應鏈的,以成本控制而聞名。

2、PalmOS

還有人記得 iPhone 之前的智慧手機嗎?

當時主要系統是諾基亞的塞班、微軟的 Windows CE 和 PalmOS。下面就是 Palm 手機。

它的使用者介面如下。

不要覺得簡陋,那是當時最先進的系統,售價幾千元人民幣一部。

文摘

1、飽腹感指數

什麼食物最能夠消除飢餓感?

一個澳大利亞科學家發明了"飽腹感指數"。他選出38種食物,每一種的熱量都是240卡路里。

實驗者依次食用每一種食物,每吃一種,就要在隨後的兩小時中,每隔15分鐘為自己的飽腹程度打分。

最後發現,碳水化合物(麵包、炸薯條、煮土豆)的效果最好。其中,煮土豆的飽腹感指數最高。

這是因為食物中含有的纖維、蛋白質和水越多,消化時間就越長,從而產生更久的飽腹感。而且,碳水化合物會立即升高血糖,從而使得身體馬上知道已經飽了。

煮土豆含有大量的纖維和水,同樣熱量的情況下,體積又很大,還會升高血糖,所以產生了長時間的飽腹感。

水果的飽腹感指數也很高,因為水份和纖維含量大,但是水果的熱量低,同樣熱量的情況下,水果的份量最多,不容易全吃下去。而且,水果的胃排空速度很快,第二個小時飽腹感就會消失。

高脂肪食物的飽腹感很差,因為它們的胃排空速度也很快。所以,吃肥肉容易餓。

因此,水果搭配高碳水、高蛋白的食物一起吃(比如全麥麵包 + 瘦肉 + 橙子),是一個比較好的飲食方案。

言論

1、

軟體公司應該提倡"無罪文化"。

發生產品事故或者服務中斷時,不要認定罪人並懲罰他們,而要假設相關個人出於良好意圖,只是沒有得到正確的資訊來做出更好的決策,或者沒有工具及時制止他們犯錯。

-- 《關於無罪文化》

2、

我們做的許多不想做的事情,實際上很容易開始做,比如很容易開始喝酒,或者很容易開啟抖音。

如果你想停止做這些事,首先就是要設法增加障礙,讓自己很難開始做它們。

-- 《出現就是成功的75%》

3、

科技行業的一切,核心都是利潤,而不是其他任何事情。因此,你需要儘快推出新產品或新服務,這樣才可能產生利潤。這意味著儘量使用更多的抽象層、更多的自動化、更少的人員,結果就是開發者越來越缺乏對技術的深入理解。

-- 《我們使用了太多的抽象層次》

4、

島嶼巨人症指的是一種生物現象,生存在島嶼上的動物,小型物種往往會身體變大,因為缺乏天敵。相應地,大型物種往往會身體變小(又稱"島嶼侏儒症"),因為不容易有穩定的食物供給。

-- 維基百科

5、

風險投資家沒有理由破壞與你的關係,他們拒絕你的時候不會說"不",而會用其他400種說法,比如"等你的使用者再多一點的時候,再和我們談談"、"當你下一輪融資時,請來找我們"。

-- 《投資家的"是"實際上意味著"否"》

往年回顧

網際網路創業變難了(2023 #252)

三個有啟發的學習方法(2022 #202)

從北大到技校(2021 #152)

工作熱情從何而來?(2020 #102)

(完)

相關文章