Scaling Laws 是否失靈,這個話題從 2024 年年尾一直討論至今,也沒有定論。 Ilya Sutskever 在 NeurIPS 會上直言:大模型預訓練這條路可能已經走到頭了。上週的 CES 2025,黃仁勳有提到,在英偉達看來,Scaling Laws 仍在繼續,所有新 RTX 顯示卡都在遵循三個新的擴充套件維度:預訓練、後訓練和測試時間(推理),提供了更佳的實時視覺效果。 而這一切的思考,都可以追溯到「RL 之父」 Rich Sutton 在 2019 年發表的經典短文 The Bitter Lesson 《苦澀的教訓》。 Y Combinator 校友日上,Andon Labs 的 CEO 兼聯合創始人 Lukas Petersson 聽完 100 多個專案路演後寫下了一個有趣的觀察:《苦澀的教訓》中所寫的 AI 研究歷史似乎正在 AI 創業界重演。 研究人員曾一次又一次試圖透過精巧的工程設計來提升效能,但最終都敗給了簡單粗暴的「加大算力」方案。 而今天,AI 產品的開發者們,似乎正在重走這條老路。 機器之心在不改變部落格原意的基礎上進行了編譯。 如果覺得部落格太長,核心內容已經總結好了:
歷史證明,通用方法總是在 AI 領域勝出;
當下 AI 應用領域的創業者正在重蹈 AI 研究者過去的覆轍;
更強大的 AI 模型將催生通用型 AI 應用,同時也會削弱 AI 模型「套殼」軟體的附加價值。
AI 技術的飛速發展帶來了一波又一波新產品。在 YC 校友演示日上,我見證了 100 多個創業專案的路演。這些專案都有一個共同點:它們瞄準的都是施加了各種限制和約束的 AI 解決的簡單問題。 AI 真正的價值在於它能靈活處理各類問題。給 AI 更多自由度通常能帶來更好的效果,但現階段的 AI 模型還不夠穩定可靠,所以還無法大規模開發這樣的產品。 這種情況在 AI 發展史上反覆出現過,每次技術突破的路徑都驚人地相似。如果創業者們不瞭解這段歷史教訓,恐怕要為這些經驗「交些學費」。 2019 年,AI 研究泰斗 Richard Sutton 在他那篇著名的《苦澀的教訓》開篇提到: 「70 年的 AI 研究歷史告訴我們一個最重要的道理:依靠純粹算力的通用方法,最終總能以壓倒性優勢勝出。」 這篇文章標題裡的「苦澀」二字,正是來自那些精心設計的「專家系統」最終都被純靠算力支撐的系統打得落花流水。這個劇情在 AI 圈一演再演 —— 從語音識別到計算機象棋,再到計算機視覺,無一例外。 如果 Sutton 今天重寫《苦澀的教訓》,他一定會把最近大火的生成式 AI 也加入這份「打臉清單」,提醒我們:這條鐵律還未失效。
同在 AI 領域,我們似乎還沒有真正吸取教訓,因為我們仍在重複同樣的錯誤...... 我們必須接受這個殘酷的現實:在 AI 系統中,強行植入我們認為的思維方式,從長遠來看註定失敗。這個「苦澀的教訓」源於以下觀察: 1.AI 研究者總想把人類的知識經驗塞進 AI2. 這招短期確實管用,還能讓研究者有成就感3. 但遲早會遇到瓶頸,甚至阻礙 AI 的進步4. 真正的突破往往出人意料 —— 就是簡單地加大計算規模
站在 AI 研究者的角度,得到了《苦澀的教訓》,意味著在總結教訓的過程中明確了什麼是「更好」的。對於 AI 任務,這很好量化 —— 下象棋就看贏棋機率,語音識別就看準確率。對於本文討論的 AI 應用產品,「更好」不僅要看技術表現,還要考慮產品效能和市場認可度。 從產品效能維度來看,即產品能在多大程度上取代人類的工作。效能越強,就能處理越複雜的任務,創造的價值自然也就越大。 圖 1. 展示了不同型別的 AI 產品,本文主要討論應用層 AI 產品通常是給 AI 模型加一層軟體包裝。因此,要提升產品效能,有兩條路徑: 1. 工程升級:在軟體層面利用領域知識設定約束2. 模型升級:等待 AI 實驗室釋出更強大的模型 這兩條路看似都可行,但在此有個重要洞察:隨著模型效能提升,最佳化工程的價值在不斷下降。 現階段,軟體端的設計確實能提升產品表現,但這只是因為當前模型還不夠完善。隨著模型變得更可靠,只需要將模型接入軟體就能解決大多數問題了 —— 不需要複雜的的工程。 圖 2. 投入工程的價值會隨著投入增加和更強大模型的出現而遞減。 上圖展示了一個趨勢:隨著 AI 模型的進步,工程帶來的價值將逐漸減少。雖然當前的模型還有明顯不足,企業仍能透過工程投入獲得可觀回報。 這一點在 YC 校友演示日上表現得很明顯。創業公司主要分為兩類:第一類是已經實現規模化的產品,專注解決簡單問題,但數量還不多;第二類則瞄準了相對複雜的問題。後者目前發展勢頭不錯,因為他們的概念驗證證明:只要在工程上下足功夫,就能達到預期目標。 但這些公司面臨一個關鍵問題:下一個模型釋出會不會讓所有工程上的都成為無用功,摧毀他們的競爭優勢?OpenAI 的 o1 模型釋出就很好地說明了這個風險。 我和很多 AI 應用層的創業者聊過,他們都很擔心,因為他們投入了大量精力來完善提示詞。有了 o1 後,提示詞工程的重要性就大大降低了。 從本質上講,這種工程的目的是為了約束 AI 少犯錯誤。透過觀察眾多產品,可以概括為兩類約束: