70年AI研究得出了《苦澀的教訓》:為什麼說AI創業也在重複其中的錯誤?

机器之心發表於2025-02-05
人人都在做垂直 AI 產品,為什麼要反其道而行?

Scaling Laws 是否失靈,這個話題從 2024 年年尾一直討論至今,也沒有定論。

Ilya Sutskever 在 NeurIPS 會上直言:大模型預訓練這條路可能已經走到頭了。上週的 CES 2025,黃仁勳有提到,在英偉達看來,Scaling Laws 仍在繼續,所有新 RTX 顯示卡都在遵循三個新的擴充套件維度:預訓練、後訓練和測試時間(推理),提供了更佳的實時視覺效果。

而這一切的思考,都可以追溯到「RL 之父」 Rich Sutton 在 2019 年發表的經典短文 The Bitter Lesson 《苦澀的教訓》。

Y Combinator 校友日上,Andon Labs 的 CEO 兼聯合創始人 Lukas Petersson 聽完 100 多個專案路演後寫下了一個有趣的觀察:《苦澀的教訓》中所寫的 AI 研究歷史似乎正在 AI 創業界重演。

研究人員曾一次又一次試圖透過精巧的工程設計來提升效能,但最終都敗給了簡單粗暴的「加大算力」方案。

而今天,AI 產品的開發者們,似乎正在重走這條老路。

機器之心在不改變部落格原意的基礎上進行了編譯。

如果覺得部落格太長,核心內容已經總結好了:

  • 歷史證明,通用方法總是在 AI 領域勝出;
  • 當下 AI 應用領域的創業者正在重蹈 AI 研究者過去的覆轍;
  • 更強大的 AI 模型將催生通用型 AI 應用,同時也會削弱 AI 模型「套殼」軟體的附加價值。

AI 技術的飛速發展帶來了一波又一波新產品。在 YC 校友演示日上,我見證了 100 多個創業專案的路演。這些專案都有一個共同點:它們瞄準的都是施加了各種限制和約束的 AI 解決的簡單問題。

AI 真正的價值在於它能靈活處理各類問題。給 AI 更多自由度通常能帶來更好的效果,但現階段的 AI 模型還不夠穩定可靠,所以還無法大規模開發這樣的產品。

這種情況在 AI 發展史上反覆出現過,每次技術突破的路徑都驚人地相似。如果創業者們不瞭解這段歷史教訓,恐怕要為這些經驗「交些學費」。

2019 年,AI 研究泰斗 Richard Sutton 在他那篇著名的《苦澀的教訓》開篇提到:

「70 年的 AI 研究歷史告訴我們一個最重要的道理:依靠純粹算力的通用方法,最終總能以壓倒性優勢勝出。」

這篇文章標題裡的「苦澀」二字,正是來自那些精心設計的「專家系統」最終都被純靠算力支撐的系統打得落花流水。這個劇情在 AI 圈一演再演 —— 從語音識別到計算機象棋,再到計算機視覺,無一例外。

如果 Sutton 今天重寫《苦澀的教訓》,他一定會把最近大火的生成式 AI 也加入這份「打臉清單」,提醒我們:這條鐵律還未失效。

同在 AI 領域,我們似乎還沒有真正吸取教訓,因為我們仍在重複同樣的錯誤......

我們必須接受這個殘酷的現實:在 AI 系統中,強行植入我們認為的思維方式,從長遠來看註定失敗。這個「苦澀的教訓」源於以下觀察:

1.AI 研究者總想把人類的知識經驗塞進 AI
2. 這招短期確實管用,還能讓研究者有成就感
3. 但遲早會遇到瓶頸,甚至阻礙 AI 的進步
4. 真正的突破往往出人意料 —— 就是簡單地加大計算規模

站在 AI 研究者的角度,得到了《苦澀的教訓》,意味著在總結教訓的過程中明確了什麼是「更好」的。對於 AI 任務,這很好量化 —— 下象棋就看贏棋機率,語音識別就看準確率。對於本文討論的 AI 應用產品,「更好」不僅要看技術表現,還要考慮產品效能和市場認可度。

從產品效能維度來看,即產品能在多大程度上取代人類的工作。效能越強,就能處理越複雜的任務,創造的價值自然也就越大。
圖片
圖 1. 展示了不同型別的 AI 產品,本文主要討論應用層

AI 產品通常是給 AI 模型加一層軟體包裝。因此,要提升產品效能,有兩條路徑:

1. 工程升級:在軟體層面利用領域知識設定約束
2. 模型升級:等待 AI 實驗室釋出更強大的模型

這兩條路看似都可行,但在此有個重要洞察:隨著模型效能提升,最佳化工程的價值在不斷下降。

現階段,軟體端的設計確實能提升產品表現,但這只是因為當前模型還不夠完善。隨著模型變得更可靠,只需要將模型接入軟體就能解決大多數問題了 —— 不需要複雜的的工程。
圖片
圖 2. 投入工程的價值會隨著投入增加和更強大模型的出現而遞減。

上圖展示了一個趨勢:隨著 AI 模型的進步,工程帶來的價值將逐漸減少。雖然當前的模型還有明顯不足,企業仍能透過工程投入獲得可觀回報。

這一點在 YC 校友演示日上表現得很明顯。創業公司主要分為兩類:第一類是已經實現規模化的產品,專注解決簡單問題,但數量還不多;第二類則瞄準了相對複雜的問題。後者目前發展勢頭不錯,因為他們的概念驗證證明:只要在工程上下足功夫,就能達到預期目標。

但這些公司面臨一個關鍵問題:下一個模型釋出會不會讓所有工程上的都成為無用功,摧毀他們的競爭優勢?OpenAI 的 o1 模型釋出就很好地說明了這個風險。

我和很多 AI 應用層的創業者聊過,他們都很擔心,因為他們投入了大量精力來完善提示詞。有了 o1 後,提示詞工程的重要性就大大降低了。

從本質上講,這種工程的目的是為了約束 AI 少犯錯誤。透過觀察眾多產品,可以概括為兩類約束:

  • 專業性:衡量產品的聚焦程度。垂直型產品專注於解決特定領域的問題,配備了專門的軟體包裝;而水平型產品則更通用,能處理多種不同型別的任務。

  • 自主性:衡量 AI 的獨立決策能力。在此借鑑一下 Anthropic 的分類:

1. 工作流:AI 按預設路徑執行,使用固定的工具和流程
2. 智慧體:AI 可以自主選擇工具和方法,靈活決策如何完成任務

這就規定了一個 AI 產品的分類框架:
圖片
表 1. 對知名 AI 產品的分類。需要注意的是,ChatGPT 可能每次對話都會遵循預先設定的程式碼路徑,因此更像工作流而非智慧體。

以商業分析師製作路演 PPT 為例,看看每類產品如何實現這個任務:

  • 垂類工作流:它按固定步驟執行任務,比如,先用 RAG 查詢公司資料庫,小型 LLM 做總結,大型 LLM 提取關鍵資料並計算,檢查資料合理性後寫入幻燈片,最後生成簡報。每次都嚴格遵循這個流程。
  • 垂類智慧體:LLM 能自主決策,迴圈工作:用上一步的結果指導下一步行動,雖然可用工具相同,但由 AI 自己決定何時使用。直到達到質量標準才停止。
  • 通用工作流:像 ChatGPT 這樣的通用工具只能完成部分任務,既不夠專業也不夠自主,無法完整處理整個工作流程。
  • 水平智慧體:如 Claude computer-use,能像人一樣操作常規辦公軟體。分析師只需用自然語言下達指令,它就能根據實際情況靈活調整工作方法。

這很好理解 —— 當前的 AI 模型還不夠成熟,只能用這種方式才能達到可用水平。結果就是,即使是過於複雜的問題,創業者們也不得不硬塞進這個框架,因為這是目前唯一能讓產品勉強可用的方法。

雖然透過工程最佳化可以提升這些產品,但提升空間有限。對於當前模型難以處理的問題,與其投入大量工程資源,不如等待更強大的模型出現 —— 到時只需很少的工程就能解決問題。

正如 Leopold Aschenbrenner 在《Situational Awareness》中所指出的:「完善這些繁瑣的工程,可能比等待更強大的模型還要耗時。」

這不禁讓人聯想起《苦澀的教訓》:AI 研究者反覆嘗試用工程手段提升效能,最終卻總是被簡單堆砌算力的通用方案超越。今天的 AI 產品開發似乎正在重蹈覆轍。

把表 1 的內容和《苦澀的教訓》聯絡起來之後,這樣能更清楚地看到其中的關聯:
圖片
總而言之,我的觀點是:試圖用軟體工程來彌補當前 AI 模型的不足,似乎是一場註定失敗的戰鬥,尤其是考慮到模型進步的驚人速度。

正如 YC 合夥人 Jarred 在 Lightcone 播客中所說:「第一波基於固定流程的 AI 應用,大多被新一代 GPT 模型淹沒了。」

Sam Altman 常說,要打造那種期待而不是害怕新模型釋出的創業公司。我遇到的很多 AI 創業者對新模型都很興奮,但從他們公司的利益看,這種興奮可能不太合適。

從統計學角度理解《苦澀的教訓》

讓我們用簡單的統計學來理解這個道理。在做模型時,通常要面臨一個選擇:要麼做一個規則很死板的模型(高偏差),要麼做一個靈活但不太穩定的模型(高方差)。《苦澀的教訓》告訴我們:選靈活的。

究其原因,因為只要有足夠的算力和資料,靈活的模型最終也能變得很穩定。就像打籃球,就算姿勢不標準,練得多了也能投準。但反過來就不行了,太死板的方法會被自己的規則限制住。

這跟 AI 產品是一個道理。做垂直領域的工具,加各種限制,就像給 AI 加規則,現在看起來更穩定,但限制了它的潛力。相反,讓 AI 更自由一點雖然現在看著不太靠譜,但隨著模型越來越強,它反而能找到更好的辦法。歷史一再證明,跟靈活性對著幹是不明智的。

兩種做 AI 的方法
圖片
圖 1:對比了兩種方法。傳統機器學習需要人工來告訴機器「什麼是重要的」,深度學習則能自己學會。

傳統機器學習需要人來決定什麼資訊重要。比如給一張圖片,你得手動找出有用的特徵,數一數有多少個圓形,測量一下各種尺寸等等。但深度學習不同,它能自己學會找重要的東西。
圖片
圖 2:比如自動駕駛。系統要識別和跟蹤車輛、行人、車道線等具體物體。這就是分解複雜問題的傳統方法。

以自動駕駛來說,你有兩種方式:

1. 老方法:把車看到的東西分解:前面的車在哪,車道線在哪,那個人跑多快?
2. 新方法:直接把影片扔給 AI,讓它自己學會開車。

老方法看著更靠譜,更有把握。所以早期的 AI 都這麼幹。但正如 George Hotz 所說:「AI 的歷史告訴我們,老方法最後總會被新方法打敗。」
圖片
圖 3:DeepMind 研究員 Sholto Douglas:就像其他所有深度學習系統一樣,押注端到端就對了

作者簡介

部落格作者為 Lukas Petersson。今年 26 歲的他於去年從隆德大學畢業,拿下了工程物理和數學雙碩士學位。

雖然年輕,但他的經歷可謂豐富多彩:
圖片
現在他是 Andon Labs 的 CEO 兼聯合創始人,專注 AI 安全評估和大語言模型研究。此前,他曾在 Google 實習,曾在 Disney Research 開發病毒式機器人,還曾參與探空火箭發射專案,擔任專案主要負責人。

參考連結:
https://x.com/dotey/status/1878595515924820420
https://lukaspetersson.com/blog/2025/bitter-vertical/

相關文章