過去幾年,大家都在猜人工智慧下一步會怎麼發展。是搞代理智慧體?推理機?還是真正的多模態?
我覺得現在可以這麼說:模型本身就是產品。
現在的研究和市場發展都在往這個方向走:
- 大公司(如OpenAI、Anthropic)的模型越來越強,直接做成產品(如DeepSearch、Claude Code),不再只提供API。
- 小公司面臨選擇:自己訓練模型或被取代。
- 投資人更關注應用層,但模型訓練潛力巨大,尤其在經濟下行時。能做訓練的公司很少,融資困難。
- DeepSeek和中國實驗室已把模型當基礎設施,認為現在是技術創新爆發期,應用層未來可能由產業鏈完成。
通用的擴充套件已經慢下來了。GPT-4.5 的釋出就說明了這一點:模型的容量增長是線性的,但計算成本卻是指數級增長。就算過去兩年在訓練和基礎設施上效率提高了不少,OpenAI 也沒法以大家能接受的價格部署這個超級大模型。
有主見的訓練效果比想象中好得多。強化學習和推理的結合讓模型突然學會了完成任務。這已經不是傳統的機器學習或者基礎模型了,而是另一種新的東西。就連很小的模型也突然變得數學能力超強。編碼模型不再只是生成程式碼,而是能自己管理整個程式碼庫。比如克勞德在玩口袋妖怪時,幾乎沒什麼背景資訊,也沒有專門的訓練。
推理成本直線下降。DeepSeek 最近的最佳化意味著所有可用的 GPU 都能滿足前沿模型每天 10k 個代幣的需求……甚至能滿足全球人口的需求。這種需求到處都是。靠賣代幣賺錢的模式對模型提供商來說已經不行了:他們必須往價值鏈的上游走。
這也是個讓人不太舒服的方向,因為所有投資者都把寶押在了應用層,而在 AI 進化的下一個階段,應用層很可能是最先被自動化和顛覆的。
新一代模型:
在過去的幾周裡,我們看到了兩個新一代模型的典型例子:OpenAI的DeepResearch和Claude Sonnet 3.7。
我讀到過很多關於DeepResearch的誤解,開放和封閉克隆的增加並沒有起到什麼幫助作用。OpenAI並沒有在O3之上構建包裝器。他們訓練了一個全新的模型,能夠在內部執行搜尋,不需要任何外部呼叫、提示或編排。
模型透過對這些瀏覽任務的強化學習訓練,學會了核心的瀏覽功能(搜尋、點選、滾動、解釋檔案)(……)以及如何推理合成大量網站以查詢特定的資訊或撰寫綜合報告。
DeepResearch不是標準的LLM,也不是標準的聊天機器人。它是一種新型的研究語言模型,專門設計用於端到端執行搜尋任務。
對於認真使用它的每個人來說,其差異是顯而易見的:DeepResearch這種模型生成具有一致結構和底層源分析過程的長篇報告。
Google的Gemini和Perplexity的聊天助手也提供“深度研究”功能,但都沒有釋出任何關於如何最佳化其模型或系統以完成任務的文獻,也沒有進行任何實質性的定量評估(...)我們將假設所做的微調工作並不實質性。
Anthropic一直在更清晰地闡述他們當前的願景。去年12月,他們引入了一個有爭議但在我看來是正確的代理模型定義。與DeepSearch類似,代理必須在內部執行目標任務:它們“動態地指導自己的流程和工具使用,保持對如何完成任務的控制”。
目前,大多數代理智慧體初創公司正在構建的不是代理,而是工作流,即“透過預定義程式碼路徑編排LLM和工具的系統”。
工作流可能仍然會帶來一些價值,尤其是對於垂直適應而言。
然而,對於目前在大型實驗室工作的任何人來說,顯而易見的是,自主系統的所有重大進展都將首先透過重新設計模型來實現。
我們在Claude 3.7的釋出中對此進行了非常具體的展示,該模型主要針對複雜的程式碼用例進行訓練。所有工作流程的調整(如Devin)都對SWE基準測試產生了重大提升。
再舉一個規模小得多的例子:在Pleias,我們目前正在致力於實現RAG自動化。當前的RAG系統包含許多相互關聯但又脆弱的工作流程:路由、分塊重新排序、查詢解釋、查詢擴充套件、源語境化、搜尋工程。
隨著訓練技術堆疊的不斷發展,將所有這些流程捆綁在兩個獨立但相互關聯的模型中是完全有可能的,一個用於資料準備,另一個用於搜尋/檢索/報告生成。這需要精心設計的合成管道和全新的強化學習獎勵函式。
所有這些在實踐中意味著:取代複雜性。訓練可以預測各種動作和邊緣情況,因此部署變得更加簡單。但在這個過程中,大部分價值現在被建立,並且很可能最終被模型訓練師捕獲。