真正的AI智慧體時代即將到來,我們發現了幾點「苦澀的教訓」
机器之心發表於2025-03-17
最近一段時間,智慧體(Agent)再次成為 AI 領域熱議的焦點。2025 年 1 月,OpenAI 釋出了名為 DeepResearch 的 o3 模型變種,專門用於網頁和文件搜尋。得益於在瀏覽任務上的強化學習訓練,DeepResearch 具備了制定搜尋策略、交叉引用資訊來源、甚至利用中間反饋來處理深層次知識的能力。無獨有偶,Claude Sonnet 3.7 也成功地將同樣的強化學習方法應用於程式碼領域,在複雜的程式設計任務中展現出超越了以往模型的組合應用效果。正如摩根斯坦利學者 William Brown 在演講中所說的:「LLM 智慧體已能夠完成長時間、多步驟的任務了。」這一進展不僅讓智慧體的能力邁上了一個新臺階,也引發了一個更深層的問題:LLM 智慧體究竟是什麼?2024 年 12 月,Anthropic 給出了一個全新的定義:「LLM 智慧體是能夠動態指導自身流程和工具使用,並保持對任務完成方式控制的系統。」與之相對,目前更為普遍的智慧體實際上都是工作流系統(workflows),也就是透過預設的程式碼和規則來協調 LLM 和工具的系統,例如最近備受關注的 Manus AI。對於很多開發者而言,這些 LLM 智慧體形成的工作流系統能否提高生產力、在多大程度上提高,才是關鍵問題。在近期的測試中,開發者 Alexander Doria 發現了一些顯著的侷限性,並寫成部落格分享給大家。部落格地址:https://vintagedata.org/blog/posts/designing-llm-agents「我在週末進行的所有測試都顯示出一個結果,即工作流系統存在著一些根本性侷限,這些侷限早在 AutoGPT 時代就已顯現,而在搜尋領域表現得尤為明顯。」- 不能記憶內容,無法處理超過 5-10 分鐘的任務;
- 無法長期有效執行任務,容易因連續的小錯誤最終徹底失敗。
作者以對大語言模型智慧體「LLM 智慧體」的定義為出發點。它基於大型實驗室的有限資訊、開放研究生態系統中不斷湧現的復現成果,再結合一些個人推測,盡力對我們目前所瞭解的內容進行全面總結。傳統的智慧體與基礎大語言模型(base LLM)完全不同。在傳統的強化學習研究中,智慧體被置於受限的環境中,就像在迷宮裡行走,智慧體的每個動作都有物理或規則上的約束。即便如此,智慧體仍保留了一定程度的自由,因為解決謎題或遊戲的方法往往不止一種。然而,每一步行動都必須以最終獲勝和獲得獎勵為目標進行計算。隨著時間的推移,高效的智慧體會記住過去的行動,並逐步總結出模式和啟發式策略來最佳化其行為。這一過程被稱為「搜尋」,智慧體在迷宮中的探索行為與使用者在搜尋引擎上的點選模式如出一轍。搜尋研究有著長達數十年的豐富歷史。例如,據傳為 OpenAI 新一代模型提供支援的 Q-star 演算法,便是源自 1968 年的 A-Star 搜尋演算法。最近,Pufferlib 進行的寶可夢訓練實驗便是這一過程的絕佳例證。在實驗中,智慧體被觀察到積極尋找最優路徑,失敗後不斷嘗試,透過反覆試錯來最佳化策略。- 智慧體能記住環境,但基礎 LLM 不能,它們只能處理當前視窗內的資訊;
- 智慧體受現實條件限制,但基礎 LLM 生成的是機率最高的文字,隨時可能「跑題」;
- 智慧體能規劃長期策略,基礎 LLM 卻只能做好單步推理,面對多步推理任務很快就會「超載」。
目前,大部分 LLM 智慧體的做法是利用預定義的提示詞(prompt)和規則來引導模型。然而,這種方法註定會遇到「苦澀的教訓」(Bitter Lesson)。所謂教訓,是指人們往往傾向於將自己的知識硬編碼到系統中,短期內可能效果顯著,但長期來看卻嚴重限制了系統的發展潛力。真正的突破總是來自於搜尋與學習能力的提升,而非人為規則的堆砌。這一教訓提醒我們,過度依賴規則設計可能會阻礙系統的自我最佳化和進化。這就是為什麼類似 Manus AI 這類工作流系統無法順利地訂機票或教你徒手打虎 —— 它們本質上是被苦澀教訓咬了一口。靠提示詞和規則無法持續擴充套件,你必須從根本上設計能夠真正搜尋、規劃、行動的系統。真正的 LLM 智慧體,應該是什麼樣呢?這是一個複雜的問題,目前公開的資訊很少。Anthropic、OpenAI、DeepMind 等少數實驗室掌握著關鍵知識。目前,我們只能從現有的研究中嘗試來推測:1. 強化學習 RL:與傳統智慧體類似,LLM 智慧體也透過強化學習進行訓練。這裡的「迷宮」是所有可能的文字組合,而「出口」或「獎勵」則是最終的目標。驗證是否達成獎勵的過程被稱為「驗證器」——William Brown 新開發的驗證器庫正是為此而生。目前,驗證器主要用於形式化結果,如數學方程或程式設計程式碼。但 Kalomaze 的研究表明,透過訓練專門分類器,也可為非嚴格可驗證的輸出構建驗證器。值得注意的是,語言模型在評估方面的表現優於生成,因此即使用小型 LLM-as-judge,也能顯著提升效能和獎勵設計。2. 草稿模式(Drafts):LLM 智慧體的訓練依賴於生成草稿並同時評估。這一選擇並非顯而易見,因為早期研究主要集中在擴充套件搜尋到整個 token 序列。計算限制和「推理」模型的突破推動了這一轉變。典型的訓練過程是讓模型生成邏輯序列,假設能得出正確答案的序列更可能是正確的。這可能導致反直覺的結果(如 DeepSeek R0 模型偶爾在英語和中文間切換)。然而,正如苦澀的教訓所示,強化學習只關注結果的有效性,甚至允許非正統或計劃外的捷徑。就像智慧體在迷宮中尋找出路,語言模型必須透過純粹推理找到路徑 —— 沒有預定義提示,只有獎勵和獲取獎勵的方式。3. 結構化輸出(rubric):LLM 草稿通常被預定義為結構化資料部分,以便於獎勵驗證,並在一定程度上簡化整體推理過程。這是一種「評分標準工程」,既可以直接作為獎勵函式進行管理,也可以在大型實驗室的訓練設定中透過後訓練階段實現。4. 多步訓練:LLM 智慧體的訓練需要大量草稿和多步驟迭代。搜尋領域的情況尤其如此:我們不會一次性評估搜尋結果,而是評估模型獲取資源、處理結果、進一步獲取資源、調整計劃、回溯等能力。因此,DeepSeek 的 GRPO 結合 vllm 的文字生成成為當前首選方法。近期,我釋出了一個基於 William Brown 工作的程式碼筆記本,成功在 Google Colab 提供的一塊 A100 GPU 上執行了 GRPO。計算需求的降低將是未來幾年強化學習和智慧體設計普及的關鍵因素。以上是基礎構建模組,但從這些到 OpenAI 的 DeepResearch 以及其他能夠處理長動作序列的智慧體,還有一段距離。請允許我做一些推測。目前的開放強化學習 / 推理研究主要集中在數學領域,因為我們擁有大量數學練習題,其中一些被 Common Crawl 收錄,並由 HuggingFace 透過分類器提取。然而,對於許多其他領域(尤其是搜尋領域),我們缺乏相關資料,因為我們需要真實的動作序列:日誌、點選記錄、行為模式等。我不久前曾在日誌分析領域工作過,模型(雖然仍在使用馬爾可夫鏈,但這個領域變化很快)仍然常在 20 世紀 90 年代末洩露的 AOL 資料上進行訓練。最近,至少有一個重要的公開資料集被引入:Wikipedia Clickstream,這是一組從一篇維基百科文章到另一篇文章的匿名點選軌跡資料。但讓我問一個簡單的問題:這個資料集在 HuggingFace 上嗎?沒有。事實上,HuggingFace 上幾乎沒有真正能增強規劃能力的「智慧體資料」。整個領域仍然預設 LLM 模型需要透過自定義的規則系統進行編排。我甚至不確定 OpenAI 或 Anthropic 是否擁有足夠數量的此類資料。這至少是一個傳統科技公司佔據強勢地位的領域,而且沒有簡單的替代方案:你無法購買谷歌龐大的使用者搜尋歷史資料。目前能想到的解決方法是:透過模擬直接生成資料。傳統的強化學習模型並不依賴過往的例項。它們透過廣泛且反覆的搜尋來推斷出約束條件和過度策略。一旦應用到搜尋領域,典型的強化學習方法與博弈中的強化學習並無太大差異:讓模型自由探索,每當它找到正確答案時就給予獎勵。這可能是一個漫長的探索過程。就好比你要找出一篇 20 世紀 60 年代被遺忘的蘇聯論文中記載的某個特定化學實驗。透過純粹的蠻力,也許強制執行一些語言查詢變化,模型最終偶然找到了正確結果。然後,它可以彙總導致這一結果的所有因素,從而使這一發現在未來更有可能實現。我們來做一些簡單的計算。在典型的強化學習(RL)設計中,以 GRPO 為例,一次可以同時進行 16 個草稿的探索 —— 如果大型實驗室訓練的模型採用更高的草稿迭代次數,我也不會感到意外。每個草稿可能會依次瀏覽至少 100 個不同的頁面。這意味著一次就有 2000 個潛在查詢,而這僅僅只是一步。一個複雜的強化學習訓練序列可能需要進行數十萬步(這也是我認為當前訓練正處於中期階段的原因之一),並且要處理各種各樣的任務,尤其是針對像通用搜尋能力這樣複雜的任務。如此算來,一個訓練序列就需要數億次的單獨連線 —— 在這個過程中,甚至可能會導致一些常用學術資源遭受類似分散式拒絕服務(DDoS)攻擊的情況。這顯然並不理想,此時,網路頻寬而非實際計算能力,成了主要的限制因素。Game RL 面臨著類似的限制。這就是為什麼像 Pufferlib 這樣的 SOTA 方法會「從學習庫的角度將環境包裝成 Atari,而不會失去通用性」:RL 模型只需要看到它們所需使用的資訊。當這種方法應用於搜尋領域時,涉及到藉助大型的 Common Crawl 資料轉儲,並將資料偽裝成透過 Web 處理的樣子,包含 url、api 呼叫和其他典型的 http 工件。而實際上,這些資料早已儲存在本地具有快速查詢能力的資料框中。因此,我推測用於搜尋的大語言模型強化學習智慧體可以透過以下方式進行訓練:- 利用固定的資料集建立一個大型的網路搜尋模擬環境,並持續將資料「轉換」後反饋給模型。透過這種方式,讓模型彷彿置身於真實的網路搜尋場景中進行學習。
- 使用某種形式的輕量級 SFT(如 DeepSeek 的 SFT-RL-SFT-RL 步驟)預冷模型,可能基於可以找到的任何現有搜尋模式。其總體思路是預先規範模型的推理和輸出方式,從而加快實際強化學習訓練的速度,這類似於進行某種預定義的規則設計。
- 準備或多或少複雜的查詢,並將相關結果作為驗證器。我唯一的猜測是,它涉及一些複雜的合成管道,從現有資源進行反向翻譯,或者可能只是來自博士級註釋者的非常昂貴的註釋。
- 多步驟 RL 中的實際訓練。模型提交查詢、發起搜尋、傳送結果、瀏覽頁面或重新表述結果,所有這些都是多步驟完成的。從模型的角度來看,它就像是在瀏覽網頁,但所有這些資料交換都是由搜尋模擬器在後臺準備的。
- 也許一旦模型在搜尋方面足夠好,就會重新進行另一輪 RL 和 SFT,這次更專注於編寫最終的綜合體。同樣,這可能涉及一個複雜的合成流程,其中輸出會轉變為輸入,例如將原始的長篇報告拆分成小塊,然後透過推理將它們重新組合起來。
最終,我們得到了一個真正的智慧體模型。它在實踐中會如何改變標準的工作流程或模型編排呢?僅僅是整體質量的提升,還是一種全新的正規化轉變?讓我們回顧一下 Anthropic 對智慧體的定義:LLM 智慧體「能夠動態地引導自身的處理流程和工具使用,自主掌控任務的完成方式」。我將再次以我較為熟悉的搜尋場景為例進行說明。一直以來,有很多人猜測檢索增強生成(RAG)會被具備長上下文處理能力的直接大語言模型應用所取代。但這種情況並未發生,原因有很多:長上下文處理計算成本高昂,在處理相對複雜的查詢時準確性欠佳,而且輸入資訊的可追溯性較差。真正具備智慧體能力的搜尋大語言模型並不會取代 RAG。實際可能發生的情況是,在很大程度上實現 RAG 的自動化,並整合向量資料庫、路由和重排序等複雜操作。- 如果查詢不清楚,可能會立即提示使用者返回(OpenAI DeepResearch 已經這樣做了)。
- 隨後,模型既可以開展通用搜尋,也可以在合適的情況下,直接轉向更專業的研究資源。該模型已經記住了標準的應用程式程式設計介面(API)方案,能夠直接呼叫它們。為節省推理時間,模型可優先借助現有的網路「模擬」版本,例如各類 API、網站地圖以及龐大的資料網路生態系統。
- 搜尋序列經過學習和訓練。該模型可以放棄錯誤的方向。或者它可以像專業知識工作者那樣走另一條路。我看到 OpenAI DeepResearch 的一些最令人印象深刻的結果證明了這種能力:透過一系列內部推理,可以正確定位索引不良的來源。
- 搜尋序列經過學習和訓練。模型能夠及時放棄錯誤的搜尋方向,或者像專業知識工作者那樣另闢蹊徑。我在 OpenAI DeepResearch 中看到的一些令人印象深刻的結果,就證明了這種能力:透過一系列的內部推理,模型能夠準確找到索引不佳的資源。
- 每一步操作和整個過程都會作為內部推理軌跡被記錄下來,從而在一定程度上為搜尋結果提供可解釋性。
簡而言之,搜尋過程是直接設計的。LLM 智慧體充分利用現有的搜尋基礎設施,並盡其所能以巧妙的方式開展搜尋。目前不需要額外的資料準備。也不需要訓練使用者與生成式 AI 系統互動。正如 Tim Berners-Lee 十多年前強調的那樣,「思考 Agent 的一種方式是,如果使用者明確要求,程式在每個例項中都會執行使用者希望它執行的操作。」現在,為了更清楚地瞭解實際投入生產的 LLM 智慧體,你可以開始將這種方法遷移到其他領域。真正的網路工程智慧體同樣能夠直接與現有基礎設施互動,根據需求生成裝置配置(如路由器、交換機、防火牆),分析網路拓撲並提出最佳化建議或解析錯誤日誌以識別網路問題的根本原因。真正的金融智慧體將接受培訓,以提供競爭資料標準的無縫和準確翻譯(如 ISO 20022 到 MT103)。目前,僅靠一系列系統提示是無法完成上述任何一項任務的。目前,唯一能夠開發真正 LLM 智慧體的只有大型實驗室。它們掌握著所有優勢:專業技術、擁有部分資料(或者至少掌握合成資料的方法)以及將它們的模型轉化為產品的總體願景。我不確定這種技術集中是否是一件好事,儘管資金生態系統不願將真正的模型訓練視為長期顛覆和價值創造的實際來源,這在很大程度上助長了這種集中化現象。我一般不喜歡誇大其詞。然而,鑑於 LLM 智慧體具有巨大的顛覆潛力和價值獲取能力,我堅信讓 LLM 智慧體的訓練和部署走向大眾化已刻不容緩。因此,開放驗證器、GRPO 訓練樣本,以及可能會很快出現的複雜合成管道和模擬器。2025 年會是智慧體元年嗎?有可能。讓我們拭目以待。https://vintagedata.org/blog/posts/designing-llm-agentshttps://x.com/dotey/status/1900179777635356827