AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
此項研究成果已被 NeurIPS 2024 錄用。該論文的第一作者是清華大學計算機系博士生關健(導師:黃民烈教授),目前任螞蟻研究院副研究員,其主要研究領域為文字生成、複雜推理和偏好對齊。
隨著 ChatGPT 掀起的 AI 浪潮進入第三年,人工智慧體(AI Agent)作為大語言模型(LLM)落地應用的關鍵載體,正受到學術界和產業界的持續關注。實際上,早在 5-6 年前,預訓練技術就已經在許多實際任務中取得了顯著成果。但 AI Agent 之所以在當下備受矚目,更多地源於其在自動解決複雜任務方面展現出的巨大潛力,而這種潛力的核心基石正是智慧體的複雜推理能力。
與當下廣受關注的 OpenAI-o1 及其追隨者略有不同,大多數實用的 AI Agent 往往需要在特定場景下發揮作用。這種情況類似於普通人類:雖然不是每個人都需要具備獲得 IMO 金牌的數學素養,但在具體場景下利用特定知識和工具完成複雜任務(例如使用搜尋引擎、處理私有文件等)的能力卻是不可或缺的。這一特點也意味著 AI Agent 的開發者們需要一套既通用又高效的 Agent 構建方法論。
更具挑戰性的是,作為面向實際應用的產品,AI Agent 在部署後還需要能夠隨著應用場景的演進和使用者需求的變化而不斷更新最佳化。這些實際問題都表明,構建一個真正實用的 AI Agent 絕非簡單的提示工程(Prompt Engineering)或模型微調(Fine-tuning)所能解決,而是需要更系統化的方法。
在 NeurIPS 2024 上,來自清華大學和螞蟻集團的研究者針對人工智慧體構建方法的通用性和適應性提出了一個新方案。這個被命名為 AMOR(Adaptable MOdulaR knowledge agent)的系統,不僅能低成本地呼叫專業工具和知識庫,更重要的是,它能像人類一樣持續學習和成長。
論文標題:AMOR: A Recipe for Building Adaptable Modular Knowledge Agents Through Process Feedback 論文地址:https://arxiv.org/abs/2402.01469 作者主頁:https://jianguanthu.github.io/
「黑盒思維」:與優秀人類助手能清晰展示解題思路不同,AI Agent 的推理過程往往是個黑箱,我們根本無從得知它是如何得出結論的。 「固步自封」:AI Agent 就像被困在訓練時刻的「永恆現在」,無法像人類那樣與時俱進,持續獲取新能力、更新認知。 「粗放糾錯」:當 AI Agent 犯錯時,我們只能籠統地說「答案不對」,而無法像指導學生那樣,精確指出「這一步推理有問題」。
快速起步 - 預熱階段:就像新員工入職培訓,AMOR 透過在 5 萬個自動構建的樣本上訓練掌握基礎技能。這些樣本被巧妙地分解到各個模組,使得即便是開源語言模型也能快速達到專業水準。 持續進化 - 適應階段:像經驗豐富的職場人一樣,AMOR 在實際工作中不斷成長。每解決一個問題,它就能積累一分經驗,逐步適應特定領域的專業需求。
知識型別擴充套件:透過定製 FSM 框架內的模組和依賴關係,AMOR 可以靈活支援不同型別的知識庫,如結構化資料庫、多模態知識等。 任務型別擴充套件:除了問答任務外,透過重新設計狀態轉移圖,AMOR 還可以支援其他知識密集型任務,如文件摘要、知識推理等。 工具整合擴充套件:得益於模組化設計,AMOR 可以方便地整合各類專業工具。只需將新工具封裝為對應的工具模組,並在 FSM 中定義其呼叫規則即可。
在預熱階段,AMOR 用標準的 MLE Loss 在 5 萬個樣本上對 MA-MoE 進行微調。 在適應階段,AMOR 的訓練過程分為三個關鍵步驟:探索、反饋和利用。
探索(Exploration):就像學徒需要親自動手實踐,AMOR 會直接處理使用者的實際問題。在這個過程中,AMOR 在知識庫中搜尋相關資訊,進行思考和推理,並推斷答案。 反饋(Feedback Collection):這個階段就像師傅在旁邊觀察學徒的工作,並給出具體指導,可以直接說「對」或「錯」,也可以具體指出正確答案,並且 AMOR 的每個推理步驟都能得到反饋。 利用(Exploitation):每處理一定數量的問題後,AMOR 會根據收集到的反饋進行「覆盤」,使用 KTO Loss 將 MA-MoE 和人類偏好對齊。和預熱階段類似,AMOR 的每個模組在最佳化時只調整自己的「專業引數」。
AMOR 的 FSM 框架讓 AI 的推理過程更加清晰可控,比傳統方法提升 30%~40%; 透過在多個開源資料集上預熱,AMOR 甚至超越了用 GPT-4 生成訓練資料的智慧體; 使用過程反饋比結果反饋進行適應更高效:僅需 800 次互動就能達到穩定效果,並且證據收集能力和推理正確率顯著提升。