智慧體首次達到Kaggle Grandmaster水平,華為用結構化推理補齊思維鏈短板

机器之心發表於2024-11-08

前些時日,AI 大模型開始掌握操作計算機的能力,但整體而言,它們與物理世界互動的能力仍處於早期階段。

為了提高 LLM 在複雜的現實世界中的表現,研究者們提出了各種提示策略來提升大模型的推理和規劃能力,比如思維鏈、思維樹和思維圖譜。這些進步與工具整合一起,推動著通用 AI 智慧體的發展,讓它們現在已經能夠用 LLM 輸出的決策策略來解決序列決策問題(不過依然還相對簡單)。

在現實世界中,一個難題的解決方案往往都不是孤立存在的,而需要系統性的方法。這就促使人們開始研究如何讓 LLM 透過順序或並行模組處理智慧體任務,從而動態地、分步驟地解決問題。

近日,華為諾亞方舟實驗室、倫敦大學學院(UCL)和達姆施塔特工業大學的一個研究團隊在這個研究方向上做出了自己的貢獻。他們採用第一性原理方法,將資料的分析、處理和預測(即資料科學)作為 LLM 與現實世界環境和外部系統互動的核心和可遷移技能,得到了一種利用 LLM 解決系統資料科學任務複雜性的新方法。然後他們基於此開發了智慧體 Agent K v1.0,並讓其參加了多模態 Kaggle 競賽。最終 Agent K v1.0 獲得了相當於 6 金 3 銀 7 銅的成績,成為首個達到 Kaggle Grandmaster level 1 的 AI 智慧體。

圖片
  • 論文標題:Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level
  • 論文地址:https://arxiv.org/pdf/2411.03562

研究動機

這項研究有三個研究動機。

第一,資料科學的目的是從結構化和非結構化資料中提取見解和知識,從而解決各種複雜問題。這需要系統級的方法,需要自動化和最佳化來適應具體的任務目標。

舉個例子,在 Kaggle 資料科學競賽中(如圖 1 所示),資料科學家需要遵循一個結構化的工作流程:收集、清理、預處理和標準化資料,建立資料載入器以實現高效管理,生成關鍵評估指標,以及開發自定義模型。然後,這些見解和預測可以為決策和最佳化提供資訊。因此,為了解決這些工作流程,需要資料科學智慧體將任務分解為子問題並與各種子系統互動以實現指定目標。
圖片
第二,資料能讓 LLM 感知和理解外部環境(物理和虛擬皆可)。LLM 智慧體可透過收集、清理和分析這些資料來獲得有意義的見解並做出明智的決策。資料和動作之間的這種基本聯絡可將計算推理與有形的現實世界後果聯絡起來。

第三,資料科學對企業而言至關重要。資料科學可將原始資料轉換成可行動的見解,並由此提升效率和競爭力,進而推動創新。因此,據 Grand View Research 預計,到 2031 年,全球對資料科學的投資將達到約 7400 億美元。資料科學智慧體可透過生成程式碼來自動執行資料清理、建模和預測等任務,從而擴大這種影響,使組織能夠擴充套件其資料驅動的決策,以最大化回報和利潤。

結構化推理造就強大資料科學智慧體

華為諾亞方舟實驗室首先確定了 LLM 智慧體面臨的兩大難題,即自動化和最佳化。這些難題源自資料科學工作流程的複雜性和多面性。

為此,該團隊提出了一種利用 LLM 解決系統資料科學任務複雜性的新方法。

具體來說,他們提出了一種靈活的「學習到推理」正規化,從而無需反向傳播和微調就能實現學習和適應。

該團隊假設 LLM 具有固有的基於案例的推理能力,這讓它們可使用過去的正例或負例經驗,並將其泛化到新任務。透過最佳化這些經驗,學習和適應可以自然地發生。

為了將這一觀察利用起來,該團隊提出了結構化推理(structured reasoning),其中整合了一個記憶模組,從而可以動態地利用過去的成功和失敗經驗來實現更據適應性的學習。這能克服思維鏈等方法的侷限性。如圖 2 所示。
圖片
左側是基本思維鏈推理,其按順序生成中間步驟,其中每個步驟都是下一步驟的直接條件,直到得到最終答案。

右側是新提出的結構化推理方法,它引入了一個記憶模組(作為 RAG 或長上下文的一種形式),可以根據外部獎勵和反饋進行最佳化。該模組可根據環境反饋動態地修改儲存的內容,讓智慧體可在不改變底層 LLM 引數的情況下學習和適應,進而根據具體目標最大限度地提高效能(有效性和自動化)。

有了結構化推理之後,LLM 智慧體可在內部重構自身,透過靈活和內在的(智慧體內部的)自我反思功能實現主動推理,並在採取外部行動之前主動適應。

他們將這個智慧體稱為 Agent K v1.0,這是他們的結構化推理框架 Pangu-Agent 的一個擴充套件,但它也是專門為應對資料科學挑戰設計的。

該團隊為 Agent K v1.0 引入了新的內部函式類別,以便在自動解決資料科學任務之前自動設定它們。他們還引入了另一組可與外部工具(如超引數最佳化演算法、整合方法、計算機視覺和自然語言處理庫)協作的內部函式,從而可以最佳方式構建解答。

下圖展示了 Agent K v1.0 實現自動設計、程式設計和執行所需的整體資料科學工作流程:首先從一個 Kaggle URL 開始,再生成執行程式碼清理、特徵工程、模型建立和最佳化訓練的複雜程式碼,之後再自動生成一個提交檔案,並將其提交給 Kaggle 以獲得分數。
圖片
第一階段(自動化):設定資料科學任務

由於資料科學任務的資料型別和格式繁多,因此設定階段並不輕鬆。圖 4 展示了這個自動設定階段的主要步驟。
圖片
在抓取到任務後,該策略又分為兩個階段:

  • 首先,編寫一系列有效程式碼,以自動設定每個模態的訓練和測試資料載入器。每個階段步驟都由單元測試引導,LLM 可以使用這些單元測試來反思和生成更好的程式碼。之後,引入了一組聯合單元測試,讓智慧體執行跨步驟反思以進行 credit 分配。
  • 完成這些後,Agent K v1.0 執行格式化資料生成的第二階段,其中會生成提交格式和度量函式程式碼。到這個階段結束時,任務 t 已被設定好,可以解決了 —— 這裡還會用一個最終單元測試來檢查。

第二階段(最佳化):解決資料科學任務

資料科學工作流程的這一部分通常涉及許多步驟,包括生成指令碼以預處理輸入、建立各種模型或最佳化超引數。

由於可以進行多次嘗試,並且每個解決方案都是複合工作流程的結果,因此要實現非常有競爭力的效能,需要能夠推斷每個解決方案元件的優勢和劣勢,並決定修改哪個部分或下一步嘗試什麼。

在這裡,該透過智慧體的外部動作將這些決定留給了智慧體,並使用針對資料驅動的預測設計量身定製的幾種工具為其提供支援。

第三階段(泛化):多工和主動任務選擇

有效的智慧體應該有能力解決不同領域的多種任務。該團隊還為 Agent K v1.0 配備了跨領域的任務求解能力,其做法是將之前的設定泛化到多工設定。並且,他們注意到了多工解決方案的不可行性,於是還提出了一種線上持續學習擴充套件。

下圖展示了 Agent K v1.0 智慧體的總體設計。
圖片
按照 Kaggle 的設定,Agent K v1.0 只需要自然語言描述和非標準化原始資料即可成功完成任務。在每一輪 j 中,它會根據之前嘗試過的任務的歷史記錄主動選擇要解決的資料科學任務,並將其填充到隨時間變化的向量資料庫 RAG_j 中。這種選擇是策略 π_1 (・) 基於 RAG_j 和一個剩餘任務池執行的。

選擇了任務之後,Agent K v1.0 會使用 π_setup (・) 自動執行標準化、清理任務資料、 準備訓練和測試指標等操作。這個過程同樣基於 RAG_j。

設定完成後,Agent K v1.0 就會嘗試解決任務,這個過程會訪問工具並根據分數反饋進行改進。這些 Python 日誌會對 RAG_j 進行更新,並重復此過程。

競爭性資料科學基準

當前的資料科學智慧體缺乏競爭性基準測試,這限制了它們在專業領域的表現。為此,該團隊也做出了自己的貢獻:基於 Kaggle 競賽構建了一個多樣化且競爭性的資料科學基準,而 Kaggle 提供了 27K 個多樣化資料集、110 萬個筆記本、超過 7.7K 個預訓練機器學習模型和大約 27K 場比賽。

該基準支援在一個透明的排行榜上與人類參與者進行直接比較並涵蓋計算機視覺、自然語言處理、時間序列和表格資料等多種任務,支援多種模態。

下圖展示了該基準中 Kaggle 任務的分佈情況。目前,其中 55% 是表格任務,包括數值、類別、字串和布林值表。另外計算機視覺站 24%,自然語言處理佔 10%、多模態任務佔 11%。
圖片
下表則是基於 Kaggle 的指南和風格構建的 Kaggle 進展系統。⋆ (Top 10 + 0.2 %) 是指競賽每增加 500 個參賽隊伍,就會額外給出一枚金牌。舉個例子,如果一個競賽有 500 個參賽隊伍,則會給 11 團隊授予金牌。而如果競賽隊伍有 5000 個,則金牌數會達到 20。
圖片
實驗和結果

Agent K 表現如何?終究還需看實驗結果。該團隊嚴格測試了 Agent K v1.0(基礎模型使用了 Qwen-2.5 72B)實現完全自動化的能力以及效能。

在自動化方面,他們評估了新系統能否有效地直接根據 Kaggle URL 設定任務。結果,在跨多個領域自動執行任務方面,該系統實現了 92.5% 的準確度,展示了其完全自動化地實現複雜設定的能力。
圖片
在效能方面,在多模態挑戰賽中,該團隊的方法實現了相當於 6 金 3 銀 7 銅的成績(共 65 場競賽),成為了首個達到 Kaggle Grandmaster level 1 水平的方法。下圖展示了 Agent K v1.0 在各個任務上的效能表現。
圖片
此外,他們還測量了 Agent K v1.0 與人類參與者的 Elo-MMR 評分。結果表明,在由 5856 名參賽者組成的競賽池中,Agent K v1.0 排名前 38%。
圖片
實驗詳情和更多實驗結果以及相關討論請訪問原論文。

相關文章