智慧體DS-Agent基於案例推理,讓GPT-4資料科學任務接近100%

机器之心發表於2024-03-27

基於案例的推理助力大模型智慧體挑戰自動化資料科學任務,吉大、上交和汪軍團隊釋出專注於資料科學的智慧體構建框架 DS-Agent。


在大資料時代,資料科學覆蓋了從資料中挖掘見解的全週期,包括資料收集、處理、建模、預測等關鍵環節。鑑於資料科學專案的複雜本質以及對人類專家知識的深度依賴,自動化在改變資料科學正規化方面擁有極大的發展空間。隨著生成式預訓練語言模型的興起,讓大語言模型智慧體處理複雜任務變得越來越重要。

傳統的資料處理和分析大多依賴專業的資料科學家,費時費力。如果能夠讓大語言模型智慧體扮演資料科學家的角色,那麼除了能夠為我們提供更高效的洞察和分析,還可以開啟前所未有的工業模式和研究正規化。

這樣一來只要給定資料任務需求,專注於資料科學的智慧體就可以自主地處理海量資料,發現隱藏在資料背後的模式和趨勢。更廣闊地,可以提供清晰模型構建的策略和程式碼,呼叫機器進行模型部署推理,最後利用資料視覺化,使複雜的資料關係一目瞭然。

近期,吉林大學、上海交通大學和倫敦大學學院汪軍團隊合作提出了 DS-Agent,這一智慧體的角色定位是一名資料科學家,其目標是在自動化資料科學中處理複雜的機器學習建模任務。技術層面上,團隊採用了一種經典的人工智慧策略 —— 基於案例的推理(Case-Based Reasoning,CBR),賦予了智慧體 “參考” 他山之石的能力,使其能夠利用以往解決類似問題的經驗來解決新問題。

圖片

  • 論文連結:https://arxiv.org/pdf/2402.17453.pdf
  • 程式碼連結:https://github.com/guosyjlu/DS-Agent
  • 論文題目:DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning

研究背景

在自動化資料科學這種開放決策場景中,目前的大模型智慧體(例如 AutoGPT、LangChain、ResearchAgent 等)即使搭配 GPT-4 也難以保證較高的成功率。其主要挑戰在於大模型智慧體無法穩定地生成可靠的機器學習解決方案,並且還面臨著幻覺輸出的問題。當然,針對資料科學這一特定場景對大模型進行微調似乎是一種可行的策略,但這同時引入了兩個新問題:(1)生成有效的反饋訊號需要基於機器學習模型訓練,這一過程需要耗費大量時間才能積累足夠的微調資料。(2)微調過程中需要執行反向傳播演算法,這不僅增加了計算開銷,而且大幅度提升了對計算資源的需求。

在這種情況下,團隊決定使用 Kaggle 這一關鍵資源。作為世界上最大的資料科學競賽平臺,它擁有由經驗豐富的資料科學家社群貢獻的大量技術報告和程式碼。為了使大模型智慧體能夠高效地利用這些專家知識,團隊採用了一個經典的人工智慧問題解決正規化 —— 基於案例的推理。

基於案例的推理的核心工作機制是維護一個案例庫來不斷儲存過往經驗。當出現一個新問題時,CBR 會在案例庫中檢索相似的過往案例,並嘗試複用這些案例的解決方案來解決新問題。隨後,CBR 會評估解決方案的有效性並根據反饋修訂解決方案,這一過程中的成功的解決方案會被增加到案例庫中以供未來複用。

在此基礎上,團隊提出 DS-Agent,利用 CBR 使大模型智慧體能夠分析、提取和重用 Kaggle 上的人類專家見解,並根據實際的執行反饋迭代修訂解決方案,從而實現面向資料科學任務的持續效能提升。

圖片

框架細節

總體上,DS-Agent 實現了兩種模式,以適應不同的應用階段和資源要求。

  • 標準模式(開發階段):DS-Agent 採用 CBR 構建自動化迭代流程,這模擬了資料科學家在搭建和調整機器學習模型時的連續探索過程,透過不斷的實驗和最佳化以求達到最佳解決方案。
  • 低資源模式(部署階段):DS-Agent 複用開發階段積累的成功案例來生成程式碼,這大大減少了對計算資源和基座模型推理能力的需求,使得開源大模型解決自動化資料科學任務成為可能。

圖片

開發階段中,給定一個新的資料科學任務,DS-Agent 首先從 Kaggle 中檢索出與任務相關的人類專家知識,並在此基礎上構建初步的解決方案。緊接著,它進入一個迭代迴圈,透過程式設計和除錯來訓練機器學習模型,以獲得在測試集上的效能指標。這些反饋指標成為評價和改進解決方案的關鍵依據。DS-Agent 會根據這些指標對模型設計進行必要的修改,以尋求最優的模型設計。在這個過程中,那些最優的機器學習解決方案被儲存在案例庫中,為將來遇到類似任務時提供了參考。

部署階段下,DS-Agent 的工作模式變得更加直接和高效。在這個階段,它直接檢索並複用經過驗證的成功案例來生成程式碼,而無需再次從頭開始探索。這樣不僅降低了對計算資源的需求,使得 DS-Agent 能夠快速響應使用者的需求;還顯著降低了對大模型基座能力的要求,以一種低資源的方式提供高質量的機器學習模型。

實驗設定

我們收集了 30 種不同的資料科學任務,覆蓋了三種主要資料模態(文字、表格和時間序列)以及兩大機器學習核心問題(分類和迴歸),並設計了不同的評價指標來保證任務的多樣性。

圖片

開發階段實驗結果

在開發階段中,DS-Agent 使用 GPT-4 首次在資料科學任務中實現了 100% 的成功率;相比之下,DS-Agent 即使使用 GPT-3.5 也展現出了比最強基線 ResearchAgent 使用 GPT-4 時還要更高的成功率。

圖片


此外,DS-Agent 使用 GPT-4 和 GPT-3.5 時,分別在測試集評價指標中取得了第一和第二的成績,顯著優於最強基線 ResearchAgent。

圖片

部署階段實驗結果

部署階段中,DS-Agent 使用 GPT-4 時,取得了首次接近 100% 的一次成功率,同時將開源模型 Mixtral-8x7b-Instruct 的一次成功率從 6.11% 躍升到了 31.11%。

圖片

在測試集指標評估中,DS-Agent 使用 GPT-4 和 GPT-3 時,取得了第一和第二的成績;然而遺憾的是,開源大模型 Mixtral-8x7b-Instruct 在 DS-Agent 的加持下仍然沒有超越 GPT-3.5。

圖片

最後,我們對 DS-Agent 在兩種不同模式下的 API 呼叫成本進行了分析。透過對比,我們發現在開發階段,DS-Agent 分別對 GPT-4 和 GPT-3.5 進行呼叫時,單次成本分別是 1.60 美元和 0.06 美元。然而,在部署階段,成本得到了顯著降低:DS-Agent 單次使用 GPT-4 的成本下降至僅需 13 美分,而單次使用 GPT-3.5 的成本更是低至不足 1 美分。這意味著在部署階段,與開發階段相比,我們實現了超過 90% 的成本節省。

圖片

藉助 DS-Agent,即便你不懂程式設計、沒學過機器學習,也能輕鬆應對各種複雜的資料分析挑戰,瞬間獲得深入的業務洞察,進行有效的決策支援,最佳化策略,並預測未來趨勢,從而使企業資料部門的工作效率有望得到大幅提升。試想一下,營銷人員只需用自然語言描述需求,智慧體就能快速生成使用者畫像和營銷策略分析;金融分析師告別手動建模的繁瑣,轉而與智慧體探討市場趨勢…… 這一切可能很快就會成為現實。當然,自動化資料科學還處於起步階段,離規模化應用尚需時日。但 DS-Agent 的出現無疑為我們展現了一幅令人期待的未來圖景。隨著人工智慧的不斷髮展,冗雜的資料分析工作有朝一日或將被 AI 接管,而人類則可以把更多時間放在洞見思考和創新決策之上。

相關文章