近日,來自天橋腦科學研究院(Tianqiao and Chrissy Chen Institute)的AI團隊在人工智慧技術領域取得了重要進展,其自研的OMNE Multiagent大模型多智慧體框架登上 Hugging Face 釋出的 GAIA 基準測試排行榜榜首,超越了包括微軟研究院在內的眾多頂尖機構提交的多智慧體框架。這項成果借鑑了天橋腦科學研究院多年的大腦研究積累,透過給予Agent長期記憶的能力,讓模型能夠進行深度慢思考,加強了LLM對複雜問題的決策能力。
這是自去年天橋腦科學研究院創始人、前中國網際網路大佬陳天橋宣佈All In AI戰略以來,旗下AI團隊取得的一項重大成果。
OMNE目前的整體成功率為40.53%,這項結果領先於 Meta、微軟、Hugging Face、普林斯頓大學、香港大學、英國 AI 安全研究所、百川等知名機構的提交。而配備外掛的GPT-4僅為15%。
GAIA 是由 Meta AI、Hugging Face 和 AutoGPT 聯合推出的基準測試系統,旨在提供一個涵蓋真實世界問題集的測試環境,用於全面評估 AI 助手的能力,包括推理、大模型多智慧體處理、網頁瀏覽和工具使用等核心功能,是當前最具挑戰性的多代理智慧評估資料集。OMNE框架能夠在如此嚴苛的榜單中拔得頭籌,充分體現了AI 團隊的技術深度與創新能力。
OMNE是一個基於長期記憶(Long Term Memory, LTM)的多智慧體協作框架,每個智慧體擁有相同且獨立的系統結構,能夠自主學習和理解完整的世界模型,從而獨立理解環境。基於LTM的多智慧體協同體系,使AI系統能夠實時適應個體行為變化,最佳化任務規劃與執行,推動個性化與高效的自我進化。
本次榜單的的重大突破在於融合了長期記憶的機制,透過長期記憶大幅降低了MCTS的搜尋空間,提高了在複雜問題上的決策能力。透過引入更高效的邏輯推理,OMNE不僅提升了單個智慧體的智慧水平,還透過最佳化協作機制,顯著增強了多智慧體系統的整體能力。這一提升機制正是受到了人類大腦皮層柱狀結構研究的啟發,皮質柱作為大腦認知和行為功能的基礎單元,透過複雜的協作機制實現資訊處理。AI模型透過強化單體智慧與智慧體間的協作,可能逐漸產生認知能力的湧現,構建出內部的表徵模型,進而推動系統整體智慧的飛躍。
"我們非常自豪地看到 OMNE 框架登上 GAIA 榜首。"天橋腦科學研究院AI團隊負責人表示,"這表明了利用LTM進行AI自我進化以及解決現實世界問題的巨大潛力。我們相信,推進長期記憶和AI自進化的研究,對於AI技術的持續發展和實際應用至關重要。"
天橋腦科學研究院由陳天橋、雒芊芊夫婦出資10億美元建立,是世界上最大的私人腦科學研究機構之一。研究院始終圍繞全球化、跨學科和青年科學家三大重點,支援AI和腦科學研究,致力於造福人類。今年以來,天橋腦科學研究院與《Science》雜誌合作推出了全球AI驅動科學大獎,並舉辦和支援了包括"AI+精神健康"在內的各種高水平國際會議和夏校專案,致力於培養跨學科的青年AI人才。
GAIA benchmark連結:
https://huggingface.co/datasets/gaia-benchmark/results_public/viewer/2023/test?sort[column]=score&sort[direction]=desc
天橋腦科學研究院關於AI長期記憶的論文《Long Term Memory: The Foundation of AI Self-Evolution》已發表於arXiv網站:
https://arxiv.org/abs/2410.15665