AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
評估問題通常是 AI 生成的,形式固定;
邏輯鏈簡單,不涉及複雜多步推理;
輸入是純文字形式,模態單一;
沒有部署真實可執行的工具,無法端到端評測。
真實的使用者問題
真實部署的工具
多模態輸入輸出
論文標題:GTA: A Benchmark for General Tool Agents
論文連結:https://arxiv.org/abs/2407.08713
程式碼和資料集連結: https://github.com/open-compass/GTA
專案主頁: https://open-compass.github.io/GTA
Hugging Face:https://huggingface.co/datasets/Jize1/GTA
真實使用者查詢:包含 229 個人類撰寫的問題,問題具有簡單的真實世界目標,但解決步驟是隱含的,工具也是隱含的,要求模型透過推理來選擇合適的工具並規劃操作步驟。
真實部署的工具:GTA 提供了工具部署平臺,涵蓋感知、操作、邏輯和創作四大類共 14 種工具,能夠真實反映智慧體實際的任務執行效能。
多模態輸入輸出:除了文字,GTA 還引入了空間場景、網頁截圖、表格、程式碼片段、手寫 / 列印材料等多模態輸入,要求模型處理這些豐富的上下文資訊,並給出文字或影像輸出。這使得任務更加接近實際應用場景,進一步提升了評估的真實性和複雜性。
逐步模式 (step-by-step mode)。該模式旨在細粒度地評估模型的工具使用能力。在該模式下,ground truth 工具鏈的前 n 步作為 prompt,模型預測第 n + 1 步的操作。在逐步模式下,設計四個指標:InstAcc(指令遵循準確率)、ToolAcc(工具選擇準確率)、ArgAcc(引數預測準確率)和 SummAcc(答案總結準確率)。
端到端模式 (end-to-end mode)。該模式旨在反映智慧體實際執行任務時的表現。在這種模式下,模型會自主呼叫工具並解決問題,而無外部引導。使用 AnsAcc(最終答案准確率)來衡量執行結果的準確性。此外,還計算了工具選擇方面的四個 F1 score:P、L、O、C,分別衡量感知 (Perception)、操作 (Operation)、邏輯 (Logic) 和創作 (Creativity) 類別的工具選擇能力。
構建了通用工具智慧體的評測資料集。問題由人類設計,是步驟隱含、工具隱含的,且立足於真實世界場景,並提供了多模態語境輸入。每個問題都標註了可執行的工具鏈,以支援細粒度的工具使用能力評測。
提供了包含感知、操作、邏輯、創作類別工具的評測平臺。針對工具呼叫設計了細粒度的評測指標,揭示工具增強的語言模型在真實世界場景中的推理和規劃能力。
評測和分析了主流大語言模型。從多個維度評測了 16 個大語言模型,反映了目前的語言模型在真實世界場景下的工具呼叫能力瓶頸,為通用目標智慧體的發展路徑提供建議。