​哪個模型擅長呼叫工具?這個7B模型躋身工具呼叫綜合榜單第一

机器之心發表於2024-10-24
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.co

工具呼叫是 AI 智慧體的關鍵功能之一,AI 智慧體根據場景變化動態地選擇和呼叫合適的工具,從而實現對複雜任務的自動化處理。例如,在智慧辦公場景中,模型可同時呼叫文件編輯工具、資料處理工具和通訊工具,完成文件撰寫、資料統計和資訊溝通等多項任務。

業界已釋出的工具呼叫模型,在特定評測基準上有接近甚至超越閉源 SOTA 模型(比如 GPT-4)的表現,但在其他評測基準上下降明顯,難以泛化到新工具和新場景。為應對這一挑戰,來自 OPPO 研究院上海交通大學的研究團隊提出函式掩碼(Function Masking) 方法,構建了具備強大泛化能力的輕量化工具呼叫系列模型:Hammer,並開源了完整的技術棧,旨在幫助開發者構建個性化的終端智慧應用。

在工具呼叫典型評測基準上,包括 Berkeley Function-Calling Leaderboard(BFCL)、API-Bank、Seal-Tools 等,Hammer 系列模型展現了出色的總體效能,特別是 Hammer-7B 模型,綜合效果僅次於 GPT-4 等閉源大模型,在工具呼叫模型中綜合排名第一,具備強大的新場景和新工具泛化能力。

圖片

  • 模型地址:https://huggingface.co/MadeAgents
  • 論文地址:https://arxiv.org/abs/2410.04587
  • 程式碼地址:https://github.com/MadeAgents/Hammer

工具呼叫任務說明

工具呼叫作為 AI 智慧體執行復雜任務所必備的核心能力,要求模型不僅能夠識別正確的函式,還要準確填寫函式的輸入引數;如果給定函式列表無法滿足使用者的意圖,模型也應具備拒絕任務的能力。下圖是工具呼叫模型輸入輸出的一個樣例:

圖片

Hammer 訓練方法

研究團隊在 Hammer 的訓練過程中引入了一項關鍵技術:函式掩碼(Function Masking) 和一個增強資料集:不相關性檢測增強資料集(Irrelevance-Augmented Dataset)

  • 函式掩碼旨在減少模型對函式名稱和引數名稱的依賴,核心是透過雜湊化函式名稱和引數名稱,使模型在執行工具呼叫任務時不得不依賴更完備且可靠的功能描述資訊,而不是對名稱的記憶或匹配。這種方式有助於減少因命名差異導致的誤判問題,提升模型在多樣化命名風格和應用場景中的穩定性和適應性。
  • 不相關性檢測增強資料集旨在幫助模型在給定使用者意圖而當前無適用函式的情況下,能夠正確判斷並給出「不相關」訊號。該資料集包含了 7,500 個增強樣本,設計時平衡了工具呼叫任務和不相關性檢測任務的比例,以達到最佳的綜合效果。(已開源至:https://huggingface.co/datasets/MadeAgents/xlam-irrelevance-7.5k)
圖片
Hammer 總體表現

Hammer 系列模型在工具呼叫典型評測基準上均展現了出色的效能,具體表現如下面的兩張表格所示。可以看到,在 BFCL 榜單上,Hammer-7B 模型的總體準確率達到 83.92%,接近閉源 SOTA 模型 GPT-4 的 95.79%,優於其他工具呼叫模型。同時,在其他評測基準上,Hammer-7B 模型的平均 F1 達到 76.21%,接近閉源模型 GPT-4 的 78.79%,大幅領先其他工具呼叫模型。Hammer-7B 能夠在引數規模較小的情況下,在不同評測基準上與閉源 SOTA 大模型競爭,充分展示了 Hammer 模型在各種工具呼叫任務中的準確性和穩定性。
圖片

圖片

函式掩碼技術的通用性

研究團隊還將函式掩碼和資料增強技術應用於不同的基礎模型,以驗證其通用性。實驗選擇了 Qwen 系列和 Deepseek-Coder 系列模型作為基準,並在相同的訓練和測試條件下進行比較。下表中的結果顯示,經過函式掩碼技術調優後的 Hammer 版本顯著提升了基礎模型的工具呼叫準確性,遠高於未調優版本,證明了函式掩碼和不相關性資料增強對不同模型架構均有顯著的最佳化效果。同時,在使用相同的基座模型和基礎資料的情況下,與 xLAM(同樣基於 Deepseek 微調而來的工具呼叫模型)的對比,也體現了函式掩碼及不相關性資料增強的作用。

圖片

不相關性資料增強比例的權衡

在設計不相關性資料增強時,研究團隊測試了不同比例的不相關性資料樣本對模型表現的影響。下圖實驗結果表明,合理比例的不相關性增強資料(約佔總資料的 10%)能夠在提升工具呼叫準確性的同時,顯著增強模型在不相關檢測場景中的識別能力,降低錯誤呼叫的風險。實驗結果還顯示,進一步增加不相關性資料會略微降低功能呼叫的準確性,因此找到適當的平衡點至關重要。

圖片

總結

Hammer 模型透過函式掩碼技術和不相關性檢測資料增強,在多個評測基準中取得了良好的效果,表現出強大的泛化能力和穩定性,為輕量化工具呼叫模型在終端應用向前邁了一步。

Hammer 系列目前已更新至 2.0 版本,歡迎感興趣的讀者透過 huggingface 進行體驗!

相關文章