Agents從去年大模型火後就開始爆發,特別是今年2025又被稱為Agents元年,像是要無處不存在Agents似的。Agent是什麼,直譯過來就是代理,但在國內人工智慧領域通常被譯為智慧體。從智慧體這個名字可以大概想象出這個Agents可能與智慧相關,此概念出現已經有相當長時間了。隨著大模型的爆發現在Agents的驅動核心為大模型,似乎智慧體(Agents)時代真要來臨了。
大模型大大降低了智慧體實現的門檻,但如何用好智慧體似乎各方都還在摸索中。目前智慧體的應用中使用最廣泛最多的應該還是在程式設計領域程式碼助手比較火爆,如Cursor等都是AI智慧體。
智慧體概念
現在大模型主要有本文大模型、多模態大模型,可生成文字、邏輯推理、編寫程式碼、生成圖片影片等等能力。光有這些模型基礎能力還不能夠被稱為智慧體,智慧體:顧名思義是一系列能力的集合體。在不同環境中其智慧體的能力也不一樣,智慧體=大模型+工具集。
在除了大模型的生成能力、邏輯推理能力、再加上其函式(工具)呼叫的能力呢,似乎已經看到了智慧體的雛形。
智慧體模式
這裡只簡單介紹兩種相對簡單的模式:序列Workflow模式、動態Agents模式。
Workflow模式: 初級智慧體,此模式下智慧體只能執行某些經過編排好的能力實現固定功能。
智慧規劃模式: 高階智慧體,完全由智慧體規劃任務,決定任務如何執行,是呼叫兩個服務還是呼叫三個服務取決於任務還有規劃的制定。
已經有了高階智慧體為什麼還要去實現初級智慧體,因為目前模型的意圖識別、推理、規劃能力還達不到指哪打哪100%可靠的程度,這時候智慧度越高越複雜的智慧體可能也意味著出錯的機率越大。所以使用簡單又能夠滿足業務需求的初級智慧體或許是更好的選擇。
智慧體示例
智慧體能做什麼,可以隨意發揮想象,可以說你能想到什麼他就能做什麼。以前你要統計某些資料、寫個報告通常都要查這張表、那張表,現在有了智慧體你只需要一句話就可以實現,智慧體自己進行意圖分析呼叫對應的工具實現該邏輯。
上面智慧體包含了工具一個用於查詢歷史一個用於查詢新聞,程式會根據具體的提問決定使用哪些工具呼叫去實現該任務。
上面智慧體包含了裝置、產品、告警、Web Search四個服務工具,上面示例中模型根據提問者的意圖使用了分別使用了四個任務去實現該任務。
智慧家居智慧體: 當你在電腦桌前敲程式碼,對著手機喊一聲小愛同學過來這邊拖地,這時候觸發了掃地機器人智慧體,智慧體對“過來這邊拖地”這句話進行意圖識別分析,識別到“過來”、“拖地”,於是透過人在感測器發現你的具體位置,並對掃地機器人發出拖地指令以及位置資訊。目前還沒有實現該場景憑空想象出來的。
可行性與成本
目前大模型理解、生成資料的可靠性並不能達到100%所以很多暢想並不能實現,在現在的水平智慧體(Agents)業務越複雜出錯的機率就越高。增刪改查,智慧體查錯資料可能問題不大,但是增刪改錯資料就不是小問題。除非能避免或保證不出錯或能夠忽略不在乎該錯誤。
目前業內通常在智慧體中加入了評估模組用於提高智慧體的可靠性,評估分數小於某個閾值則重新迭代某個或整個流程。再怎樣還是沒法保證智慧體執行的結果是一定正確的,類似與Cursor等程式設計助手智慧體之所以比較流行一個重要的原因之一是這類應用的容錯性、容忍性比較高,可以透過後續除錯測試發現錯誤修正錯誤。
智慧體(Agents)的可靠性,步驟越多可靠性越低。一個節點可靠性是90%,如智慧體內部達到5個流程節點串聯,整體可靠性就降到不到60%。
智慧體可靠性=0.90*0.90*0.90*0.90*0.90=59%
隨著評估模組、安全模組的加入智慧體的成本進一步增加,原來一個響應要十秒現在可能增加到30秒,原來消耗2萬tokens現在可能就消耗了5萬tokens。
未來
由於可靠性問題,目前距離完全智慧體可能還有一段距離,現在是智慧體的基座大模型可靠性限制了智慧體的想象空間。對智慧體感興趣的可去看看谷歌最近釋出的《Agents》白皮書與Anthropic的新文章。
參考資料:
谷歌《Agents》