基於大模型的智慧體徹底顛覆AI應用

人工智慧洞察站發表於2024-01-25

來源:金融IT那些事兒

大模型(LLM)在2023年橫掃市場,成為關注熱點,然後其落地應用方面存在很多問題。智慧體(AI Agent)的出現,有效解決了這些問題,AI應用將出現顛覆式變化,給企業和個人帶來工作方式的改變和大幅效率提升。

基於大模型的智慧體徹底顛覆AI應用

01 大模型應用之困

過去的2023年,大模型的能力驚豔了所有人,讓人彷彿看到了通用人工智慧AGI的到來,其熱度已經高到了人必言的程度,也為AI技術應用帶來了新一波熱潮。

大模型與人類的互動透過提示詞(Prompt實現,使用者的提示詞是否清晰明確會影響大模型的效果。如果我們向提示詞新增引數,就可以建立提示詞模版。我們透過提示詞模版為大模型提供使用者輸入。

然而大模型在落地方面存在一系列難題,包括無法支援長程對話、通用大模型對行業個性內容支援不夠、推理能力不足、穩定性低、資料不實時以及幻覺等。這些問題都限制了大模型的實際應用,迫切需要新的技術解決這些問題。

為了解決上述問題,讓大模型在更加複雜的應用場景中使用,AI界進行了廣泛的探索。上半年參加會議的時候大家都在介紹LangChain等工具。到下半年,大家就都在關注智慧體(AI Agent)了,大模型的發展可謂一日千里。

02 鏈:支援大模型的複雜應用

LangChain的特點在於提供了“元件”和“鏈”。

元件是一個具有明確功能和用途的單元。元件包括LLM模型包裝器、聊天模型包裝器及與資料增強相關的一系列工具和介面。這些元件就是LangChain中的核心,可以看到是資料處理流水線上的工作站,完成具體的資料處理。

LangChain透過“”將各種元件連線在一起,鏈能夠確保元件之間的無縫整合和在程式執行環境中的高效呼叫。透過鏈可以使用提示詞模板建立對大模型的一系列呼叫,其中,一個呼叫的輸出可以是另一個呼叫的輸入。此外,還可以在步驟之間增加一些邏輯。舉例來說,LLMChain是LangChain中最常用的鏈,它可以整合LLM模型包裝器和記憶元件,讓聊天機器人擁有“記憶”。

鏈的方式讓大模型的複雜應用成為可能,但處理任務的步驟流程需要透過程式設計才能實現。而智慧體能夠自主分解任務步驟並完成給定目標。

03 什麼是智慧體?

智慧體是指人工智慧代理(Artificial Intelligence Agent),是一種能夠感知環境進行自主理解,進行決策和執行動作的智慧體。AI Agent具備透過獨立思考、呼叫工具逐步完成給定目標的能力。僅需要給定一個目標,AI智慧體就能夠實現針對目標進行獨立思考並完成目標任務。

智慧體本質上是一種高階鏈,可以根據目標進行規劃,將任務分解為一個個步驟。AI智慧體可以使用各種工具進行對外訪問,典型的工具比如網頁搜尋、檔案系統訪問、API等。

04 智慧體:讓AI像人一樣行動

人具有大腦、五官、四肢,五官負責感知周邊環境,大腦負責思考、規劃並做出決策,四肢負責執行決策。類似於人,智慧體主要由大腦、感知、行動三個關鍵部分組成 :

大腦(Brain):大腦主要由一個大型語言模型組成,不僅儲存知識和記憶,還承擔著資訊處理和決策等功能,並可以呈現推理和規劃的過程,能很好地應對未知任務。

感知(Perception):感知模組的核心目的是將Agent的感知空間從純文字領域擴充套件到包括文字、聽覺和視覺模式在內的多模態領域。

行動(Action):在Agent的構建過程中,行動模組接收大腦模組傳送的行動序列,並執行與環境互動的行動。

05 智慧體系統架構

一個基於大模型的智慧體系統可以拆分為 大模型(LLM)、記憶(Memory)、任務規劃(Planning)以及工具使用(Tool) 的集合。在大模型為基礎的智慧體系統中,大模型作為智慧體系統的大腦負責計算,並需要其他元件進行輔助。

1. 規劃(Planning)

(1)對需要更多步驟的複雜任務,智慧體能夠呼叫大模型透過思維鏈能力進行任務分解,在智慧體架構中,任務的分解和規劃是基於大模型的能力來實現的,大模型的思維鏈(Chain Of Thought,COT)能力透過提示模型逐步思考,將大型任務分解為較小的、可管理的子目標,以便高效的處理複雜任務。

(2)透過反思和自省框架,智慧體可以不斷提升任務規劃能力,智慧體可以對過去的行為進行自我批評和反省,從錯誤中吸取經驗教訓,並對未來的行動進行分析、總結、提煉和完善,從而提高最終結果的質量。自省框架使智慧體能夠修正之前的決策,從而不斷最佳化。這種反思和細化可以幫助智慧體提高自身的智慧和適應性。

2. 記憶 (Memory)

(1)短期記憶:對智慧體系統的所有輸入會成為系統的短期記憶,所有上下文學習都是依賴模型的短期記憶能力進行的。短期記憶受到有限上下文視窗長度的限制,不同的模型的上下文視窗限制不同。

(2)長期記憶:智慧體在完成目標時,需要查詢的外部向量資料庫成為系統的長期記憶。長期記憶使得智慧體能夠長期儲存和呼叫無限資訊的能力。外部的向量資料庫可以透過快速檢索進行訪問。智慧體主要透過長期記憶完成很多複雜任務,如閱讀PDF、知識庫等。

(3)向量資料庫透過將資料轉化為向量儲存。

3. 工具(Tools)

(1)智慧體能夠使用外部工具API擴充模型能力,以獲取大模型以外的能力和資訊。如預定日程、設定待辦、查詢資料等。

(2)類GPT等大模型也更新了外掛的功能,能夠呼叫外掛訪問最新資訊或者特定資料來源,但是需要使用者針對提問問題提前選擇需要使用的外掛,無法做到自然地回答問題。智慧體可以自動呼叫工具使用,根據規劃獲取的每一步任務判斷是否需要呼叫外部工具來完成該任務,並獲取工具API介面返回的資訊給到大模型進行下一步任務。

06 智慧體的應用前景

之前在分析AIGC在金融行業的應用場景(見《AIGC在金融行業的應用場景分析》)時,筆者曾經設想過未來每個人都可以有一個智慧金融助手,這個助手會了解主人的金融需求,並制定個性化的金融解決方案,然後幫助主人購買和打理相關的金融產品和服務。智慧體的出現使得這種設想具備了技術上的可行性。當然,如果這一設想要真正成為實際應用,還需要在行業大模型建設、場景任務模型建設等方面做出很多努力。

未來企業可以結合自己的各種業務場景和崗位考慮建立專門的智慧體。智慧體作為數字員工可以獨立完成或者協同(與人協同或者與其他智慧體協同)完成各種工作任務,比如撰寫報告、知識問答、領域搜尋、文件稽核、綜合辦公、智慧翻譯、資料分析、軟體編寫等。未來經理可以管理一批數字員工,透過自然語言互動等方式安排工作任務。智慧體的廣泛應用將幫助企業大幅提升工作效率。

參考文獻
1. 《2023年人工智慧體(AI Agent)開發與應用全面調研:概念、原理、開發、應用、挑戰、展望》, 旺知識
2. 《什麼是AI Agent?》,張雁宇
3. 《AI Agent在金融領域的應用展望》,楊勁松


來自 “ ITPUB部落格 ” ,連結:https://blog.itpub.net/70027828/viewspace-3005055/,如需轉載,請註明出處,否則將追究法律責任。

相關文章