地球上最早的生命證據至少可以追溯到 35 億年前,而直到大約 25 萬到 40 萬年前,智人才出現地球上。在這漫長的歲月中,生物不斷地興盛又覆滅,但整體趨勢總是越來越複雜,其中最複雜的生物元件莫過於我們智人的大腦。這樣的複雜性是我們的意識和智慧的來源。而這一切背後的機制是進化(evolution)。
到了現今的大模型時代,強大的基礎模型已經展現出了強大的智慧水平,能完成多種多樣的任務。但它們也有個缺點,訓練之後就基本定型了,難以隨著使用者的使用而演進。但毫無疑問,這項能力很重要。
近日,天橋腦科學研究院和普林斯頓大學等多所研究機構釋出了一篇研究論文,詳細闡述了長期記憶對 AI 自我進化的重要性,並且他們還提出了自己的實現框架 —— 基於多智慧體的 Omne,其在 GAIA 基準上取得了第一名的成績。
論文標題:Long Term Memory : The Foundation of AI Self-Evolution 論文地址:https://arxiv.org/pdf/2410.15665
首先,該團隊將 LLM 的模型進化過程分成了三個主要階段
階段 1:在物理世界中積累認知。 階段 2:在數字世界中構建基礎模型。 階段 3:模型自我進化,以實現更強大的智慧。
現有的研究主要圍繞著階段 1 和 2,即如何構建更好的資料以及將其用於訓練更強大的基礎模型。目前人們有一個普遍的看法:在這種曲線擬合正規化中,架構並不重要,關鍵的因素是資料集。但到了階段 3,架構就會變得和資料一樣重要。核心的難題是如何在統計模型的基礎上有效表達少數個體的資料。該研究關注的核心是如何確保在統計模型內有效地表達個體資料。
實現模型自我進化的原理
模型的自我進化能力是模型長期適應和個性化的關鍵,而這又嚴重仰賴於有效的記憶機制。
在這一理解的基礎上,該團隊提出:長期記憶(LTM)能為模型的持續進化提供歷史資料積累和經驗學習能力。正如人類透過經驗和記憶來完善認知和行為一樣,LTM 也能讓模型在處理長期、分散和個性化的資料時逐步提升推理和學習能力。
用 LTM 資料提升模型能力,使其能夠自我進化
在傳統 LLM 中,更新模型通常需要調整所有引數,而如果目的是處理個體資料,那這種操作明顯不切實際。
一種更優的方法是僅更新區域性引數,從而在無損模型全域性穩定性的前提下,讓模型適應稀疏、個性化的 LTM 資料。這種方法可解決當前模型中個體資料「被平均化」的問題,使個性化資訊能夠更全面地表達。使用上下文學習(ICL)的檢索增強生成(RAG)和用於微調的低秩適應(LoRA)等技術都可被視為區域性更新個體資料的方法。
該團隊的做法是採用一種混合策略來整合 LTM 資料,從而在實際應用中達到讓人滿意的結果。但是,該團隊也表示,這可能並非一種完美的解決方案,未來可能還會出現更好的方法。
組合 LTM 資料進行實時權重更新,從而實現自我進化
當前的 LLM 通常分為訓練和推理兩個階段。在推理階段,模型權重是凍結的,防止模型根據新輸入進行調整和學習。這種固定的推理過程會限制模型的適應性,尤其是在處理個性化任務和實時學習方面。
受人腦更新機制的啟發,該團隊認為未來的 LLM 應該將推理和訓練與 LTM 結合起來,使模型能夠在接收到新資訊時動態調整權重。這就類似於人類的持續學習能力。
此外,這種整合還可以幫助模型在面對複雜的推理任務時自我反思並糾正錯誤的推理路徑,從而提高準確性和效率。
這種動態的自我調整能力將大大提升模型的個性化能力和長期進化潛力。透過長期記憶,模型不僅可以從短期記憶中學習,還可以從歷史資料中提取有價值的見解,隨著時間的推移能更深入地理解個人偏好和行為模式。這種理解可實現模型的個性化定製和動態調整,使模型能夠更有效地進化。特別是在面對新的或極端的情況時,長期記憶使模型能夠參考過去的經驗,快速做出調整並自我進化,從而獲得更大的靈活性和適應性。
長期記憶在模型自我進化中的實現路徑
該團隊首先將給出 AI 自我進化和 LTM 的定義,然後探索 LTM 在 AI 自我進化中的關鍵作用,之後會介紹如何使用 LTM 來實現 AI 自我進化。
他們做出了以下貢獻:
給出了 AI 自我進化和 LTM 的定義; 提出了一個用於 LTM 的資料框架,包括資料收集、分析與合成; 提出了一個用於 LTM 的多智慧體協作開發框架。
AI 自我進化的基礎
這裡簡要給出 AI 自我進化的定義,詳情請參閱原論文。
AI 自我進化是指 AI 模型使用個性化資料不斷學習和最佳化,實現多智慧體協作和認知方面的突破。該過程基於一個共享式核心架構,其中各個模型透過處理個性化經驗和資料不斷進化,從而提升自身推理能力和適應能力,最終實現在動態環境中的自主學習和持續進化。
要實現 AI 自我進化,需要:
多智慧體協作機制 差異化的個性化模型 自我糾錯和評估機制 長期記憶和學習能力
用於 AI 自我進化的 LTM
目前,LLM 主要透過兩種記憶機制來管理資訊:上下文儲存器和基於壓縮的引數儲存器。雖然這些機制在短期任務中表現出色,但它們在支援長期自主學習和進化方面仍然存在不足。
正如人類使用 LTM 來塑造他們的行為和身份一樣,人工智慧系統也可以採用類似的方法根據「個人資料」定製其響應和行為。這裡,「個人資料」不僅限於個人使用者,還包括特定的機構和領域,允許模型根據更廣泛的個人背景和需求調整其響應和行為。
作者深入探討了 LTM 在 AI 自我進化中所發揮的關鍵作用,首先在 AI 自我進化的背景下定義了 LTM,並分析了當前 LLM 記憶機制的缺點。然後,作者討論了透過從人類 LTM 特徵中汲取靈感來增強人工智慧模型的自我進化能力,旨在構建能持續學習和自我完善的人工智慧系統。
該研究將 AI 自我進化中的 LTM 定義為:
LTM 是人工智慧系統可以長期保留和利用的資訊,使模型能夠根據更廣泛的背景調整其響應和行為。
這裡,「個人資料」不僅限於個人使用者,還包括特定的機構和領域,允許模型根據更廣泛的個人背景和需求調整其反應和行為。
從資料積累的角度來看:模型和人類都與環境進行廣泛的互動,為個性化提供基礎資料。與人類相比,人工智慧模型可以更有效地與環境互動,並且可以在純虛擬的數字環境中執行這些互動和迭代。因此,透過設計適當的記憶細化策略,模型應該能夠像人類一樣積累長期記憶,甚至可能具有更高的效率和規模。
從模型更新的角度來看:人工智慧擅長儲存和呼叫海量資料,遠遠超過人類記憶規模。神經網路透過分散式引數管理這些資料,處理來自不同領域的輸入。然而,這種儲存相對剛性,缺乏實時更新的靈活性,通常需要重新訓練才能實現更新。相比之下,人類的記憶力卻非常強。
LTM 的構建策略
LTM 是對原始資料的有效組織和結構化,而不僅僅是表面上對原始資料進行分類和排序。相反,它是從記憶快速儲存和檢索以及資訊高效利用的角度來設計和最佳化。透過建立相關資訊之間的聯絡,有效處理資料並重新組織資訊,智慧體可以快速定位所需的記憶片段,從而提高響應速度和準確性。以下是幾種主要的操作方法:
文字摘要
資料結構化
圖表徵
向量化
模型引數化
如何利用 LTM 實現模型自我進化?
獲得高質量的 LTM 資料後,下一個挑戰是如何利用它來增強模型能力並實現模型的自我進化。在使用 LTM 資料以最大限度地提高其有效性和效率的過程中需要解決幾個關鍵挑戰,包括:
適應持續更新的 LTM 資料。隨著使用者 LTM 資料的不斷積累,模型必須在學習新資訊和保留先前獲取的知識之間取得平衡。傳統模型通常假設穩定的資料分佈,但在實際場景中,新的 LTM 資料可能與早期模式顯著背離,導致過擬合或災難性遺忘等風險。有效處理這些變化對於適應動態 LTM 資料至關重要。
實時學習和高效反饋整合。由於 LTM 資料是動態積累的,模型必須快速適應使用者行為的實時變化。新資料的快速整合對於智慧助手等應用程式至關重要,其中無縫的使用者互動是關鍵。此外,在完善基礎模型時,應考慮隱式(例如點選次數或花費的時間)和顯式的使用者反饋。實時結合這兩種型別的反饋使模型能夠不斷改進並滿足個人使用者的需求。
處理資料稀疏性和使用者多樣性。資料稀疏是持續更新的 LTM 系統中一個常見的問題,特別是對於互動歷史有限或零星活動的使用者來說,這使得訓練模型變得困難。此外,使用者多樣性也會進一步增加複雜性,要求模型適應個體模式,同時仍然有效地推廣到不同的使用者組。
以清華大學團隊的 Agent Hospital(智慧體醫院)作為案例,該團隊展示瞭如何在這個模擬醫療場景中用 LTM 來提升模型的能力,其中包括醫療記錄積累、醫療經驗反思和基於 RAG 利用 LTM。詳見原論文。
基於 LTM 實現模型自我進化的實踐
獲取 LTM 資料
為了提升模型保留和訪問 LTM 資料的能力,該團隊全面研究了各種方法,其中包括:
如何收集真實世界的 LTM 資料。
如何獲取合成的 LTM 資料,其中包括用真實資料提升合成 LTM 資料的生成過程、使用思維鏈增強合成 LTM 資料的生成過程、生成訓練資料和評估資料等多個方面。
如何使用 LTM 資料,該團隊介紹了透過 SFT 和 RAG 使用 LTM、將 LTM 用於醫療領域的智慧體自我評估、透過記憶系統來使用 LTM、透過實時權重更新來使用 LTM。
這其中包含一些實驗評估和例證,詳見原論文。這裡我們來重點看看他們開發的基於 LTM 的多智慧體框架。
基於 LTM 的多智慧體框架
該團隊提出一個基於 LTM 的多智慧體框架 Omne。
Omne 是基於 AutoGen MultiAgent Framework 深度定製的開發框架,專門用於解決 LTM 在 AI 系統中的實際應用難題。
它擴充套件了一系列與記憶相關的基礎設施,包括統一的記憶模型、多模態訊息處理系統以及靈活的記憶儲存和操作機制。Omne 的核心模組(Omne Core)如下圖所示:
Omne 的核心目標是提供一套全面的解決方案,使 LTM 能夠在實際工程專案中有效部署,從而增強 AI 系統的長期記憶能力和任務處理效率。
基於 Omne Core,該團隊還構建了一個 Omne Assistant。
Omne Assistant 的設計目標是幫助開發聊天場景中的 AI 助手,其提供了一個現成的應用層框架。它包括 AI 助手所需的基本功能,使開發人員無需從頭開始設計基礎元件,就能快速構建功能齊全的聊天機器人。
Omne Assistant 帶有一個 Simple Responder,這是一個通用的問答響應器,可以處理基本的使用者聊天互動以實現即時通訊。此外,該框架還提供了一個 Reactive Responder,它具有高階任務分析和規劃功能,使其能夠管理需要多步驟推理和任務編排的更復雜的使用者請求。
藉助這些內建元件,Omne Assistant 可讓開發人員專注於實現自己的功能,從而更快地開發和部署配備長期記憶功能的 AI 助手應用。
在 GAIA 基準(包含 400 多個問答任務的通用 AI 助手測試集)上,該團隊對 Omne 框架進行了評估。
為了探索 AI 的邊界,他們在 Omne 框架中使用了當今最強大的 GPT-4o 和 o1-preview 模型,同時配備了 4 個工具:網路瀏覽、Bing 搜尋引擎、基於 llamaparse 的檔案讀取器,一個使用 o1-preview 構建的邏輯專家。
基於這 2 個基礎模型和 4 個工具,Omne 在測試集和驗證集上分別取得了第一名(40.53%)和第二名(46.06%)的成績。
值得注意的是,Omne 在最複雜、要求最高的 3 級問題上達到了 26.53% 的準確率。這證明了其透過利用強大的基礎模型(尤其是具有強大推理和邏輯能力的模型)解決現實問題的潛力。
未來計劃
該團隊並不打算止步於此,他們已經制定了未來研究的計劃,方向包括:
1. 如何更好地構建 LTM 資料?
2. 如何為 LTM 設計新的模型架構?
3. LTM 如何幫助使用者提出更好的問題?
4. 如何將 LTM 與推理時間搜尋相結合?
5. 如何在複雜場景中使用 LTM 實現智慧體自我進化?
6. 如何在多智慧體場景中使用 LTM?