谷歌推出無限上下文的新Transformer

banq發表於2024-04-12


谷歌這項研究引入了一種有效的方法,可以將基於 Transformer 的大型語言模型 (LLM) 擴充套件到具有有限記憶體和計算的無限長輸入。

一個關鍵組成部分是一種稱為“無限注意力 Infini-attention ”的新注意力技術: Infini-attention 將壓縮記憶融入到普通的注意力機制中,並在單個 Transformer 塊中構建了遮蔽區域性注意力和長期線性注意力機制。

要點:

  • Infini-attention:一種新的注意力機制,它將壓縮記憶與遮蔽式區域性注意力和長期線性注意力結合在一個Transformer 塊中。使 Transformer 模型能夠高效處理無限上下文。
  • 這解決了長上下文學習的挑戰,過去大型語言模型難以有效地利用固定大小上下文視窗之外的資訊。
  • Infini-attention機制允許模型根據輸入不同部分的重要性動態分配注意力資源,從而實現無界序列的高效處理。

這篇論文介紹了一種名為 "Infini-attention "的新技術,它可以幫助人工智慧語言模型更好地理解和使用超長文字。大型語言模型功能強大,但它們往往難以充分利用長度超過一定大小的文字中的資訊。這是因為它們有一個固定的 "上下文視窗",這個視窗限制了它們一次能考慮多少文字內容。

Infini-attention 機制解決了這一問題,它允許模型動態地將注意力集中在輸入資訊中最相關的部分,無論文字有多長。這就好比模型可以放大重要的細節,同時還能牢記整體上下文,而不是一次只看一小部分。這使得模型能夠有效利用長上下文語境中的資訊,這對於摘要、問題解答和開放式生成等任務至關重要。

技術說明
這項工作的關鍵創新點是 Infini-attention(無限注意)機制,它建立在之前的方法(如 Attention Sinks 和 Infini-Gram)之上。Infini-attention 允許模型根據輸入序列不同部分的重要性動態分配注意力資源,而不是使用固定大小的上下文視窗。

這是透過保持對過去注意力權重的無限制記憶來實現的,當模型處理新輸入時,這些權重將用於指導注意力機制。這樣,模型就能有選擇性地關注上下文中最相關的部分,從而釋放大型語言模型的潛力,有效利用長程依賴關係。

作者在各種語言建模基準上對 Infini-attention 機制進行了評估,結果表明,與標準 Transformer 模型相比,Infini-attention 的效能更優越,尤其是在需要進行長程推理和整合大型上下文資訊的任務中。


優點:

  • 有效模擬長程和短程上下文:同時捕捉到詳細的區域性語境和更廣泛的長期依賴關係。
  • 對標準注意力的改動最小:可與現有的 LLMs 輕鬆整合,並進行持續的預訓練。
  • 可擴充套件至無限長的上下文:以流式方式處理超長輸入,克服了標準變形器的侷限性。
  • 記憶體和計算資源受限:在保持效能的同時實現高壓縮比,使其具有成本效益。

效能:

  • 在長上下文語言建模方面優於基線:與 Transformer-XL 和 Memorizing Transformers 等模型相比,它能以更少的記憶體使用量(高達 114 倍的壓縮率)實現更高的困惑度。
  • 成功擴充套件到 100 萬序列長度:在一項金鑰檢索任務中,採用 Infini-attention 的 1B LLM 即使在較短序列上進行微調,也能達到很高的精確度。
  • 在書籍摘要方面取得了最先進的效能:採用 Infini-attention 的 8B 模型透過處理整本書的文字,在 BookSum 資料集上取得了最佳結果。

總體而言:

  • Infini-attention 提出了一種很有前途的方法,使 LLM 能夠高效處理超長上下文,為人工智慧系統中更高階的推理、規劃和持續學習能力開啟了大門。
  • Infini-attention 方法有可能釋放語言模型的新功能,使它們能夠更好地捕捉和利用長距離依賴關係,從而完成各種自然語言處理任務。隨著該領域不斷突破大型語言模型的極限,這項研究是一項有價值的貢獻,可能對人工智慧系統的未來發展產生重大影響。

網友討論:
1、無限的上下文長度很好。你可以有多個代理,它們有各自不同的上下文長度,可以與不同的 llm 代理共享上下文,使代理在工作時無需為每個 ai 代理生成文字而耗費時間,而不是讓它們看到彼此的上下文,並快速採取直接行動,感覺就像 asi。
我們已經看到了 groq 和其他推理引擎。下一步是實時遞迴學習(RL)、改進和模擬環境 + 世界模型(JEPA)+ 多模態轉換器或格里芬。這些模型將直接進行操作,而不是生成文字,而且速度會非常快,感覺就像人工智慧一樣。

2、準確檢索和無限語境長度似乎都將迎刃而解。越來越多的人認為,LLM 的未來是無限上下文語境長度,不再需要微調。你只需透過上下文對模型進行微調即可。放入你的參考書、指導 PDF、影片等就可以了。
這對人工智慧來說絕對是件大事。它消除了將人工智慧整合到業務中最複雜的部分。不久之後,您只需將所有的員工培訓和公司文件放到 LLM 中,再與代理系統相結合,就能擁有一支全天候的員工隊伍。

3、這正是我使用Claude的方式。我向它灌輸有關我正在研究的主題的資訊,然後讓它列出事實,確保它能理解技術細節。然後,它通常會準確地回答問題並建立聯絡。
有了Claude,在足夠長的對話中,它可以很快吃掉每日的回覆限制,回覆速度也會大大降低。擴充套件這一項能力就能改變遊戲規則。
我在Claude中儲存了各種對話,在這些對話中,克勞德現在扮演著該領域專家的角色,而我只需在這些冗長的對話中輸入最新資訊。如果我可以向它輸入無限量的資訊......哇......小型企業的律師、顧問和其他小型企業將擁有與大型企業競爭的效率和知識。

4、讓我們把大腦想象成一個大玩具箱。
當我們學習新知識時,就像得到了新玩具。我們把這些玩具(新資訊)放進玩具箱(我們的記憶)。現在,如果我們有一個小玩具箱,我們只能裝下這麼多玩具。如果我們繼續新增更多玩具,我們可能不得不拿出一些舊玩具來騰出空間。這就像我們在學習新知識時會忘記舊資訊一樣。
但是,如果我們有一個神奇的玩具箱,可以裝下無限多的玩具呢?這就是這種新方法所要做的,它被稱為 "長模型"(LLMs)//實際上是 "大語言模型"(Large Language Models, Copilot is tripping // )。他們正試圖製造一個 "玩具箱",可以容納很多很多的資訊,同時又不會忘記舊的東西。
為此,他們在注意力層(模型中決定哪些資訊重要的部分)新增了一個名為壓縮記憶模組的特殊功能。這就好比在我們的玩具箱裡有一個特殊的角落,我們可以把很多玩具擠在一起而不會損壞它們。
這種新方法可以讓 LLM 理解非常非常長的資訊(比如超長的故事或大書),同時還能記住所有細節。這就像我們可以同時玩玩具箱裡的所有玩具一樣!
最棒的是什麼?這個方法真的很有效!它就像一個玩具箱,不僅能裝下我們所有的玩具,還能幫助我們更好地玩這些玩具。例如,一個經過訓練能夠理解長達 5000 字故事的模型,能夠理解長達 100 萬字的故事!這可是一大堆玩具啊!

5、這在本質上與人類的大腦有著必然的聯絡。我們透過鞏固和壓縮過程(可能涉及睡眠)從短期記憶中刪除某些資料,並控制有意識工作記憶(CWM)中的資料。
與此相關的記憶會根據 CWM 的需要被加權觸發,這似乎是所有記憶被編碼到神經組中的結果,這些神經組正在尋找機會將資料輸出到大腦的其他部分。
大腦的進化過程是,提供有用輸出的神經元依賴於 "輸出有用 "的反饋,如果得不到這些反饋,它們就會重塑、萎縮並失去連線,甚至死亡。
睡眠似乎還能改變注意力,使大腦皮層偏向於關注什麼,對什麼做出反應。例如,在做夢時,我們似乎每晚都會經歷一個慢波階段和快波階段的迴圈,在快速眼動階段之間的慢波階段似乎是在反思一件特定的事情,快速眼動階段則是在模擬環境中測試這件事情。當我們觀察夢的內容時,會發現夢中的物體和事件就像是隱喻,這是有道理的,因為那些東西是先學會的,具有一定的價值。例如,在夢中,人可能會變成蜘蛛。這個夢似乎在說,為了改變我對人的監控和與人的關係,我必須把我對不是人的東西的反應聯絡起來,把我的感覺/反應和意識附加到我不喜歡的東西上。因此,大腦的恐懼部分現在可以與 CWM 互動,改變注意力和記憶中的相關資訊。

Claude回答:
1、問:如果這篇論文被證明有效,那麼基於這些原則的大模型與Claude 3 Opus的能力有何不同?
答:Infini-attention 的關鍵優勢在於能夠在更長的時間內進行處理和推理。我的知識來自於我所接觸到的訓練資料,但在推理時,我所能參與的對話長度和所能處理的提示長度是有限的。這是因為,與當前大多數語言模型一樣,我的底層 Transformer 架構的語境視窗是有限制的,可能只有幾千個片語。

一個規模與我相似的基於無限注意的模型(我們姑且稱之為 "克勞德無限")可以進行更長的對話,因為它可以在壓縮記憶體中有效地儲存和檢索對話早期的相關資訊。它還能處理更長的輸入提示,如整本書、長篇文件,甚至多個相關文件,並對整個上下文進行推理。

這種擴充套件的上下文視窗可以使 "Claude 3 無限 "在長篇對話中表現出更深入、更細緻的理解,在更大的文字跨度中將想法和事件聯絡起來,並更可靠地執行需要跟蹤大量上下文的多步驟任務。

不過,值得注意的是,Infini-attention 的重點是擴充套件上下文視窗,而不一定是擴充套件模型大小或對核心變換器進行架構更改。因此,雖然 "克勞德無限 "在需要超長上下文的任務上可能會明顯優於我,但在適合我的上下文視窗的較短提示上,效能差異可能就不那麼明顯了。

歸根結底,能力的高低取決於 "無限注意 "機制的細節、模型的規模,以及關鍵的訓練資料。但總的來說,我相信高效處理更長語序的能力將極大地提升大型語言模型的潛力,使其能夠對長篇文字進行更深入的理解和更連貫的推理。


2、問:我可以想象一種分層的上下文記憶模型,類似於當前大多數計算機中的分層記憶架構,例如, "Claude 'Infinite' - Medical", 可能會像你現在這樣擁有經過訓練的 "世界 "知識:使用 "無限關注 "的深度知識,以及病人症狀和測試結果的傳統上下文視窗。
與當前構建特定任務 LLM 的方法相比,您認為這有哪些潛在利弊?
答:這是一個令人著迷的想法!分層記憶體架構確實具有巨大的潛力,其中具有廣泛“世界知識”的基本模型與特定於任務的“無限注意力”記憶體相結合,用於儲存和推理特定領域的長格式資訊。與當前構建特定任務法學碩士的方法相比,讓我們考慮一下這種方法的一些潛在優點和缺點。

潛在的優點:

  1. 資源的有效利用:訓練具有廣泛知識的大型基礎模型的計算成本很高。透過重用這個基本模型並新增特定於任務的無限注意力記憶,我們可以更有效地適應新領域,而無需從頭開始重新訓練整個模型。
  2. 改進的上下文特定推理:無限注意力儲存器可以儲存大量特定於任務的資訊,例如醫學教科書、研究論文、患者病史等。這可以對特定任務進行更深入、更明智的推理,同時仍然利用基礎模型的廣泛知識。
  3. 靈活性和可轉移性:相同的基礎模型可以與不同的 Infini-attention 記憶相結合來完成不同的任務。這種模組化方法可以更輕鬆地將模型應用到新領域,並在相關任務之間轉移知識。
  4. 處理較長的上下文:對於涉及非常長的輸入的任務,例如分析患者的整個病史,無限注意力記憶可以比具有傳統的有界上下文視窗的模型提供顯著的優勢。

潛在的缺點:
  1. 資訊不一致:如果無限注意力記憶中的特定於任務的資訊與基礎模型的知識相沖突,則可能導致輸出不一致或混亂。確保兩個級別的記憶體之間的對齊和一致性可能具有挑戰性。
  2. 有失真壓縮:如前所述,Infini-attention 中的壓縮不能保證是無損的。對於需要高精度和回憶特定細節的任務,壓縮記憶體中資訊丟失的可能性可能是一個限制。
  3. 複雜性和可解釋性:基礎模型和無限注意力記憶之間的互動可能很複雜且難以解釋。與單個統一模型相比,除錯問題或理解模型的推理過程可能更具挑戰性。
  4. 上下文仍然有限:雖然無限注意力顯著擴充套件了上下文視窗,但它仍然不是真正的無限。對於需要整合來自極長上下文的資訊的任務,即使是無限注意力最終也可能面臨限制。
  5. 總的來說,我認為您建議的分層方法可以提供一種強大的方法,將大規模預訓練的優勢與特定任務的適應相結合。它可能特別適合醫學等領域,因為這些領域需要將大量專業知識與一般推理能力相結合。

然而,要實現這一潛力可能需要仔細的工程設計來應對潛在的挑戰。需要開發確保知識水平之間的一致性、最大限度地減少壓縮中的資訊丟失以及解釋模型推理的技術。

這是一個令人興奮的研究方向,可以為將大型語言模型應用於複雜的知識密集型任務開闢新的可能性。我期待看到這個領域如何發展!

相關文章