鄂維南院士領銜新作：大模型不止有RAG、引數儲存，還有第3種記憶

机器之心發表於2024-07-10

原文網址 : https://www.jiqizhixin.com/articles/2024-07-10-6

2.4B 的 Memory³比更大的 LLM 和 RAG 模型獲得了更好的效能。

近年來，大型語言模型 (LLM) 因其非凡的效能而獲得了前所未有的關注。然而， LLM 的訓練和推理成本高昂，人們一直在嘗試透過各種最佳化方法來降低成本。

本文來自上海演算法創新研究院、北京大學等機構的研究者受人類大腦記憶層次結構的啟發，他們透過為 LLM 配備顯式記憶（一種比模型引數和 RAG 更便宜的記憶格式）來降低這一成本。從概念上講，由於其大部分知識都外化為顯式記憶，因而 LLM 可以享受更少的引數大小、訓練成本和推理成本。

論文地址：https://arxiv.org/pdf/2407.01178
論文標題：Memory³ : Language Modeling with Explicit Memory

作為初步的概念證明，研究者從零開始訓練了一個 2.4B 的 LLM，它比更大的 LLM 和 RAG 模型獲得了更好的效能，並實現了比 RAG 更高的解碼速度。這個模型被命名為 Memory³，因為在 LLM 中，顯式記憶是繼隱式記憶（模型引數）和工作記憶（上下文鍵值）之後的第三種記憶形式。

具體而言，本文引入了一種新的記憶格式，即顯式記憶，其特點是寫入成本和讀取成本相對較低。如圖 1 所示，模型首先將知識庫（或任何文字資料集）轉換為顯式記憶，實現為稀疏注意力鍵 - 值，然後在推理過程中呼叫這些記憶體並將其整合到自注意力層中。

新的記憶格式定義了新的記憶層次結構：

此外，本文還介紹了一種支援知識外化的記憶電路理論，並提出了可以讓儲存易於處理的記憶稀疏機制和促進記憶形成的兩階段預訓練方案。

總結而言：

Memory³ 在推理過程中利用顯式記憶，減輕了模型引數記憶特定知識的負擔；
顯式記憶是從構建的知識庫中編碼而來的，其中稀疏記憶格式保持了真實的儲存大小；
研究者從頭開始訓練了一個具有 2.4B 非嵌入引數的 Memory³ 模型，其效能超過了更大規模的 SOTA 模型。它還比 RAG 具有更好的效能和更快的推理速度；
此外，Memory³ 提高了事實性並減輕了幻覺，並能夠快速適應專業任務。

方法介紹

記憶電路理論有助於確定哪些知識可以儲存為顯式記憶，以及哪種模型架構適合讀取和寫入顯式記憶。

研究者將輸入輸出關係作為電路的內部機制，並將知識定義為輸入輸出關係及其電路。透過操縱這些電路，人們可以從 LLM 中分離出許多知識，同時保持其功能完好無損。

Memory³：在架構方面，本文的目標是為 Transformer LLM 設計一個顯式的記憶機制，使其寫入成本和讀取成本都比較低。此外，本文希望將對 Transformer 架構的修改限制在儘可能小的範圍內，不新增任何新的可訓練引數，這樣大多數現有的 Transformer LLM 都可以在幾乎不進行微調的情況下轉換為 Memory³ 模型。簡單的設計過程如下：

寫入成本：在推理之前，LLM 將每個參考寫入顯式記憶，儲存在驅動器上。記憶是從自注意力層的鍵值向量中選擇的，因此寫入過程不涉及訓練。每個引用都是獨立處理的，避免了長上下文注意力的成本。

讀取成本：在推理過程中，顯式記憶從驅動器中檢索，並與通常的上下文鍵值一起由自注意力讀取。每個記憶由來自少量注意力頭的極少量鍵值組成，從而大大減少了額外的計算、GPU 儲存、驅動器儲存和載入時間。它允許 LLM 頻繁檢索許多參考，而對解碼速度的影響有限。

推理過程如圖 9 所示，每當 LLM 生成 64 個 token 時，它就會丟棄當前記憶，使用這 64 個 token 作為查詢文字來檢索 5 個新記憶，並繼續使用這些記憶進行解碼。同樣，在處理提示時，LLM 會為每 64 個 token 塊檢索 5 個記憶。每個塊都會關注自己的記憶，並且不同塊之間的記憶可能會有所不同。

寫入與讀取記憶：在推理過程中，LLM 可以透過其自注意力層直接讀取檢索到的顯式記憶，方法是將它們與上下文鍵值連線起來（圖 9）。具體來說，對於第 l 層的每個注意力頭 h，如果它被選為記憶頭，那麼它的輸出 Y^( l,h ) 將會改變：

此外，該研究對所有顯式記憶採用並行位置編碼，即所有鍵位置都位於長度為 128 的同一區間內，如圖 9 所示。

兩階段預訓練：預訓練由兩個階段組成，warmup 和持續訓練。只有持續訓練階段涉及顯式記憶，而 warmup 階段使用與普通預訓練相同的格式。

圖 13 繪製了 warmup 階段訓練損失和學習率時間表。

圖 14 繪製了持續訓練階段訓練損失和學習率時間表。

實驗結果

研究者評估了 Memory³ 模型的一般能力（基準任務）、對話能力、專業能力（法律和醫學）以及幻覺。此外，研究者還測量了 Memory³ 的解碼速度，並與類似和更大的 SOTA LLM 以及 RAG 模型進行了比較。

一般能力的評估結果如下所示，結果表明顯式記憶使平均分提高了 2.51%。相比之下，Llama2-7B 與 13B 的得分差距為 4.91%。顯式記憶可以將「有效模型大小」提高 2.51/4.91 ≈ 51.1%。

接下來作者評估了 Memory³ 的對話技巧，結果列於表 18 中，表明模型以更少的引數勝過 Vicuna-7B、Falcon-40B-Instruct 和 ChatGLM2-6B。

目前，LLM 仍然面臨幻覺問題。從概念上講，Memory³ 應該不太容易受到幻覺的影響，因為它的顯式記憶直接對應於參考文字。為了評估幻覺，研究者選擇了兩個英文資料集進行評估。結果如表 19 所示，Memory³ 在大多數任務上都取得了最高分。

使用顯式記憶的一個好處是，LLM 可以透過更新其知識庫輕鬆適應新領域和任務。只需將與任務相關的參考匯入 Memory³ 的知識庫，並可選擇在熱啟動的情況下將其轉換為顯式記憶。然後，該模型可以利用這些新知識進行推理，跳過成本更高且可能有損的微調過程，並且執行速度比 RAG 更快。圖 4 已證明這種成本降低，並且可以促進 LLM 在各個行業的快速部署。

下表表明，Memory³ 的表現優於大多數模型。

最後，研究者透過每秒生成的 token 數來評估 Memory³ 的解碼速度或吞吐量。

瞭解更多內容，請參考原論文。

詳解MySQL儲存過程引數有三種型別(in、out、inout)
2021-09-09
MySql儲存過程型別
前端儲存除了 localStorage 還有啥
2020-06-16
前端
3 python的數值在記憶體中如何儲存
2024-03-19
Python記憶體
Tensorflow儲存神經網路引數有妙招：Saver和Restore
2021-09-13
神經網路REST
程式設計，不止有程式碼，還有藝術
2022-05-30
程式設計
儲存大師新作，三星儲存四大新品面世！
2018-05-07
Redis 記憶體優化神技，小記憶體儲存大資料
2022-07-13
Redis記憶體優化大資料
Python資料儲存方式有幾種？如何使用？
2022-07-07
Python
Java記憶體模型FAQ（五）舊的記憶體模型有什麼問題？
2021-12-02
Java記憶體模型
從裸機到700億引數大模型，這裡有份教程，還有現成可用的指令碼
2024-07-24
大模型指令碼
小數在記憶體中是如何儲存的？
2020-04-28
記憶體
Laravel Model查詢結果的3種儲存格式記憶體佔用對比
2020-09-21
Laravel記憶體
Python常用的資料儲存方式有哪些?五種!
2020-12-11
Python
PHP 編譯引數儲存
2020-01-14
PHP編譯
大模型RAG技術
2024-06-27
大模型
加速全球數字化轉型，HPE智慧儲存平臺引領新時代儲存變革
2020-08-12
浪潮儲存：以全快閃記憶體儲加速數字轉型
2021-08-23
記憶體
專訪諾獎得主：大模型是記憶還是理解？
2024-07-22
大模型
沒有記憶體，怎麼還能跑程式呢
2020-02-26
記憶體
CUDA 有 unified memory 還需要記憶體優化嗎？
2020-11-30
Nifi記憶體優化
LMT下表儲存引數的使用
2019-07-21
mysql儲存過程的引數
2021-09-11
MySql儲存過程
MySQL的儲存方式有哪些？linux運維需要哪些知識
2021-05-25
MySqlLinux運維
Machine Learning (3) - 介紹兩種儲存和讀取模型的方式
2019-04-14
Mac模型
GIFTO（GTO）：不止眼前的苟且，還有詩和遠方
2021-09-07
流程執行期儲存流程變數的表有哪些
2019-06-04
變數
Meta探索大模型記憶層，擴充套件至1280億個引數，優於MoE
2025-01-04
大模型套件
學習筆記14：模型儲存
2024-06-04
筆記模型
即將放棄Python 2.7的不止有Numpy，還有pandas和這些工具
2019-03-01
Python
新基建安全怎麼做？看看這場院士領銜的高峰對話
2020-08-07
Android的3種資料儲存技術（一）File儲存
2020-11-12
Android
openGauss儲存技術（二）——列儲存引擎和記憶體引擎
2022-11-09
儲存引擎記憶體
記憶體中的資料儲存
2019-10-03
記憶體
計算機硬體有兩種儲存資料的方式
2018-06-13
計算機
console.不止有log
2019-01-01
JVM記憶體引數配置
2022-02-20
JVM記憶體
沒有儲存的word文件怎麼找回來恢復沒有儲存的word文件
2022-01-22
STM32 記憶體分配解析及變數的儲存位置
2020-04-29
記憶體變數

鄂維南院士領銜新作：大模型不止有RAG、引數儲存，還有第3種記憶

相關文章