預訓練語言模型通常在其引數中編碼大量資訊,並且隨著規模的增加,它們可以更準確地回憶和使用這些資訊。對於主要將資訊編碼為線性矩陣變換權重的密集深度神經網路來說,引數大小的擴充套件直接與計算和能量需求的增加相關。語言模型需要學習的一個重要資訊子集是簡單關聯。雖然前饋網路原則上(給定足夠的規模)可以學習任何函式,但使用聯想記憶(associative memory)會更高效。
記憶層(memory layers)使用可訓練的鍵值查詢機制向模型新增額外的引數,而不會增加 FLOP。從概念上講,稀疏啟用的記憶層補充了計算量大的密集前饋層,提供了廉價地儲存和檢索資訊的專用容量。
最近,Meta 的一項新研究使記憶層超越了概念驗證,證明了它們在大型語言模型(LLM)擴充套件中的實用性。
論文標題:Memory Layers at Scale 論文地址:https://arxiv.org/pdf/2412.09764 專案地址:https://github.com/facebookresearch/memory
首先,記憶層中的鍵和值是可訓練引數,而不是啟用引數; 其次,記憶層在鍵和值的數量方面通常具有更大的規模,因此稀疏查詢和更新是必需的。