AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本論文作者趙偉翔是哈爾濱工業大學社會計算與資訊檢索研究中心 2021 級直博生,導師為趙妍妍教授和秦兵教授,主要研究方向為對話系統、大語言模型對齊等。他曾以第一作者在 ACL、AAAI、IJCAI、COLING 等會議上發表論文。
個人主頁: https://circle-hit.github.io/
在大模型實際部署落地的過程中,如何賦予大模型持續學習的能力是一個至關重要的挑戰。這使其能夠動態適應新的任務並不斷獲得新的知識。大模型的持續學習主要面臨兩個重大挑戰,分別是災難性遺忘和知識遷移。災難性遺忘是指模型在學習新任務時,會忘記其已掌握的舊任務。知識遷移則涉及到如何在學習新任務時有效地應用舊任務的知識來提升新任務學習的效果。
為了有效應對以上難題,哈工大聯合度小滿推出針對大模型的共享注意力持續學習框架 SAPT,相應論文已被自然語言處理頂級會議 ACL 2024 接收。
論文:SAPT: A Shared Attention Framework for Parameter-Efficient Continual Learning of Large Language Models
論文地址:https://arxiv.org/abs/2401.08295
研究動機
現有面向大模型的持續學習的工作大都基於引數高效微調 (Parameter-Efficient Tuning, PET) 而開展,並且可以被抽象為由學習模組和選擇模組組成的工作框架。如圖 1 中虛線所示,當新任務對話生成到達時,學習模組會為其分配一個單獨的 PET 塊來學習任務特定的知識,然後將其儲存在 PET 資源池中,以供後續在測試樣本到來時(任務序號在測試階段無法獲取),選擇模組能夠自動地為其選擇所屬的 PET 塊,得到測試輸入的結果。然而,當前工作中每個模組的設計在有效應對災難性遺忘和知識遷移挑戰方面都表現出一定的侷限性。
一方面,學習模組的設計旨在促進不同任務之間的知識遷移。不幸的是,學習模組分配的 PET 只學習當前任務特定知識的現狀阻斷了儲存在已習得的 PET 塊中的來自先前任務知識的潛在遷移,並阻礙它們協助當前新任務知識的獲取。
另一方面,選擇模組在緩解災難性遺忘方面發揮著關鍵作用,因為只有當它能夠自動選擇當前輸入所屬的 PET 塊時,大模型基座才能成功完成當前任務。然而,當前工作中基於拼接或相加來自所有任務的 PET 塊的設計無法有效緩解災難性遺忘。
更重要的是,他們忽略了將這兩個模組進行對齊來同時解決災難性遺忘和知識遷移。直覺上來看(如圖 1 中的實線所示),為了促進新任務學習時的知識遷移,學習模組應該依靠任務相關性來利用先前 PET 塊中最相關的知識。而後選擇模組可以自然地重複這一注意力過程,透過尋找屬於每個測試輸入的相應 PET 塊的組合來抵抗災難性遺忘。在本工作中,這種注意力過程被稱為共享注意力。由此,這兩個模組的端到端對齊能夠透過這種共享注意力而建立。
問題定義和設定
持續學習旨在解決學習連續而來的任務序列中的挑戰。形式上,任務序列中每個任務依次而來。每個任務包含一個單獨的目標資料集,其大小為。在任意時間步 t,模型不僅需要掌握第 t 個任務,而且還要保持其在之前所有任務上的效能不發生明顯衰減。
在本工作中,我們深入研究更具挑戰性和實用性的持續學習設定,即不同任務的任務序號不可獲取:在測試階段,模型面對輸入樣本時不知道它們屬於哪個特定任務。
圖 1 當前基於學習模組和選擇模組進行大模型持續學習的概念化框架。其中,虛線表示現有工作的流程,實現表示本工作提出方法的工作流程。
方法介紹
本文提出了針對大語言模型的共享注意力持續學習框架 SAPT,為同時應對災難性遺忘和知識遷移的挑戰提供了有效的解決方案。SAPT 的整體架構由兩個關鍵元件組成,如圖 2 所示:共享注意力學習與選擇模組(SALS)和注意力反思模組(ARM)。在 SALS 中,注意力學習(實線)和注意力選擇(虛線)透過共享注意力操作對齊。然後在 ARM 中,我們透過生成的偽樣本幫助 SALS 回憶來自以前任務輸入對應的正確的注意力權重。
圖 2 我們提出的 SAPT 的整體架構,有共享注意力學習與選擇模組(左)和注意力反思模組構成(右)。
共享注意力學習與選擇模組(SALS):
注意力學習:為了獲取來自先前任務的相關知識,當第 t 個任務到達時,透過 Query Projection 層生成查詢向量和可學習的鍵值進行注意力運算,將所有之前的 PET 塊的引數和當前透過加權組合進行聚合,用於第 t 個任務的學習。
注意力選擇:該部分透過重複注意力學習時的相同的注意力過程,得到現有 PET 塊在每個輸入樣本上的最佳組合,並結合到 LLM 上,完成對當前樣本的測試。
注意力反思模組(ARM):
然而,隨著依次而來的新任務不斷更新 SALS 會導致該模組僅針對最新任務進行最佳注意力組合,從而導致忘記以前任務相應的注意力組合係數。由此,ARM 模組確保來自先前任務的輸入仍然可以正確地執行相應的共享注意力操作,以識別每個任務特定的 PET 塊的組合。具體方法基於生成式回放得到偽樣本,用來對 Query Projection 層進行約束。
實驗結果
我們基於 Prompt Tuning 和 LoRA 這兩個具有代表性的引數高效微調方法,在 SuperNI Benchmark,Long Sequence Benchmark 兩個評測基準上進行了實驗,評價指標為:平均效能(AP)、遺忘率(F.Ra)、前向遷移 (FWT) 以及反向遷移 (BWT)。如表 1 中結果所示,SAPT 具有最高的 AP 和最低的 F.Ra,表明其能夠有效應對災難性遺忘。與此同時,其在 FWT 和 BWT 上也具有最優的表現,體現出 SAPT 能夠實現有效的知識遷移。
表 1 基於 T5-Large 模型在兩個持續學習基準的總體結果
圖 3 展示了在訓練(左圖)和測試(右圖)期間共享注意力的分佈示意圖。我們可以觀察到:(1)PET 塊的學習和選擇過程是完全對齊的,兩個熱力圖幾乎具有相同的佈局。(2)知識遷移確實發生在注意力學習過程中,以幫助 SAPT 獲取新知識。這些進一步驗證了 SAPT 處理災難性遺忘和知識遷移的有效性。
圖 3 共享注意力的視覺化結果。
我們將實驗採用的基礎大模型擴充到了不同的規模,我們實驗分析了 T5 模型大小如何影響 SAPT 的效能。圖 4 顯示了隨著逐漸增大的基礎模型大小,即 Large(770M)、XL(3B)和 XXL(11B),SAPT、O-LoRA 和 Replay 在 AP、F.Ra 和 FWT 方面的表現。總體而言,隨著基礎模型大小的增加,在抵抗災難性遺忘和促進知識遷移方面,SAPT 始終能夠展現出比基線方法更優越的效能。
圖 4 SAPT 基於不同規模的 T5 模組的實驗結果
我們也將基礎大模型擴充到了不同的架構。圖 5 展示了基於不同大小的 T5 和 LLaMA-2 在 SuperNI 基準上的 SAPT 和基線方法的結果。可以觀察到,SAPT 依舊能夠有效地緩解災難性遺忘並促進不同模型架構間的知識遷移。此外,平均效能隨著模型基礎能力的增強而提高(LLaMA-2 > T5),這進一步證明了我們提出的 SAPT 的通用性。
圖 5 SAPT 基於不同架構的大模型的實驗結果。
更多詳細內容可以參考論文原文。論文提出的方法未來將結合到度小滿軒轅大模型中,歡迎大家訪問!
大模型專案地址:https://github.com/Duxiaoman-DI/XuanYuan