ICML 2024 | 脫離LoRA架構,訓練引數大幅減少,新型傅立葉微調來了
机器之心發表於2024-05-27
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文介紹了香港科技大學(廣州)的一篇關於大模型高效微調(LLM PEFT Fine-tuning)的文章「Parameter-Efficient Fine-Tuning with Discrete Fourier Transform」,本文被 ICML 2024 接收,程式碼已開源。- 論文地址:https://arxiv.org/abs/2405.03003
- 專案地址:https://github.com/Chaos96/fourierft
大型基座模型在自然語言處理(NLP)和計算機視覺(CV)領域都獲得了矚目的成就。微調(Finetuning)大型基座模型,使其更加適應特殊的下游任務,成為了一項熱門研究課題。然而,在模型越來越大,下游任務越來越多樣的今天,微調整個模型帶來的計算、儲存消耗已大到不再能被接受。LoRA 採用低秩擬合微調增量的方案,成功降低了大量的此類消耗,但每個適應器(adapter)的大小仍然是不可忽視的。這激發了本文的核心問題:相比 LoRA,如何進一步大幅減少可訓練引數?此外,一個有趣的附加問題是能否採用更少的引數量得到高秩增量矩陣。傅立葉基底在各類資料壓縮應用中廣泛使用,例如一維向量訊號和二維影像的壓縮。在這些應用中,稠密的空域訊號透過傅立葉變換被轉化為稀疏的頻域訊號。基於這一原理,作者推測模型權重的增量也可以被視為一種空域訊號,其對應的頻域訊號可以透過稀疏表示來實現。在這一假設的基礎上,作者提出了一種新的方法,用於在頻域中學習增量權重訊號。具體來說,該方法透過隨機位置的稀疏頻域訊號來表示空域權重增量。在載入預訓練模型時,首先隨機選擇 n 個點作為有效的頻域訊號,然後將這些訊號拼接成一個一維向量。在前向傳播過程中,這個一維向量被用來透過傅立葉變換恢復空域矩陣;在反向傳播過程中,由於傅立葉變換的可導性,可以直接對此可學習的向量進行更新。這種方法不僅有效減少了模型微調時所需的引數數量,同時保證了微調效能。透過這種方式,作者不僅實現了對大規模基礎模型的高效微調,還展示了傅立葉變換在機器學習領域中的潛在應用價值。得益於傅立葉變換基底的高資訊量,僅需很小的 n 值即可達到與 LoRA 相當甚至超過 LoRA 的表現。一般來說,傅立葉微調的可訓練引數僅為 LoRA 的千分之一到十分之一。作者在自然語言理解的 GLUE 基準測試上對傅立葉微調方法進行了評估。基線對比方法包括全量微調(FF,Full Finetuning)、Bitfit、適應器微調(Adapter Tuning)、LoRA、DyLoRA 和 AdaLoRA。下表展示了各種方法在 GLUE 各個任務上的表現及其所需的訓練引數量。結果表明,傅立葉微調以最少的引數量達到了甚至超越了其他微調方法的效能。大模型的自然語言生成是目前模型微調的重要應用領域。作者在 LLaMA 系列模型、MT-Bench 任務和 Vicuna 任務上評估了傅立葉微調的效能。結果顯示,傅立葉微調以極低的訓練引數量達到了與 LoRA 相似的效果,進一步驗證了傅立葉微調方法的通用性和有效性。作者在 Vision Transformer 上測試了傅立葉微調的效能,涵蓋了 8 個常見的影像分類資料集。實驗結果表明,雖然在影像分類任務中傅立葉微調相較LoRA的壓縮率提升並不比自然語言任務中顯著,但其仍然以遠小於 LoRA 的引數量超越了 LoRA 的效果。這進一步展示了傅立葉微調在不同應用領域中的有效性和優勢。在 GLUE 基準的 RTE 資料集上,FourierFT 可以實現明顯高於 LoRA (通常為 4 或 8) 的增量的秩。微調過程中,FourierFT 可以實現比 LoRA 更少的 GPU 消耗。下圖為採用單張 4090 顯示卡在 RoBERTa-Large 模型上的巔峰記憶體消耗。作者介紹了一種名為傅立葉微調的高效微調方法,透過利用傅立葉變換來減少大基礎模型微調時的可訓練引數數量。該方法透過學習少量的傅立葉譜系數來表示權重變化,顯著降低了儲存和計算需求。實驗結果顯示,傅立葉微調在自然語言理解、自然語言生成、指令調優和影像分類等任務上表現優異,與現有的低秩適應方法(如 LoRA)相比,傅立葉微調在保持或超過 LoRA 效能的同時,所需的可訓練引數大幅減少。