比LoRA還快50%的微調方法來了！一張3090效能超越全參調優，UIUC聯合LMFlow團隊提出LISA

机器之心發表於2024-04-01

原文網址 : https://www.jiqizhixin.com/articles/2024-04-01-13

2022 年底，隨著 ChatGPT 的爆火，人類正式進入了大模型時代。然而，訓練大模型需要的時空消耗依然居高不下，給大模型的普及和發展帶來了巨大困難。面對這一挑戰，原先在計算機視覺領域流行的 LoRA 技術成功轉型大模型 [1][2]，帶來了接近 2 倍的時間加速和理論最高 8 倍的空間壓縮，將微調技術帶進千家萬戶。

但 LoRA 技術仍存在一定的挑戰。一是 LoRA 技術在很多工上還沒有超過正常的全引數微調 [2][3][4]，二是 LoRA 的理論性質分析比較困難，給其進一步的研究帶來了阻礙。

UIUC 聯合 LMFlow 團隊成員對 LoRA 的實驗性質進行了分析，意外發現 LoRA 非常側重 LLM 的底層和頂層的權重。利用這一特性，LMFlow 團隊提出一個極其簡潔的演算法：Layerwise Importance Sampled AdamW（LISA）。

論文連結：https://arxiv.org/abs/2403.17919
開源地址：https://github.com/OptimalScale/LMFlow

LISA 介紹

LISA 演算法的核心在於：

- 始終更新底層 embedding 和頂層 linear head；

- 隨機更新少數中間的 self-attention 層，比如 2-4 層。

出乎意料的是，實驗發現該演算法在指令微調任務上超過 LoRA 甚至全引數微調。

更重要的是，其空間消耗和 LoRA 相當甚至更低。70B 的總空間消耗降低到了 80G*4，而 7B 則直接降到了單卡 24G 以下！

進一步的，因為 LISA 每次中間只會啟用一小部分引數，演算法對更深的網路，以及梯度檢查點技術（Gradient Checkpointing）也很友好，能夠帶來更大的空間節省。

在指令微調任務上，LISA 的收斂性質比 LoRA 有很大提升，達到了全引數調節的水平。

而且，由於不需要像 LoRA 一樣引入額外的 adapter 結構，LISA 的計算量小於 LoRA，速度比 LoRA 快將近 50%。

理論性質上，LISA 也比 LoRA 更容易分析，Gradient Sparsification、Importance Sampling、Randomized Block-Coordinate Descent 等現有最佳化領域的數學工具都可以用於分析 LISA 及其變種的收斂性質。

一鍵使用 LISA

為了貢獻大模型開源社群，LMFlow 現已整合 LISA，安裝完成後只需一條指令就可以使用 LISA 進行微調：

如果需要進一步減少大模型微調的空間消耗，LMFlow 也已經支援一系列最新技術：

如果在使用過程中遇到任何問題，可透過 github issue 或 github 主頁的微信群聯絡作者團隊。LMFlow 將持續維護並整合最新技術。

總結

在大模型競賽的趨勢下，LMFlow 中的 LISA 為所有人提供了 LoRA 以外的第二個選項，讓大多數普通玩家可以透過這些技術參與到這場使用和研究大模型的浪潮中來。正如團隊口號所表達的：讓每個人都能訓得起大模型（Large Language Model for All）。

^{[1] Hu, Edward J., et al. "Lora: Low-rank adaptation of large language models." ICLR 2022.}

^{[2] Dettmers, Tim, et al. "Qlora: Efficient finetuning of quantized llms." Advances in Neural Information Processing Systems 36 (2024).}

^{[3] Ding, Ning, et al. "Delta tuning: A comprehensive study of parameter efficient methods for pre-trained language models." arXiv preprint arXiv:2203.06904 (2022).}

^{[4] Lialin, Vladislav, et al. "Stack more layers differently: High-rank training through low-rank updates." arXiv preprint arXiv:2307.05695 (2023).}

LoRA大模型微調的利器
2024-09-04
大模型
為資料庫效能調優插上 AI 的翅膀 | 調優測試框架 Matrix 團隊訪談
2022-01-24
資料庫AI框架
快取Apache Spark RDD - 效能調優
2019-01-08
快取ApacheSpark
Spark 效能調優--資源調優
2021-09-09
Spark
只需單卡RTX 3090，低位元量化訓練就能實現LLaMA-3 8B全參微調
2024-05-25
LLM微調方法(Efficient-Tuning)六大主流方法：思路講解&優缺點對比[P-tuning、Lora、Prefix tuing等]
2024-06-17
UI
一張Web效能優化參考圖
2019-07-18
Web優化
【效能調優】效能測試、分析與調優基礎
2020-12-24
Spark學習——效能調優（一）
2019-04-01
Spark
記一次效能調優
2019-01-19
ElasticSearch效能調優
2019-01-15
Elasticsearch
adnroid效能調優
2021-09-09
使用 LoRA 進行 Stable Diffusion 的高效引數微調
2023-02-10
效能調優學習之硬體調優
2024-05-19
掌握Oracle資料庫效能調優方法
2022-05-01
Oracle資料庫
個推技術分享：效能提升60%↑ 成本降低50%↓ Spark效能調優看這篇就夠了！
2021-09-23
Spark
系統效能調優：提升 CPU 快取的命中率
2021-07-27
快取
【效能調優】Oracle AWR報告指標全解析
2020-12-17
Oracle指標
“時間”都去哪兒了？效能調優分析方法與案例詳解
2021-03-17
效能調優實戰
2020-10-27
Linux之效能調優
2024-11-30
Linux
效能監控調優
2024-07-06
linux調優效能命令
2021-12-16
Linux
.Net效能調優-ArrayPool
2021-09-13
.Net效能調優-MemoryPool
2021-09-14
微信小程式調起鍵盤效能優化
2019-03-04
微信小程式優化
ICML 2024 | 脫離LoRA架構，訓練引數大幅減少，新型傅立葉微調來了
2024-05-27
架構
LoRA、完全微調到底有何不同？MIT 21頁論文講明白了
2024-11-11
MIT
LLM 大模型學習必知必會系列(七)：掌握分散式訓練與LoRA/LISA微調：打造高效能大模型的秘訣進階實戰指南
2024-05-28
大模型分散式
效能調優的通用準則
2019-11-20
MySQL 調優之如何正確使用聯合索引
2021-11-11
MySql索引
大模型高效微調詳解-從Adpter、PrefixTuning到LoRA
2024-05-06
大模型
HDFS 07 - HDFS 效能調優之合併小檔案
2021-06-20
solr研磨之效能調優
2018-05-02
Solr
Kafka 線上效能調優
2024-04-18
Kafka
2. 效能調優概述
2020-04-07
java效能調優記錄
2024-10-06
Java
android效能調優詳解
2021-09-09
Android

比LoRA還快50%的微調方法來了！一張3090效能超越全參調優，UIUC聯合LMFlow團隊提出LISA

相關文章