
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
極低記憶體消耗:首次以類 SGD 記憶體成本完成大模型訓練,達到甚至超越 AdamW 的效能。 無需 SVD 計算:首次實現僅需輕量級隨機投影進行大模型預訓練,甚至在 7B 模型上最佳化速度超越 Adam。
3 倍預訓練加速:在 8 塊 A100 GPU 上,APOLLO 預訓練 LLaMA 7B 模型實現了 3 倍的加速。 突破規模限制:首次利用 DDP 成功訓練 13B 模型,並在 12GB 記憶體的消費級 GPU(如 NVIDIA RTX 4090)上完成 7B 模型的預訓練,無需依賴模型並行、檢查點或解除安裝策略。


論文地址:https://arxiv.org/pdf/2412.05270 論文網站:https://zhuhanqing.github.io/APOLLO/ 論文程式碼: https://github.com/zhuhanqing/APOLLO










加速訓練
極低記憶體消耗

極低的計算開銷