經歷了提前兩天的「意外洩露」之後,Llama 3.1 終於在昨夜由官方正式釋出了。
Llama 3.1 將上下文長度擴充套件到了 128K,擁有 8B、70B 和 405B 三個版本,再次以一已之力抬高了大模型賽道的競爭標準。
對 AI 社群來說,Llama 3.1 405B 最重要的意義是重新整理了開源基礎模型的能力上限,Meta 官方稱,在一系列任務中,其效能可與最好的閉源模型相媲美。
下表展示了當前 Llama 3 系列模型在關鍵基準測試上的效能。可以看出,405B 模型的效能與 GPT-4o 十分接近。
與此同時,Meta 公佈了《The Llama 3 Herd of Models》論文,揭示了 Llama 3 系列模型迄今為止的研究細節。
論文地址:https://ai.meta.com/research/publications/the-llama-3-herd-of-models/
接下來,讓我們看一下論文內容。
Llama3 論文亮點
1、在使用 8K 上下文長度進行預訓練後,Llama 3.1 405B 使用 128K 上下文長度進行連續訓練,且支援多語言和工具使用。
2、與以前的 Llama 模型相比,Meta 加強了預處理和預訓練資料的 Curation pipelines,以及後訓練資料的質量保證和過濾方法。
Meta 認為,高質量基礎模型的開發有三個關鍵槓桿:資料、規模和複雜性管理。
首先,與 Llama 的早期版本相比,Meta 在數量和質量兩方面改進了用於預訓練和後訓練的資料。Meta 在大約 15 萬億的多語言 Token 語料庫上對 Llama 3 進行了預訓練,相比之下,Llama 2 只使用了 1.8 萬億 Token。
此次訓練的模型規模遠大於以前的 Llama 模型:旗艦語言模型使用了 3.8 × 10²⁵ 次浮點運算(FLOPs)進行預訓練,超過 Llama 2 的最大版本近 50 倍。
基於 Scaling law,在 Meta 的訓練預算下,當前的旗艦模型已是近似計算最優的規模,但 Meta 對較小模型進行的訓練時間已經遠超計算最優的時長。結果表明,這些較小模型在相同推理預算下的表現優於計算最優模型。在後訓練階段,Meta 使用了 405B 的旗艦模型進一步提高了 70B 和 8B 模型這些較小模型的質量。
3、為了支援 405B 模型的大規模生產推理,Meta 將 16 位 (BF16) 量化為 8 位 (FP8),從而降低了計算要求,並使模型能夠在單個伺服器節點上執行。
4、在 15.6T token(3.8x10²⁵ FLOPs)上預訓練 405B 是一項重大挑戰,Meta 最佳化了整個訓練堆疊,並使用了超過 16K H100 GPU。
正如 PyTorch 創始人、Meta 傑出工程師 Soumith Chintala 所說,Llama3 論文揭示了許多很酷的細節,其中之一就是基礎設施的構建。
5、在後訓練中,Meta 透過多輪對齊來完善 Chat 模型,其中包括監督微調(SFT)、拒絕取樣和直接偏好最佳化。大多數 SFT 樣本由合成資料生成。
研究者在設計中做出了一些選擇,以最大化模型開發過程的可擴充套件性。例如,選擇標準的密集 Transformer 模型架構,只進行了少量調整,而不是採用專家混合模型,以最大限度地提高訓練的穩定性。同樣,採用相對簡單的後訓練程式,基於監督微調(SFT)、拒絕取樣(RS)和直接偏好最佳化(DPO),而不是更復雜的強化學習演算法, 因為後者往往穩定性較差且更難擴充套件。
6、作為 Llama 3 開發過程的一部分,Meta 團隊還開發了模型的多模態擴充套件,使其具備影像識別、影片識別和語音理解的能力。這些模型仍在積極開發中,尚未準備好釋出,但論文展示了對這些多模態模型進行初步實驗的結果。
7、Meta 更新了許可證,允許開發者使用 Llama 模型的輸出結果來增強其他模型。
在這篇論文的最後,我們還看到了長長的貢獻者名單:
這一系列因素,最終造就了今天的 Llama 3 系列。
當然,對於普通開發者來說,如何利用 405B 規模的模型是一項挑戰,需要大量的計算資源和專業知識。
釋出之後,Llama 3.1 的生態系統已準備就緒,超過 25 個合作伙伴提供了可與最新模型搭配使用的服務,包括亞馬遜雲科技、NVIDIA、Databricks、Groq、Dell、Azure、Google Cloud 和 Snowflake 等。
更多技術細節,可參考原論文。