前言:大型語言模型(LLMs)的發展歷程可以說是非常長,從早期的GPT模型一路走到了今天這些複雜的、公開權重的大型語言模型。最初,LLM的訓練過程只關注預訓練,但後來逐步擴充套件到了包括預訓練和後訓練在內的完整流程。後訓練通常涵蓋監督指導微調和對齊過程,而這些在ChatGPT的推廣下變得廣為人知。
自ChatGPT首次釋出以來,訓練方法學也在不斷進化。在這幾期的文章中,我將回顧近1年中在預訓練和後訓練方法學上的最新進展。
關於LLM開發與訓練流程的概覽,特別關注本文中討論的新型預訓練與後訓練方法
每個月都有數百篇關於LLM的新論文提出各種新技術和新方法。然而,要真正瞭解哪些方法在實踐中效果更好,一個非常有效的方式就是看看最近最先進模型的預訓練和後訓練流程。幸運的是,在近1年中,已經有四個重要的新型LLM釋出,並且都附帶了相對詳細的技術報告。
在本文中,我將重點介紹以下模型中的谷歌的 Gemma 2語言模型 預訓練和後訓練流程:
• 阿里巴巴的 Qwen 2
• 蘋果的 智慧基礎語言模型
• 谷歌的 Gemma 2
• Meta AI 的 Llama 3.1
我會完整的介紹列表中的全部模型,但介紹順序是基於它們各自的技術論文在arXiv.org上的發表日期,這也巧合地與它們的字母順序一致。
谷歌的Gemma 2
谷歌的Gemma模型最近在《Gemma 2:改進實用大小的開放語言模型》中有所描述。
我將在接下來的概述部分提供一些關鍵事實的概述,然後討論預訓練和後訓練過程。
**3.1 Gemma 2概述 **
Gemma 2模型有三種規模:20億、90億和270億引數。主要關注的是探索不一定需要增加訓練資料集大小的技術,而是開發相對小且高效的LLM。
值得注意的是,Gemma 2具有相當大的詞彙量,為256k詞彙。相比之下,Llama 2使用了32k詞彙量,Llama 3使用了128k詞彙量。
此外,Gemma 2採用了類似Mistral早期模型的滑動視窗注意力,可能是為了減少記憶體成本。有關Gemma 2架構的更多細節,請參閱我之前文章中的Gemma 2部分。
3.2 Gemma 2預訓練
Gemma的研究人員認為,即使是小型模型也常常訓練不足。然而,他們沒有簡單地增加訓練資料集的大小,而是專注於維護質量,並透過其他方法(如知識蒸餾,類似於蘋果的方法)實現改進。
儘管270億引數的Gemma 2模型是從頭開始訓練的,較小的模型則使用了類似蘋果之前解釋的方法的知識蒸餾進行訓練。
270億引數的模型在13萬億標記上訓練,90億引數的模型在8萬億標記上訓練,20億引數的模型在2萬億標記上訓練。此外,類似於蘋果的方法,Gemma團隊最佳化了資料混合以提升效能。
Gemma 2預訓練技術總結。
3.3 Gemma 2後訓練
Gemma模型的後訓練過程包括典型的監督微調(SFT)和帶人類反饋的強化學習(RLHF)步驟。
指令資料涉及使用僅英語的提示對,這些是人工生成和合成生成內容的混合。具體來說,也很有趣的是,響應主要由教師模型生成,並且在SFT階段也應用了知識蒸餾。
他們的RLHF方法中一個有趣的方面,繼SFT之後,是用於RLHF的獎勵模型比政策(目標)模型大十倍。
Gemma使用的RLHF演算法相當標準,但有一個獨特的轉折:他們透過一種稱為WARP的方法平均了政策模型,這是WARM(加權平均獎勵模型)的後繼者。我之前在我的文章《模型融合、專家混合及朝向更小LLM》中詳細討論過這種方法。
Gemma 2後訓練技術總結。
3.4 結論
Gemma團隊似乎真的加倍依賴知識蒸餾,他們在預訓練和後訓練中都使用了這種方法,與蘋果類似。有趣的是,他們沒有使用多階段預訓練方法,或者至少他們在論文中沒有詳細說明。