開源模型陣營又迎來一員猛將:Tülu 3。它來自艾倫人工智慧研究所(Ai2),目前包含 8B 和 70B 兩個版本(未來還會有 405B 版本),並且其效能超過了 Llama 3.1 Instruct 的相應版本!長達 73 的技術報告詳細介紹了後訓練的細節。
模型:https://huggingface.co/allenai
技術報告:https://allenai.org/papers/tulu-3-report.pdf
資料集:https://huggingface.co/collections/allenai/tulu-3-datasets-673b8df14442393f7213f372
GitHub:https://github.com/allenai/open-instruct
Demo:https://playground.allenai.org/
階段一:資料整理。Ai2 整理了各種提示(prompt)資訊,並將其分配到多個最佳化階段。他們建立了新的合成提示,或在可用的情況下,從現有資料集中獲取提示,以針對特定能力。他們確保了提示不受評估套件 Tülu 3 EVAL 的汙染。
階段二:監督微調。Ai2 利用精心挑選的提示和回答結果進行監督微調(SFT)。在評估框架指導下,他們透過全面的實驗,確定最終的 SFT 資料和訓練超引數,以增強目標核心技能,同時不對其他技能的效能產生重大影響。
階段三:偏好微調。Ai2 將偏好微調 —— 特別是 DPO(直接偏好最佳化)—— 應用於根據選定的提示和 off-policy 資料構建的新 on-policy 合成偏好資料。與 SFT 階段一樣,他們透過全面的實驗來確定最佳偏好資料組合,從而發現哪些資料格式、方法或超引數可帶來改進。
階段四:具有可驗證獎勵的強化學習。Ai2 引入了一個新的基於強化學習的後訓練階段,該階段透過可驗證獎勵(而不是傳統 RLHF PPO 訓練中常見的獎勵模型)來訓練模型。他們選擇了結果可驗證的任務,例如數學問題,並且只有當模型的生成被驗證為正確時才提供獎勵。然後,他們基於這些獎勵進行強化學習訓練。
資料質量、出處和規模:Ai2 透過仔細調查可用的開源資料集、分析其出處、淨化來獲取提示,並針對核心技能策劃合成提示。為確保有效性,他們進行了全面的實驗,研究它們對評估套件的影響。他們發現有針對性的提示對提高核心技能很有影響,而真實世界的查詢(如 WildChat)對提高通用聊天能力很重要。利用 Tülu 3 EVAL 淨化工具,他們可以確保提示不會汙染評估套件。
建立多技能 SFT 資料集。透過利用不同資料混合結果進行幾輪有監督微調,Ai2 最佳化了「通用」和「特定技能」類別中提示的分佈。例如,為了提高數學推理能力,Ai2 首先透過建立數學專業模型在評估套件中建立一個上限,然後混合資料,使通用模型更接近這個上限。
編排一個 On-Policy 偏好資料集。Ai2 開發了一個 on-policy 資料編排 pipeline,以擴充套件偏好資料集生成。具體來說,他們根據給定的提示從 Tülu 3-SFT 和其他模型中生成完成結果,並透過成對比較獲得偏好標籤。他們的方法擴充套件並改進了 Cui et al. [2023] 提出的 off-policy 偏好資料生成方法。透過對偏好資料進行精心的多技能選擇,他們獲得了 354192 個用於偏好調整的例項,展示了一系列任務的顯著改進。
偏好調整演算法設計。Ai2 對幾種偏好調整演算法進行了實驗,觀察到使用長度歸一化( length-normalized)直接偏好最佳化的效能有所提高。他們在實驗中優先考慮了簡單性和效率,並在整個開發過程和最終模型訓練中使用了長度歸一化直接偏好最佳化演算法,而不是對基於 PPO 的方法進行成本更高的研究。
具有可驗證獎勵的特定技能強化學習。Ai2 採用了一種新方法,利用標準強化學習正規化,針對可以對照真實結果(如數學)進行評估的技能進行強化學習。他們將這種演算法稱為「可驗證獎勵強化學習」(RLVR)。結果表明,RLVR 可以提高模型在 GSM8K、MATH 和 IFEval 上的效能。
用於強化學習的訓練基礎設施。Ai2 實現了一種非同步式強化學習設定:透過 vLLM 高效地執行 LLM 推理,而學習器還會同時執行梯度更新。並且 Ai2 還表示他們的強化學習程式碼庫的擴充套件效能非常好,可用於訓練 70B RLVR 策略模型。