AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
團隊介紹:本專案的核心開發團隊主要由上海交通大學GAIR研究組,研究團隊早在一個多月前釋出o1復現進展報告。
詳細作者介紹見:https://github.com/GAIR-NLP/O1-Journey#about-the-team
自從 OpenAI 釋出展現出前所未有複雜推理能力的 o1 系列模型以來,全球掀起了一場 AI 能力 “復現” 競賽。近日,上海交通大學 GAIR 研究團隊在 o1 模型復現過程中取得新的突破,透過簡單的知識蒸餾方法,團隊成功使基礎模型在數學推理能力上超越 o1-preview。團隊在本工作中特意聚焦於業內廣泛使用卻往往未被公開披露的蒸餾技術,想在 “揭秘” 蒸餾技術背後所能達到的收益的同時,又對 AI 研究界進行一次倡議,呼籲優先考慮透明創新的方法,而不是一味追求短期效能提升和 AI 技術研發 "捷徑"。研究團隊堅信,培養能夠從第一性原理思考而不是簡單套用現有解決方案的下一代 AI 研究者至關重要。團隊選擇 Qwen2.5-Math-72B 作為基礎模型,經過精心設計的資料篩選和處理流程,僅使用數萬個從 o1 蒸餾的長思考鏈樣本進行訓練。在美國高中數學邀請賽 (AIME) 等權威測試中,模型表現優於 o1-preview。研究表明,透過標準的監督微調方法,模型不僅掌握了複雜的數學推理能力,還展現出強大的泛化性。令人驚喜的是,這個主要針對數學推理訓練的模型在其他領域也表現出色:- 安全性評估中,在 Flames 測試集上的得分從 91% 提升至 92.5%
- 在應對誤導性問題時的抵抗力顯著增強,抗 "奉承" 能力從 89.70% 提升到 92.65%
- 在通用場景評估中,Auto-J 和 LIMA 測試集的得分分別提升了 6.4 和 10 個百分點
- 技術文件:https://github.com/GAIR-NLP/O1-Journey/blob/main/resource/report-part2.pdf
- 相關資源將近日公開:https://github.com/GAIR-NLP/O1-Journey
"這個突破背後隱藏著重要警示。" 專案負責人表示,知識蒸餾雖然提供了快速提升模型效能的捷徑,但也帶來了三個層面的隱憂:1. 技術層面:模型效能受限於教師模型,難以實現真正的突破創新2. 研究方向:過度依賴蒸餾可能導致核心技術研發投入不足3. 人才培養:簡單的模型複製和最佳化可能削弱研究人員的基礎創新能力 為推動行業良性發展,團隊創新性地提出了技術透明度指數 (TTI) 框架。該框架從資料、方法、評估和開源資源四個維度,對 AI 模型複製工作進行全面評估。研究發現,目前業界多個 o1 復現專案的透明度普遍不足,最高分僅為 33 分。研究團隊建議,AI 領域應當:"構建智慧 AI 系統固然重要,但培養具有第一性原理思維的人才才是我們的終極使命。" 這句話道出了 AI 發展的深層智慧 —— 技術進步離不開深入的思考和創新。這項研究不僅展示了 AI 技術的最新進展,更為整個行業的發展方向提供了重要啟示。在追求技術突破的同時,如何保持創新活力、培養高質量人才,將是決定 AI 未來的關鍵因素。(1)詳細解析了蒸餾 OpenAI o1 系列模型的技術路線,並對其有效性進行了全面的評估。研究團隊發現,在一個不錯的基礎數學模型上僅僅透過幾萬條 o1-mini 的蒸餾樣本進行微調,就可以在美國高難度的數學競賽 AIME 上超越 o1-preview 的水平,並且整個過程所需要的技術複雜度極低。(2)除了數學推理這個場景外,我們還探索了 o1 蒸餾模型在其他不同視角(如幻覺、安全性)下的表現,這些跨域實驗不僅揭示了知識蒸餾技術的優勢,也展現了其固有侷限性,並發現了一些意想不到的跨域表現模式。(3)建立了一個全面的基準框架,在多個不同的角度(如資料透明性、方法技術透明性、評估透明性以及資源的開源程度)評估和分類 o1 的各種復現嘗試工作的技術透明度與開放性,併為此設立了一套排行版機制。(4)最後,此研究報告還進行了非常深刻的討論,最終得出儘管追求更強大的 AI 很重要,但培養具有第一性原理思維的研究人員往往更加重要。這一教育使命不僅僅是一個技術層面的考慮,更是一項將塑造 AI 創新未來的根本性人文使命。 o1-Journey (Part1) 中探索的技術路線。研究團隊早在一個多月前的 o1-Journey (Part1) 中已經提出了一種結合樹搜尋構建長思維鏈資料的方式,並取得了一定的初步效果。在整個技術路線中,最為關鍵的一個環節是如何構建長思維鏈資料,這種長思維資料需要體現 “深度” 的思考,包含反思、糾錯和回溯步驟。雖然樹搜尋是最有效的方法之一,但它可能會耗費大量計算資源和時間。除了樹搜尋之外,合成長推理鏈的其他替代方法如下圖所示。這些方法在計算效率和推理完整性之間提供了不同的權衡。人類解決問題很少遵循一條通向成功或失敗的線性路徑。相反,人們在遇到障礙時會經常停下來反思、回溯並修改他們的方法。這個自然過程反映了長思維的特徵。透過詳細記錄人類如何解決問題,我們可以生成真實的長思維訓練資料。但是這種方式需要依賴大量極高質量的人工標註,並且隨著問題難度的升級,標註的難度也會大幅上升。與策略模型不直接對反饋作出反應的歷程學習 (Journey Learning) 不同,我們可以讓多個智慧體參與探索過程,指導它們扮演不同的角色。例如,我們可以構建一個多智慧體辯論系統,其中策略模型生成持續的推理,而評判模型則評估是繼續還是回溯。當找到解決方案時,這種互動過程自然會產生長思維訓練資料。像 o1 系列這樣強大的模型展示出強大的反思和自我糾正能力。使用更強大的模型來指導較弱模型的常見做法,是一種簡單,不需要設計複雜技術路線的方法。然而,由於 o1 限制了對其內部思維過程的訪問,因此需要謹慎的提示詞設計。團隊選用了 Qwen-2.5-Math-72B 作為基座模型,在實際進行蒸餾之前,研究團隊首先在這個模型上面進行了 “格式化對齊”(Reformatted Alignment)。團隊從開源資料集 NuminaMath-CoT 上選取了一部分奧林匹克級別的問題作為起點,並應用了一個過濾流程來最佳化資料集:設計規則移除了依賴影像的問題、缺乏明確標註答案的問題以及所有證明題,僅保留答案型別為數值的問題。為了進一步增強資料集,利用 GPT-4o-mini 重寫原始解答。重寫過程遵循特定的標準,確保解答的步驟是細粒度的、高度詳細的,並且篇幅更長。這一步驟還規範化了輸出格式,要求使用 \boxed {} 明確表示最終答案,以符合長思維格式。- 蒸餾:透過使用 OpenAI o1 進行長思維鏈的合成。
與使用 Pass@k、Maj@k 或 RM@k 等傳統評估指標不同,我們引入了一個新指標,旨在評估模型在不同計算代價場景下的表現。這種新方法反映了 “推理時擴充套件”(inference-time scaling) 的真實情況,在衡量大模型的有效性和效率方面發揮著關鍵作用。在 “推理時擴充套件” 時代,像 OpenAI 的 o1 系列這樣的模型已經證明,效能不僅取決於訓練時的計算量,還顯著受到推理過程中 "思考" 時間的影響。這種轉變需要一個更細緻的評估指標,以考慮計算成本和效能之間的權衡。團隊提出的指標透過測量模型在特定的 benchmark 上,在一定的平均輸出 Token 下,獲得的準確率,反映這種 “推理時擴充套件” 的模式。此外,這個指標本質上是可擴充套件的。在評估選取的平均 Token 比單次模型輸出 Token 數更高的場景中,採用 Maj@k 指標來近似模型的效能。注意,整個過程無需使用任何額外的獎勵模型。透過採用這種方法,我們確保了一個可擴充套件且公平的評估框架,能夠捕捉模型在不同推理時間計算設定下的表現。這種方法避免了人為約束,並允許進行有意義的比較,而無需依賴外部獎勵訊號,僅專注於模型的內在推理能力。 使用蒸餾資料 SFT 後的模型在 AIME2024 和 MATH500 兩個 benchmark 上與 o1 系列模型在一定“推理代價”的表現比較。結果表現,在相似的 “推理計算代價”(即在對應 benchmark 的平均輸出 token 類似的情形下),採用蒸餾技術得到的模型具有出色的表現,在 AIME2024 上超過了 o1-preview 的表現。除了在推理場景下,對蒸餾技術得到的模型進行效能的探究之外,團隊還涉足許多其他角度的問題,例如安全、幻覺,以及在更加通用場景任務上的表現。為了研究模型在不同領域的泛化能力,我們首先構建了一個多樣化的雙語資料集。從我們的蒸餾 o1 模型輸出中,我們精心選擇了大約 5,000 個包含回溯思維和自我反思的高質量樣本。這些樣本隨後使用 GPT-4o mini 模型翻譯成中文,形成了一個數量均衡的雙語資料集。最終的訓練資料集包含 10,750 對中英混合樣本對。然後,我們使用這個精選資料集對 Qwen2.5-72B-Instruct 模型進行監督微調(SFT),從而獲得我們的最終模型。基於 Qwen2.5-72B-Instruct,經過 o1-mini distill 的資料 SFT 前後,模型在安全性、幻覺(事實準確性)、以及一些通用場景任務下的表現效能對比。為了全面評估模型安全性方面的泛化能力,團隊構建了一個由 600 個問題組成的多樣化測試集,這些問題是從三個已建立的安全評估資料集中精心選擇的:Flames、DiaSafety 和 WildSafety。具體來說,我們從每個資料集中提取 200 個問題,以確保在不同安全場景中的平衡代表性。我們使用 Safety-J 來評估原始模型和微調模型的響應。評估結果揭示了模型在安全性影響上的有趣現象:雖然在 Flames 上的表現略有提升(從 91% 提高到 92.5%),在 DiaSafety 上保持穩定(100%),但在 WildSafety 上出現了明顯的下降(從 92% 降至 86.5%)。這種安全性指標的輕微下降凸顯了一個關鍵發現:即使使用以回顧和反思為重點的高質量 o1 類訓練資料,如果訓練資料缺乏明確的安全性對齊,模型的安全性表現也可能出現退化。團隊還評估了模型在利用 o1 蒸餾的資料 SFT 前後的事實準確性。團隊使用了來自 SimpleQA、ChineseSimpleQA 和 ChineseFactEval 的資料集。這些資料集包含中文和英文的基於知識的問題,用於驗證模型的事實準確性。ChineseFactEval 資料集包含兩個子集:通用問答和奉承性問答。奉承性問答子集在提示中包含誤導性答案,以測試模型的奉承傾向,而通用問答子集則採用類似 SimpleQA 的格式。這些資料集中的所有問題都需要可驗證的簡短答案。我們使用 GPT-4o 評估模型響應與標準答案的匹配程度,以獲得更穩健的答案匹配結果。結果表明,經過 o1 蒸餾得到的資料 SFT 後的模型在事實準確性方面沒有顯示出顯著改進。這主要是因為更長的推理鏈導致了額外的幻覺 —— 尤其是模型試圖假裝使用搜尋引擎並虛構搜尋結果的現象。然而,這些嘗試使用搜尋引擎的行為暗示了一個有前途的方向,我們認為為模型提供實際的網路訪問能力將顯著提高其事實準確性。此外,SFT 後模型增強的推理鏈提供了詳細的分析和自我反思能力,這可能有助於防止幻覺的產生。我們還發現,經過 SFT 後,模型對奉承的易感性略有降低。這種改進可以歸因於自我反思過程,在這個過程中,模型能夠辨別並深入思考提示中呈現的不合理假設,而不是不加質疑地接受它們。 例3:反思和深度思考緩解回答的幻覺為了評估我們模型在通用場景中的表現,我們從 Auto-J 和 LIMA 資料集中各抽取 50 個查詢,組成了一個包含 100 個查詢的測試集,並透過人工調整,特別聚焦於長期規劃任務,並請三位領域專家對模型的輸出質量進行 0-100 分的評估。評估結果顯示在經過 o1 蒸餾資料微調後,模型的表現有顯著改進。在 Auto-J 查詢上的得分從 81.6% 提升至 88%,在 LIMA 查詢上從 77.2% 提升至 87.2%。這種效能提升表明,我們的微調方法不僅改善了雙語對話能力,還增強了模型處理一般任務的能力,特別是在需要長期規劃和結構化思維的場景中。為了系統地評估和比較各種嘗試 o1 復現的工作,我們提出了基於透明度的評價體系,這是一個全面的框架,用於量化各個工作實現的透明度和可復現性。該框架旨在為研究界提供客觀指標,主要從透明度角度評估 o1 復現工作,這包括幾個相互關聯的方面:資料透明度,涵蓋下游進行搜尋或後訓練所用資料集的透明性;方法透明度,體現在所描述技術、流程和實驗設定是否清晰;以及評估透明度,考慮效能評估的可復現性和全面性。此外,該框架還評價了資源的開源程度,如程式碼、資料集和模型是否開源,以確保研究界能驗證和有效利用這些工作。這種全面的視角捕捉了復現工作中透明度的多面性。這一方面評估資料來源是否明確在技術報告中指明,包括所使用資料集及其各自來源的詳細描述。這個資料涉及下游任務(如監督微調 (SFT)、強化學習 (RL) 或搜尋演算法)中使用的所有資料集。資料的透明度,對後期後訓練、搜尋演算法、強化學習,以及最重要的長思維資料構建階段起到了非常重要的奠基作用。方法透明度確保對工作中採用的方法、技術和流程有足夠詳細的描述,以方便其他研究者的復現和驗證。本部分的評估由多個部分組成,從基礎模型的選取、介紹到訓練、搜尋、強化學習和資料合成方法。此外,除了詳細說明方法如何實施外,驗證方法本身的有效性更為重要。全面的評估應量化各個技術對整體系統效能的貢獻(例如設計消融實驗、對比實驗),而不是簡單地報告最終結果。評估透明度包括方法選用的 benchmark 測試集是否是領域公認的,並且全面公開的;此外,採用的評估指標是否權威,如果牽涉到自己定義的評估指標是否有詳細介紹其定義以及發明的動機。同時,在彙報的 baseline 中,很重要的一點是評估指標的對齊,即對不同的模型 / 方法是否是在公平、一致的實驗環境下進行評測的。開源資源在促進可重複性和使研究社群能夠建立在現有工作之上發揮著重要作用。這一部分評估資料集、模型、程式碼和文件的可用性和可訪問性,這些對於獨立驗證和進一步實驗至關重要。針對以上提到的科研工作透明性的評價角度,研究團隊精心設計了一套評分機制,這套機制裡涵蓋了 25 個是 / 否問題,並結合每個問題的重要性賦予不同的分值,最後得到了一套總分為 100 分的評價體系。 對 o1 各種復現工作的評價體系,包含了 25 個 Yes/No 問題,總分為 100 分。利用上述的評價體系,團隊對市面上現存的 o1 復現工作進行了全面的評估。涉及的工作包括:Open o1、o1-Journey (Part1)、LLaMA-o1、K0Math、Skywork o1、DeepSeek-R1-Lite、o1-Journey (Part2,即本工作),評估的結果如下表所示: 各種 o1 復現工作的透明度得分 (截至 2024.11.22 日的統計)。從評估結果可以看出,無論是工作在各個維度的透明開放程度,還是在資源的開源方面,團隊系列的 o1-Journey 工作都佔據了非常大的優勢,即有非常大的透明性、開放性層面,從而利於研究社群的進一步利用和探索。從 o1 進行知識蒸餾的顯著成功,為在數學推理任務中獲得令人印象深刻的效能提升提供了一條 “誘人” 的捷徑。雖然這種方法提供了即時且切實的效益,但它掩蓋了一系列深層挑戰,這些挑戰威脅著 AI 技術及其研究社群的長期發展。在本節中,團隊將探討優先選擇容易獲勝而非基礎創新付出的真實代價,揭示出遠超純技術層面的影響。- 表面吸引力:乍一看,蒸餾似乎是一種優雅的解決方案:透過直接學習 o1 的複雜推理模式,模型可以透過相對簡單的實現方式快速獲得顯著的效能提升。這種易用性使其得到了廣泛應用,尤其是在那些希望迅速展示接近 o1 能力的組織中。然而,這種便利背後隱藏的代價可能並不明顯,但從長遠來看,對整個領域的發展可能是毀滅性的。
- 效能瓶頸:最直接的技術問題或許在於蒸餾方法的內在侷限性。透過蒸餾訓練的模型,其能力不可避免地受到教師模型(在本例中為 o1-mini 模型)水平的限制。這種限制形成了隱性的 “天花板效應”,即使蒸餾過程再精妙,也無法真正超越原始模型的能力。尤其是在需要擴充套件到新領域或應對前所未見的挑戰時,這一侷限性變得尤為突出。
- 創新缺失:更為根本的問題在於,蒸餾方法的廣泛應用使我們錯失了核心技術創新的關鍵機會。o1 的真正突破不僅在於解決複雜問題的能力,還在於其推理時間擴充套件和搜尋最佳化的精妙機制。然而,透過規避開發這些基礎能力的挑戰,我們可能正在加劇技術差距 —— 即掌握核心技術的組織與主要依賴蒸餾的組織之間的鴻溝。隨著領域的不斷髮展,這種技術基礎設施差距可能變得愈發難以彌合。
- 研究風氣的轉變:對科學研究風氣的影響同樣令人擔憂。透過蒸餾獲得 “輕鬆取勝” 的便利性,正在使研究重點逐漸遠離基礎性挑戰。這一趨勢表現為對高階計算基礎設施投資的減少,以及對複雜搜尋和推理演算法開發的重視程度降低。這種由此產生的自我強化迴圈 —— 缺乏基礎設施限制了研究可能性,從而進一步鼓勵依賴蒸餾方法 —— 有可能形成一個創新瓶頸,阻礙未來的重大突破。
- 基礎能力的削弱:最令人警惕的,是蒸餾方法對領域內教育發展的影響。蒸餾方法的廣泛採用對未來 AI 研究者的培養構成了顯著威脅。當學生和職業初期的研究者主要接觸 “捷徑” 式的解決方案時,他們錯失了發展深度問題解決能力的關鍵機會。從第一性原理出發解決複雜技術挑戰的能力 —— 科學創新的基石 —— 可能會隨著快捷方案成為常態而逐漸被削弱。我們正目睹下一代 AI 研究者在問題解決方式上的轉變:他們不再透過解決基礎性挑戰獲得深刻理解,而更多地接受最佳化和提示工程的訓練。這種從 “如何運作” 到 “什麼有效” 的轉變,標誌著研究心態的根本變化,可能對領域未來的創新能力產生深遠影響。
- 第一性原理的衰退:第一性原理思維的削弱尤為令人擔憂,因為它動搖了科學創新的根基。從零開始開發搜尋演算法、最佳化推理時間以及構建推理機制的過程,提供了蒸餾方法無法替代的寶貴學習經驗。這些挑戰迫使研究者深入理解模型的行為與侷限性,形成系統性問題解決策略,並培養對演算法設計與最佳化的直覺。如果缺少這些經歷,我們可能會培養出一代更傾向於套用現有方案,而非基於第一性原理開發新方案的研究者。這種趨勢將對領域的長遠發展產生深遠的不利影響。
- 學術影響:這種教育影響不僅限於個人技能的培養,對學術研究環境的衝擊尤為顯著。學術界歷來是孕育基礎性創新的搖籃,但其對這種趨勢的脆弱性不容忽視。對快速產出的壓力可能掩蓋深入技術探索的價值,同時令學生對追求更具挑戰性和基礎性的研究方向望而卻步。當研究重點更多放在效能指標而非深層理解上時,可能導致培養出一代擅長最佳化卻缺乏創新能力的研究者。這種轉變對學術界的長遠發展無疑是一個巨大的隱患。
- 不斷擴大的鴻溝:展望未來,這些因素的累積效應描繪出一個令人擔憂的前景。那些掌握了基礎搜尋和推理技術的組織,與主要依賴蒸餾方法的組織之間的技術能力差距可能會變得愈發難以彌合。這一鴻溝可能導致研究生態系統的失衡:真正的突破將成為少數資源充足的組織的專屬領域,而更廣泛的研究群體則被困在依靠蒸餾實現漸進式改進的迴圈中。這種局面不僅限制了整體技術的多樣性,也將顯著影響領域的創新能力和公平發展。
首先,各個研究組織應保持良性、平衡的研究,既包括基於蒸餾的方法,也包括對搜尋與推理最佳化的基礎研究。其次,儘管蒸餾解決方案的短期效果顯著,對高階計算基礎設施的持續投入依然不可或缺。最後,研究計劃應優先培養搜尋演算法和推理最佳化的核心能力,同時兼顧效能提升。在教育層面,我們需要重新設計培養未來研究者的方法。這包括開發兼顧實踐應用與基礎理論的平衡課程、構建既促進深刻理解又兼顧效能最佳化的研究專案,並營造一種重視長期創新而非快速收益的研究文化。深刻的教訓在於,蒸餾本身並非問題,它是我們技術工具箱中的重要組成部分。真正的風險在於,它的便利性可能讓我們偏離基礎創新這一更困難但回報更高的道路。在未來的發展中,保持即時收益與長期發展的平衡,將是確保 AI 能力持續提升以及培養領域未來創新者的關鍵。構建智慧 AI 固然重要,但培養具備第一性原理思維的人才才是我們的終極使命 —— 畢竟,他們才是 AI 未來的真正設計者。