兩萬字長文深度解密DeepSeek-R1、Kimi 1.5,強推理模型憑什麼火出圈?
机器之心發表於2025-02-21
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
剛剛過去的春節,DeepSeek-R1 推理大模型引爆了國內外 AI 社群,併火出了圈。最近,各個行業又掀起了接入 DeepSeek 的狂潮,大家唯恐落後於人。北大 AI 對齊團隊對包括 DeepSeek-R1、Kimi-K1.5在內的一些強推理模型進行了 2 萬字的技術解讀,也是此前 o1 解讀(北大對齊團隊獨家解讀:OpenAI o1開啟「後訓練」時代強化學習新正規化)的續作。
下圖是我們這次討論的一個目錄,涵蓋了包括 DeepSeek-R1、Kimi K1.5 的具體的技術分析和講解。同時也包括對其背後的社會和經濟效益以及一些 insights 和 takeaways 的分析。具體地來說,我們會進行相應的技術細節的討論:比如說基於 STaR 的方法和基於強化學習的方法進行強推理模型復現的區分和產生的效果的不同。這裡面就包括了 DeepSeek-R1、Kimi K1.5 和 o 系列的模型。我們也會分析蒸餾和強化學習驅動下不同的強推理路徑復現的區別,同時也會探討 PRM 和 MCTS,也就是蒙特卡洛樹搜尋在整個強推理模型構建過程中的作用。其次我們也會探討一些從文字模態到多模態的實踐。最後我們會對未來的方向進行一個分析和探討,包括模態穿透、探索合成資料以及強推理下的安全。我們也會補充擴充 DeepSeek-v3 的解讀。DeepSeek-R1 開創 RL 加持下強推理慢思考正規化新邊界近期後訓練階段開始成為語言模型中在完整訓練過程中非常關鍵的一環,包括提升推理能力和社會價值對齊方面起到了非常重要的作用。自從 OpenAI o1 開啟後訓練強化學習新正規化後,社群研究 Inference Time Scaling 透過增強 CoT 的長度提升推理能力的熱情也是在逐漸增高。其中一個關鍵的問題就是如何透過有效的測試階段的時間的擴充套件來提升它的推理能力。近期 DeepSeek R1 的開源,也是再次讓我們看到了強化學習的潛力。得益於純大規模強化學習 DeepSeek-R1 Zero 和 DeepSeek-R1 的出現其實大大提升了推理能力和長文字的思考能力,其中 R1 Zero 是完全從基礎模型開始構建,完全依賴強化學習,而不使用人類專家標註的監督微調。在訓練過程中隨著訓練步驟的增加,模型也是逐漸展現出長文字推理以及長鏈修復的能力。隨著推理路徑的逐步增長,模型來表現出自我反思的能力,能夠發現並修復之前的錯誤。得益於強大的推理能力和長文字思考能力,DeepSeek R1 在開源以來就備受關注,其中它在著名的數學程式碼任務榜單上也是獲得了非常突出的表現。比如在 AIME2024 上取得了 79.8% 的成績,也是超過了 OpenAI o1。其中也在編碼的任務上表現出了專家水平。與此同時,DeepSeek R1 在知識類問答的任務上推動了科學探索的邊界,在無論 MMLU 還是 GPQA 等一些基於科學問答和理工類的榜單上都是取得了比較好的表現。更令人驚豔的是 R1 在一些長文字依賴的任務上比如 FRAMEs 和一些事實性推斷任務上也是表現突出,其實也展現出來了強推理模型在 AI 驅動的一些 research 的潛力。那麼我們首先回顧一下預訓練階段的擴充套件律。其實也就是在預訓練模型上,計算量資料和引數量成一個類似於正比的關係,也就是算力等於 6 倍的引數量乘上資料量。因此在大模型時代發展的初期,囤卡提升預訓練的算力和模型引數變成了主要目標。隨著 OpenAI o1 的釋出,也證明了在強化學習加持下後訓練時代一個新的擴充套件律:隨著模型在後訓練階段的訓練時計算量和測試時計算量的提升,模型的效能特別是數學程式碼能力也會隨之提升。那麼在後訓練擴充套件律下語言模型的訓練時計算量多了一個新的變數,也就是在探索時語言模型推理產生的計算量。為什麼我們需要後訓練擴充套件律?其實早在 2022 年就有啟發的認知,主要是出於兩個原因:第一個是隨著模型尺寸的逐漸增大,預訓練階段引數的擴充套件帶來的邊際收益開始逐步遞減,如果想要深度提升模型的推理能力和長程問題的能力,基於強化學習的後訓練將會成為下一個突破點;第二個也就是自迴歸模型在傳統的像數學推理問題上很難進步,其中的關鍵一點就是沒有辦法進行回答的自主修正,那如果僅是依靠生成的方法和擴大引數的規模在數學和推理任務上帶來的收益不會很大。所以我們迫切地需要額外的 Scaling Law 也是額外的擴充套件律。DeepSeek-R1 Zero 及 R1 技術剖析業界其實近期有很多復現 o1 的操作,例如基於蒸餾或者強化學習的方法或者是從 MCTS 也就是蒙特卡洛樹搜尋和獎勵模型的設計角度出發。透過搜尋的方式顯式的去幫助語言模型進行推理階段計算量的提升,也有很多不錯的嘗試。但是大多數都是在特定任務上,例如數學或者程式碼的提升。DeepSeek R1 Zero 的釋出也是讓我們看到了強化學習的潛力,特別是它跳過了經典後訓練階段中的監督微調,直接運用大規模強化學習就實現了推理能力的大幅提升,在數學程式碼等問題上顯著飛躍。並且在強化學習訓練過程中自然湧現長文字推理能力,這其中的關鍵操作核心在於一個是基於規則的獎勵 Rule-based Reward 和以推理為中心的大規模強化學習。接下來我們也進行逐步的拆解。在 DeepSeek R1 Zero 的獎勵建模中採用了基於規則的獎勵,也就是基於一定的規則可以直接利用程式進行判斷正誤的獎勵訊號。具體來說 DeepSeek R1 Zero 設計了兩種獎勵:一種是準確率獎勵,即對於推理任務是否根據最後答案的正確率直接來判斷這個任務是否成功完成;第二種是格式獎勵也就是顯式的去規勸模型的輸出過程中必須包含思考的過程,利用一個 thinking token 將思考的過程圈起來。需要注意的是這部分獎勵建模並沒有採用先前我們經常討論的比如說過程獎勵模型 PRM 甚至沒有采用獎勵模型。這裡邊的主要考量是基於神經網路的獎勵模型都有可能遭受獎勵攻陷的問題,一旦發生獎勵攻陷模型就可能陷入區域性最優解,而重新訓練獎勵模型需要大量的計算資源可能會複雜化整個流程。而第二個在強化學習的訓練模板選擇上,DeepSeek R1 Zero 採用了最簡單的思考過程,而沒有去在 system prompt 中加入過多的去誘導模型產生特定的思考正規化,比如說去產生反思等正規化。這一期望是可以希望能夠直接觀察到在 RL 過程中最本質的表現。DeepSeek R1 Zero 更為關鍵的是以推理為中心的大規模強化學習。具體來說在傳統的 RLHF 演算法上 DeepSeek 進行了一些演算法的細節最佳化,採用了像組相對策略最佳化也是 GRPO,這部分我們也會後續講解技術細節。同時它只瞄準了推理方面的專項任務。透過大規模的強化學習模型已經呈現出了自我迭代提升的趨勢,也就是隨著訓練步數的增加模型的思考長度會逐漸增長,這也對應著模型在測試階段的計算量的增長,也就是推理時長的提升。與此同時模型也在中途訓練過程中湧現了 'Aha' moment,學會用 wait 等停頓詞,自然的去增加更多的推理時間,並且反思和評價先前的步驟並主動去探索其他的方法路徑。DeepSeek 的成功也為我們帶來了一些關鍵的啟示:例如在傳統的大語言模型訓練中監督微調通常被認為是不可或缺的一環,其邏輯是先用大量人工標註的資料來讓模型初步掌握某種能力或回答正規化,再利用強化學習進一步最佳化模型的效能。然而 DeepSeek 卻打破了這一傳統,他們選擇直接將 RL 應用於基礎模型,而沒有經過任何形式的 SFT 訓練。這種純強化學習的方法之所以如此引人注目,是很大程度上因為它拋棄了對於大規模人工標註資料的依賴。眾所周知 SFT 是非常需要消耗大量的人力物力來構建和維護高質量的訓練資料集,而 DeepSeek 的團隊這種做法可以直接讓模型在強化學習的環境中進行自我探索,透過與環境的互動,自主的去發現和學習解決複雜問題的能力,就好比一個初學者在沒有老師的指導下透過不斷的嘗試和錯誤,來掌握一門新的技能。這種自主學習的方式,不僅節省了大量的標註成本,更重要的是它能讓模型更加自由地探索解決問題的路徑,而不是被預先設定的模式所束縛,這也使得模型最終具備了更加強大的泛化能力和適應能力。而之所以能夠跳過監督微調階段直接運用純強化學習擴充推理能力的邊界,其實也得益於以下幾個關鍵之處。首先是要有足夠強的基座模型,DeepSeek R1 Zero 系列的模型是在 DeepSeek v3 的 671B 的基座模型上進行了訓練,它的基座模型是超過了某個質量和能力的閾值的,它在 14.8T 的高質量 Tokens 上進行訓練,其實基座模型在預訓練階段積累的海量知識,是可以幫助模型在強化學習加持後突破推理上界。這是因為在預訓練階段積累的知識和思維方式是相對更高階的,就像人類大師和新手都可以透過自博弈來提升自己的能力,但是由於人類大師的先驗見過的東西更多,所以潛力更大。近期也有一些利用小模型復現 'Aha'moment 的工作,這得益於高質量的推理資料和大規模的強化學習,但若是要進一步去提升推理能力的邊界,足夠強的基座模型是必不可少的。其次是大規模強化學習的加持,即透過 GRPO 對於訓練過程進行最佳化。最後是獎勵規則化獎勵,透過繞過獎勵攻陷模型,規則化獎勵能夠直接基於固定的規則進行獎勵判定,但規則化獎勵能夠成功的前提也很大程度上得益於關注的推理任務是可以進行自動化標註和驗證的,這是和一般的聊天與寫作任務相不同的。在這裡我們舉一個自動化標記和驗證的例子,例如對於一個推理問題,我們希望模型可以編寫一個 Python 程式碼,那麼自動化驗證的方法,就可以分為這麼幾步:第一步是利用軟體去檢查程式碼補全,比如說判斷它是否是完整的程式碼;第二步是執行 Python 程式碼,來檢查執行情況,檢視它是否是可執行的;第三是我們可以呼叫外部模組,來構建額外的檢測單元;第四甚至我們可以更進一步的,為了去約束模型進行有效的推理,我們可以測量程式的執行時間,從而使訓練過程首選效能更高的解決方案。而以上的獎勵訊號都是可以作為小批次訓練和連續訓練過程中的獎勵訊號的。這裡有個示意圖也就是根據不同的規則,進行形式化的驗證和判定,最後解的分數就會轉化成強化學習訓練過程中的獎勵訊號進行反傳。但是 DeepSeek-R1 Zero也有對應的問題,比如說長推理過程可讀性差,語言混合幫助性低。那麼我們能否在 zero 的基礎上,在兼顧推理效能的同時,提升模型的幫助性和安全性的。例如能不能產生一些比較清晰且直接的推理過程,並且能夠泛化到通用能力任務上的模型。例如 R1;以及我們能否利用一些高質量的反思資料去做冷啟動,從而加速強化學習的收斂或者幫助提升推理表現。那麼圍繞這兩個研究問題,應運而生了 DeepSeek R1 這個模型。總的來說 DeepSeek R1 的技術 pipeline 可以被總結為這麼一套正規化。首先第一基於 DeepSeek v3-base 產生了 DeepSeek R1 Zero 這個模型,第一階段是我們希望先增強 R1 zero 的推理鏈的可讀性,在這一階段我們會利用一些冷啟動的資料,這些資料裡邊可能是包含了人類專家和模型所撰寫的高質量的語言,符合語言格式的這樣一些反思資料。然後我們再以推理為中心的強化學習去進一步的去進行微調,從而獲得一個相對推理鏈可讀性更強的一箇中間模型;那麼更進一步我們採用傳統 RLHF 中的一些技術,比如說透過拒絕取樣和全領域的監督微調以及在全領域的任務上進行強化學習的訓練,比如對於推理任務我們可以使用規則獎勵,而對於一些通用比如說聊天任務我們進行偏好建模,從而來在第二階段去提升模型的通用能力和安全性,最終獲得了 DeepSeek R1 這樣一個模型。接下來我們進行具體的講解,首先是第一階段,我們如何去提升模型的推理鏈的可讀性,在這個環節我們分為兩個階段:第一個是冷啟動,第二是以推理為中心的強化學習。在冷啟動階段其實我們準備的資料是一些高質量的更長思維鏈的帶反思和驗證的資料集,這部分資料集它其實是由人類的註釋者和 R1 Zero 產生了一個高質量鏈式思考,它的成效其實是說引入一些人類的先驗,同時去提升它推理鏈的語義連貫性和可讀性,然後並且讓模型獲得一個最基本的能力。第二階段就是和 DeepSeek R1 Zero 構建的過程相一致的,用以推理為中心的強化學習透過增強大規模的訓練過程來進一步提升冷啟動後的模型的推理問題的的推理能力。與此同時,除了傳統的格式獎勵之外,在這裡還引入了語言一致性的獎勵。因為在 DeepSeek-R1 Zero 中我們觀察到了比如說思維鏈中可能會混合帶有不同語言的現象,透過引入透過計算思維鏈過程中目標語言的佔比作為一個語言一致性獎勵,從而可以衡量長推理鏈的可讀性。第二個獎勵訊號也就是推理正確率的獎勵,透過 GRPO 模型也是能夠在 AIME 這些數學基準上 Pass@1 的正確率就有一個非常大的飛躍的提升。與此同時,模型也能夠自發地去延長推理鏈條,展現出更強的邏輯連貫性,獲得了一個推理可推理鏈可讀性更強並且有基本推理能力的模型之後,我們在後續再採用傳統的 RLHF 中的像監督微調、拒絕取樣以及全領域的強化學習來幫助模型去獲得一個通用能力和安全性。在監督微調中和之前冷啟動的資料是不同,這部分的監督微調主要還是負責全領域的任務,它除了包括一些推理任務的資料之外,還有一些比如說像角色扮演通用任務。這個成效是在使模型在推理能力不減的前提下,語言表現更為自然,適應性更為廣泛。在經過全領域的 RL,其實可以進一步提升除了推理能力之外的幫助性和安全性。對於幫性安全性,其實我們就用傳統的獎勵模型來建模人類的偏好和意圖就可以了。最終版本的 R1,其實不僅是在推理和對話任務上達到了高水平,還更具備更安全的互動效能。在這一部分我們先總結一下 DeepSeek-R1 的一些技術亮點和 takeaways。首先社群對於強推理模型的復現都涉及一些蒸餾和搜尋,而 DeepSeek R1 Zero 它是跳過了監督微調階段。這得益於以下幾個點:第一是需要足夠強的基座模型來幫助它去突破一個質量和能力閾值的上限,第二是需要大規模強化學習的加持,第三是規則化獎勵,但規則化獎勵是得益於一些推理問題,它可以進行自動化的標記和驗證。透過強化學習在實驗過程中其實觀察到了訓練步數的增長模型的思考過程的長度是逐步增長的,這一增長其實也代表著在 test time 也就是測試任務階段的一個算力的提升。DeepSeek R1 Zero 也是自主湧現了一個學會評測原來的方法反思和主動探索,其他路徑的這樣一個能力。與此同時,多階段訓練下的冷啟動,其實也讓強化學習的訓練更加穩定,從而避免了強化學習初期不穩定,加速收斂並且提升思維鏈可讀性的這樣一個能力。那麼未來其實後訓練的中心,它會逐步傾向於用強化學習,但是少量的資料去用於監督微調還是必須的。與此同時強化學習的一個非常大的魅力就是說它不只侷限於基於規則的數學和演算法程式碼等容易提供獎勵的領域,它還可以創造性的把這個推理能力泛化到其他領域,甚至是從文字模態泛化到多模態。DeepSeek R1 Zero 和 DeepSeek R1 它其實背後有一些非常深的技術。我們在這裡進行逐步地剖析。首先第一個是它背後的教師模型 DeepSeek-v3 它其實能夠在 14.8T 的高質量 tokens 上進行訓練,其實類似於提供了一個 System I 一個足夠好的直覺也就是 prior distribution,其實方便後續的 RL 過程的進一步的探索和挖掘。與此同時 DeepSeek-v3 的低成本,其實也是帶來的驚豔效果也是讓社群非常震驚的,比如說基於 MoE 的架構,其實用 2048 張 H100 就可以 54 天就可以進行一場訓練。在 PPT 講解的最後,我們也是會對 DeepSeek-v3 的具體的架構創新點,還有它採用的一些技術上的最佳化,進行一個簡單的講解。第二個值得關注的也就是在 DeepSeek R1 中所揭示的 RL 加持下的一個長度泛化和推理方式的湧現,在大規模強化學習的加持下 DeepSeek R1 Zero 其實表現出在推理任務上思維鏈長度的自然增長和湧現。具體來說,隨著反思深度的逐層加深出現了它可以標記不明確的步驟,保持中間結論驗證和混合語言推理等現象。與此同時,雖然我們傳統說模型僅透過準確率獎勵和格式獎勵就是不足夠的,或者說它的獎勵訊號可能是不夠不充足的。但是在 R1 的實驗中發現,即使是透過這麼稀疏的獎勵訊號模型也是能夠自然探索到一個驗證、回溯總結和反思的行為方式的。這裡面背後就有一個問題,也就是如何控制來保證最後的回答的長度能夠穩定上升。那這其實是一個非常關鍵的問題,因為模型可能會出現反覆重複驗證或者驗證時間過晚的情況。最近社群也有一些復現的結果,包括我們自己團隊也在復現,其實我們發現除了 GRPO 以外,像 REINFORCE 系列的演算法以及 PPO 等,都是可以出現類似的結果的。REINFORCE 系列的演算法,它是更快更好的,PPO 它訓練相對更加穩定,但是會更慢一點。第二點就是我們湧現的推理正規化,它其實會展現出多語言混合的思維鏈。其實它背後的一個原因可能是在預訓練資料過程中它是多語言的,不同語言的資料它其實是被一視同仁的被 Tokenization ,那麼其實背後一個問題就是不同領域的不同語言編碼是否可能會有不同的優勢。比如說其實我們人類在進行講解和思考過程中,很有可能也是進行比如中英文混雜的思考的,那些模型內部是不是也有類似不同於人類思考正規化的這樣一種語言推理的能力,其實對於後續揭示一些推理鏈的可解釋性是非常重要的。在這裡我們具體講解 GRPO 是如何賦能強化學習的擴充套件的。GRPO 的核心思想是透過構建多個模型輸出的群組,也就是對於同一個問題去產生可能是 N 個回答,計算群組內的相對獎勵來估計基線相對獎勵。它主要去解決一個問題,就是在傳統的策略最佳化演算法比如 PPO 中通常是需要一個與策略模型大小相同的一個 Critic Model 來估算它的 value,那我們把 value model 去掉其實能夠提升它整個訓練的穩定性和降低算力的消耗。與此同時,其實我們 GRPO 還可以引入一些額外的最佳化策略,從而去提升訓練穩定性。我們進一步講解一下如何從 PPO 推導到 GRPO,其中 PPO 它作為 Actor-Critic 的演算法,也是被廣泛應用於後訓練,它核心目標也就是最佳化下面這個獎勵函式。為了避免模型的過度最佳化,我們通常會在每個詞源的後邊加上一個與 Reference Model 也就是參考模型的一個 KL 懲罰項。PPO 的獎勵函式通常是與策略模型規模相當的獨立模型,就是 Critic model,這會帶來非常大的一個記憶體和計算的增加。與此同時第二個問題就是獎勵模型,通常它要對輸出序列的最後一個詞源,去分配獎勵,導致它逐 Token 的價值函式的訓練是會不斷複雜化的。GRPO 其實如右下圖所示, GRPO 中是省略了 value model 的過程,比如說我們不用去估算我們可以直接利用一個組利用多個 output 去計算 reward,然後利用這個 reward 在組內進行一個相對值的估計來獲得一組優勢值,我們相應的最佳化的策略就變成了對於整個優勢值,包括原來 PPO 的目標函式改變過來直接進行最佳化。包括 KL 散度的懲罰項,它不會直接加到獎勵裡邊,而是直接加到策略函式最佳化的目標函式里邊,這也是簡化了整個 At 的過程的計算。它和獎勵模型的對比性質其實是天然契合的,因為獎勵模型本身也是基於同一個問題的輸出進行一個 preference 的比較訓練;GRPO 是在計算組內優勢值的時候進行一個相對值的計算,其實它能夠提升組內好回答的比例,降低組內壞回答的比例,其實天然是具有相對優勢的。GRPO 它其實分為兩種:第一個是基於結果的,第二是基於過程的。對於基於結果的形式,對於每個問題可以採用一系列的輸出獎勵模型去為這一系列的輸出去生成獎勵,那麼隨後去透過進行一個 normalization,也就是進行歸一化,然後把歸一化後的獎勵去分配給每個輸出的末尾的 token,然後去設為對應的 reward 就可以了。其實它的表示式就是這樣的,相當於傳統的優勢值計算是非常簡化的。進一步其實也可以把 GRPO 擴充套件到基於過程的監督下,因為是結果監督,它是僅提供輸出末尾的獎勵,對於複雜數學任務的策略指導是不足的。進一步我們可以對於一個問題去取樣多個輸出,我們利用過程獎勵模型去為每個步驟去生成獎勵,比如生成一系列的獎勵的訊號規一化之後,優勢值為最後獎勵訊號一個逐步的累加和,其實它作為一個過程監督的演算法也是非常方便的。這是對 DeepSeek-R1 的 Takeaways 的第二部分總結,R1-Zero 它其實節省了大量的標註成本,那麼使模型獲得了更加自由探索解決問題的路徑,它不會被預先設定的模式所束縛。為了充分的去釋放強化學習的潛力,同時去解決像 R1-Zero 中出現的語言混雜以及訓練不穩定等等特性,DeepSeek R1 的訓練中採用了四階段交替訓練的過程,那是從監督微調到強化學習再到再次的監督微調以及強化學習,從而透過冷啟動來解決了一些收斂效率的問題。DeepSeek R1 也是自主湧現了像自驗證,反思和長鏈推理能力,比如自驗證它會一個模型在生成最終答案之前會主動的驗證自己的中間推理步驟是不是正確的,就像是一個學生在做題的過程中會反覆檢查自己的解題過程來確保答案的準確性;反思是指模型會回溯檢查自己之前的推理過程並根據檢查的結果進行修正,相當於一個學生在複習的時候會反思自己之前的錯誤,以便下次不再犯同樣的錯誤;而長鏈推理能力則是讓模型能夠處理複雜,更需要多步驟思考的問題,這種能力對於解決一些需要跨越多個邏輯步驟,才能找到答案的問題至關重要,也有複雜的數學題或者邏輯謎題。冷啟動也能夠讓強化學習的訓練更加穩定,比如加強它的收斂性,以及提高模型輸出的可讀性。我們展現出了幾個比較關鍵的技術,比如說推理為中心的強化學習訓練,其中就是語言一致性獎勵以及多目標最佳化。還有 GRPO 也就是基於群組的相對策略最佳化,這樣一個非常關鍵的技術。在獎勵機制的設計上其實也是比較重要的,因為既要兼顧一個推理能力,也就是透過準確率獎勵和格式獎勵來去進行限制,那也要引入一個語言一致性獎勵,從而懲罰在推理過程中使用多種語言輸出的這麼一個現象,從而去鼓勵模型儘可能去使用一種目標語言進行推理來保證模型輸出的語言風格的一致性。DeepSeek R1 其實也帶來了很強的社會和經濟效益,背後其實是一個低成本和高質量語言模型邊界的探索,我們其實整個大語言模型發展過程,它的擴充套件律最初是模型的規模、然後是資料集的規模,現在是推理時的計算資源和合成資料。這就意味著 DeepSeek R1 其實能夠更方便地整合到,像 AI2Science 也就是計算科學以及一些大規模的 API 應用中。透過垂直領域和橫向的擴充,比如說引入 RAG 的技術等等,這其實都是非常方便的。當然也帶來一些經濟效益,比如說資本市場的劇烈波動,包括像研發的投入和資料的資料中心的建設成本激增,其實背後也是算力軍備競賽的一個迴圈,其實隨著模型使用方案的平民化,資源也是能夠得到有效的最佳化,從而能夠在有限的算力資源支援下,突破演算法的創新然後突破算力的限制。與 DeepSeek-R1 同系列出現的,其實還有 Kimi k1.5。我們也是先對 Kimi k1.5 的技術進行一個簡單的講解,然後去對比和分析這兩個模型它採用的技術背後是不是有什麼可取之處,以及和我們推測和社群的一些其他復現結果的一個對比。Kimi K1.5 其實和 Kimi 系列的模型其實是一樣,它是都是想要用長文字來解決一些問題,比如說 Kimi K1.5 其實專注於利用長文字的 CoT 輸出來解決推理時的擴充套件問題,它的核心也就是透過強化學習來讓模型去試錯來學習解決問題的能力,它透過將強化學習的最佳化方式進行一個修改來應用於長文字推理鏈生成的過程,從而啟發模型進行更深入更復雜的推理。其實和 GRPO 的採用有很大的不同,他們採用的技術其實是一個 REINFORCE 系列的一個演算法的變形,其實 Kimi 一直關注的也就是長文字能力的擴充,核心的 insights 也就是長文字能力是強化學習訓練語言模型的關鍵,而不是需要一些更復雜的訓練技巧。其中他們還有一個更 interesting 的地方是長文字到短文字的一個擴充,透過長文字的思維鏈模型來指導短文字模型的訓練,從而能夠在有限的計算資源下去獲得更好的效能。我們可以看到它在一些數學推理程式碼推理的任務,包括視覺推理的任務上其實都超過一些開源的模型和 OpenAI 的系列模型。具體來說, Kimi k1.5 的過程是分為 4 階段:第一是預訓練階段,然後進行了監督微調,進一步為了擴充套件它的長文字思維鏈推理能力進行了 long cot 的監督微調,進而進行了強化學習的訓練。這裡邊也採用了一些相應的一些 recipes 一些技巧,其實也是在這裡可以一塊分享給大家。首先是對於 RL 問題的準備,我覺得這其實也是社群復現的一些共用的技巧,比如說希望 RL 的 Prompt 能夠涵蓋足夠多的範圍,比如說包括程式碼 Coding/通用任務以及一些理工科問題的資料。同時 RL 訓練也要去 balance 不同的難度,從而達到一個從易到難課程學習的效果。與此同時這些 RL prompt 的像資料程式碼問題,它最好是能夠被一些 Verifiers 準確的評價,這可以防止防止泛化出一些獎勵攻陷以及一些 Superficial Patterns,就是一些浮於表面的一些表徵的這樣一個行為。進一步在 Long CoT 監督微調過程中,他們是構造了這麼一個 warm up 的資料,其中包括一些比較準確的推理路徑去 for 圖文的輸入,那也是涵蓋了一些 planning,評價反思以及探索的方式,然後從而讓模型或在 RL 訓練過程前就獲得這樣一個比較好的啟動的方式。 其實更有趣的是說,Kimi k1.5 是從一個 In-Context RL 的角度出發,也就是我們傳統在 MCTS 過程中和包括一些搜尋過程都是一個可以被視為一個 planning,也就是規劃的過程。我們與其透過規劃來使得模型顯式的去擴充套件計算量,為什麼不能用模型去模擬 planning 過程,比如說其實在整個搜尋的過程中,我們可以將每個 state 比如每個狀態和對應狀態的價值,都視為一個 language token。從這樣的角度出發我們其實就可以把它建模成一個 contextual bandit 的問題,然後從而利用 reinforce 的變種進行最佳化。與此同時我們與此同時,其實 Kimi-K1.5 還需要引入一個長度懲罰的機制,從而防止模型它去生成過長的推理過程來提高它的計算效率。其實模型也會出現這樣一種 overthinking 也就是過度思考的行為。Overthinking 的過度思考的行為其實可能會導致一個更好的表現,但是會帶來訓練和推理過程中更大的算力的損耗。與此同時 K1.5 也用了一些取樣策略的最佳化,其中包括課程學習和優先取樣的演算法,比如課程學習也就是根據問題的難度讓模型去先學容易的例子,然後再逐步引入更難的例子,從而循序漸進的去掌握知識。優先取樣也就是根據難度和對於問題的掌握程度來調整取樣機率,使模型更傾向於去取樣那些困難的或者不擅長的問題,來提高它的訓練的效率。長度懲罰其實也就是採用像下面這個公式所示的我們採用一組這樣一個回答,然後透過計算組內的最最大長度和最短長度來計算這個平均長度作為一個 reference 值。第二個就是策略最佳化的損失函式也就是我們直接其實可以採用一個 reinforce 的變種去最佳化 surrogate 的 loss。其中 Kimi K1.5 還採用了一些視覺資料的構建,包括像真實世界的資料其中就包括一些位置的猜測。然後傳統的 VQA,其實它是為了提升模型,在真實場景中的視覺推理能力;第二個是合成視覺推理資料,也就是它是一個人工合成的,比如去提高主要是提高一個空間關係、幾何模式和物體互動的這麼一個能力。這些合成資料提供了一個可控的環境用於測試模型的視覺推理能力,並且可以去無限生成一個虛擬樣本;第三個也就是常用的文字渲染資料,透過將文字內容轉化為視覺格式來從而保證模型能夠在不同模態下保持一致的文字處理的能力,其實就是將比如說一些 OCR 的技巧將這個文字的文件和程式碼的片段轉化為影像,來確保模型無論接受的是純文字輸入,還是截圖或者照片中的文字,都能夠提供一致的 Response。K1.5 還展現出來一個比較優秀的方法,也就是 long2short 長到短的蒸餾。它其實背後想要解決的其實是模型的一個過度思考,以及我們能不能採用進行算力的控制。也就是透過採用更短的思維鏈達到和長思維鏈相同的效果。其實 Kimi 探究了這麼幾個方法:首先是模型的融合,比如說將長文字的思維鏈模型和短文字思維鏈模型的權重進行平均,從而得到一個新的模型;第二個是最短拒絕取樣,也就是在多個取樣中選擇一個最短並且答案最正確的答案然後去做監督微調,其次是採用像 DPO 等技術來使用長文字 cot 模型生成的答案來作為偏好資料來訓練短文字 cot 的模型,在標準的 RL 訓練過程中,其實可以類似於前一步我們採用的長度懲罰項來進行微調,從而進一步的去提高短文字 CoT 模型的效率。在這裡其實我們對比一下 Kimi K1.5 和 DeepSeek R1 的一些技術,我們其實能夠發現一些共通之處和一些 Takeaways。首先二者都關注了 RL 的,也就是強化學習的方法帶來的提升,MCTS 和 PRM 其實是都沒有被使用的,包括我們之前的一個推測以及社群的很多復現過程中其實都關注了 MCTS 和過程監督模型,但是它們沒有被顯式的使用。其實背後是有著獎勵攻陷的考慮的,之所以直接用純 RL,其實背後的考量是對於模型思考能力的 structure,也就是其實這個 structure 相當於是人類的一個先驗,其實我們可以認為 MCTS 它是一種 structure,A * 它也是一種 structure,人為的加入 inductive bias 去強求語言模型按照結構化的先驗去進行思考,它其實是可能會限制模型的能力的。那麼後續我們也會進一步講解這個問題。第二點是過程的結果獎勵模型,它其實很容易被獎勵攻陷,並且絕對值的 value 是很難準確的去估計獎勵的,與此同時我們其實會有兩種方法:第一個比如說雖然我們絕對值的 value 很難準確的估計,但我們可以用它去構建一個偏序的資料集;第二就是我們直接不用過程獎勵模型,Kimi K1.5 其實更多是從 In-context RL 出發是希望模型去模擬 planning 的過程,而不是去顯式的進行 planning,其中就是將 state 和價值等資訊都視為一個 language tokens;而 DeepSeek R1 是從純強化學習的角度出發,透過大規模的強化學習和 rule-based reward 來啟用模型的能力,其中核心的觀念都是不管模型中間做錯了什麼,它只要不是重複的 pattern,只要模型最後做對了,我們就認為這是一個好的探索,它是值得鼓勵的;反之如果模型一頓探索最後做錯了,那麼再努力也是錯,這是需要去進行懲罰的。關鍵的也就是強化學習演算法的對比,其實 DeepSeek R1 採用的是 GRPO,GRPO 是透過群組相對方式去計算優勢值,然後它和獎勵模型基於同一問題的輸出它是天然契合的,而 GRPO 它額外的進行了策略函式的最佳化,比如說其實我們可以回到前面這一頁,我們可以看到其實傳統的我們是會把 KL 散度的懲罰加到 reward 裡邊,然後計算優勢值,但是在 GRPO 裡邊,我們可以直接把懲罰項融入到這個目標函式計算裡邊,簡化計算的難度和算力的損耗,使得這 GRPO 它其實在大規模的強化學習訓練任務中,能夠更有效的去最佳化策略模型,然後進而去提高它的計算效率。Kim K1.5 其實它採用了一種變種 Mirror Descent,它可以保證學習的穩定性,其實本質上也是屬於 REINFORCE 系列演算法的一種,可以促進模型去探索到驗證回溯總結的反思的行為方式。第二個關鍵點是後訓練的 Pipeline 其實對於提升模型的推理能力重要性都是不可忽視的,一方面是隨著測試階段算力和訓練階段算力的增加,根據後訓練擴充套件律模型的表現是會被持續改善的,另一方面是理想的資料構建應該涵蓋足夠廣泛的類別並且難度分級明確,這樣有利於實現類似於課程學習的效果,從而逐步提升模型的能力。最後一個 takeaways 是說在獎勵建模的過程中,其實我們需要確保如果你的獎勵機制是基於獎勵模型的話,那麼就要防止它的獎勵攻陷,比如說還需要去進行一個平衡的推理長度和推理正確率之間的一個關係,比如對於同一個序列它的下一個動作可能存在一個錯誤答案,也存在一個直接引入到正確答案的情況,那麼傳統的強化學習的方法的 Credit Assignment 的問題會傾向於去提升選擇正確答案的機率,同時降低去選擇錯誤答案的機率,然而從推理長度的角度來說,有時就選擇看似錯誤的答案,可能會引導模型進行一個自我修正的過程。這種自我修正的機制,以及更長的推理路徑,同樣對於提升模型的整體推理能力,是至關重要的。第二個我們希望對比的技術討論是透過純強化學習和 STaR-base 的一些方法的對比。在這裡我們先回顧一下 STaR 的方法,STaR 方法核心是說我們有一些問題和答案的問題,我們希望能夠讓模型自己生成問題是如何導向答案的推理過程,並且將這些推理過程加入到模型的監督微調的資料集中,從而每次獲得一個新的資料集,都從一個原始的模型來開始進行微調不斷的去激發模型自己產生 Rationales 就是思考過程的能力。STaR 和 RL 之間其實是有著緊密聯絡的,比如說去取樣一個潛在的推理路徑,它其實是類似於透過強化學習進行一個策略選擇的動作,然後就選擇一個可能的策略路徑,對於計算目標函式其實對於模型對於整個資料集的預測結果進行評估,並且只根據預測的正確的樣本更新模型。它其實是和傳統強化學習中一個梯度的更新,其實是類似的,也就是透過多次的調整同一批的資料來穩定學習過程。關於強化學習和 STaR 方法的對比,其實 STaR 的核心思路是希望將思考過程建模到語言的 next token prediction 中,它這個過程是透過反覆的自我迭代和監督微調實現的。基於 STaR 的方法可以進一步將這種思路擴充套件到比如思考過程其實也可以是搜尋過程,那也就是 planning 直接去建模語言模型的 next token prediction,比如說 rStar-math 以及 stream-of-search 甚至 Kimi K1.5 的核心思路都是這樣的。本質上 STaR 一類的方法是希望模型能夠學習到 MetaCoT 及問題的答案對映過程背後的一個深入的規律,比如說對於為什麼 1+1=2,其背後可能是說一個加法的規律,我們是希望 1+1=2 背後的加法的運算律,它是能夠作為一個隱式的思考過程或者隱式的合理過程被模型學習到引數之中的,但其實它對於問題的結構要求會比較高,對於複雜數學的推理任務,它是可能難以自我迭代的。因為某些可能根本沒有辦法去生成一個好的推理過程,並且難以融入一個 Rule-based 基於規則的這麼一個獎勵來進行強化學習的最佳化;第二就是在純強化學習的加持下,其實業界的技術實踐它更多的去關注於直接利用強化學習去啟用基座模型的推理潛力,透過構建 Rule-based Reward 也就是基於規則的獎勵,加上強化學習資料的設計來去啟用模型內部本身的能力相關的一些獎勵模型的嘗試,比如說 PRM 它其實會遇到像獎勵攻陷,以及估計的價值不準、難以泛化等問題。第三個我們希望討論的是蒸餾和強化學習之間的對比。一方面這些對比來自於我們像 DeepSeek R1 中揭示的能不能將一些更強大的推理能力的模型,它的高階推理正規化蒸餾到小模型中;另一方面是我們能不能利用蒸餾後的模型來進行訓練,從而超過傳統強化學習的邊界。其實背後的考慮是說其實大型模型,它雖然效能強大,但是也存在著一些侷限性,比如計算資源消耗過高、部署和使用門檻較高等。模型蒸餾的核心思維就是將一個經驗豐富的老師的知識傳遞給一個年輕的學生,從而將讓其在一個較短的時間內去掌握複雜技能。DeepSeek R1 Report 中其實揭示了我們透過蒸餾 R1 的手段,可以獲得一系列突出表現的小模型,其實這很大程度上是得益於 R1 的模型它是足夠強大的,因為它有很多高階的推理方式,而高效推理方式是小模型利用大規模的強化學習可能是難以發現的。這難以發現的原因可能是由於訓練知識的不足,很難去進行一些有效擴充,比如說同樣是下圍棋,其實人類大師見過了更多的棋譜,他要知道下一步可能下個在某個位置,它可能相對的價值更高,而人類小白其實沒有辦法去辨別不同的位置,它的價值是否有不同,其實獲得推理方式也就是有差別的,這些的話小模型表現會相對比較突出,甚至超過了基於大規模強化學習的方法。那在提升模型的推理能力的努力上,其實蒸餾和強化學習也被社群廣泛探索,比如說直接利用監督微調去蒸餾,其實可以學到資料背後的推理方式。但是它雖然在推理分數上有表現所提升,但它更多是去擬合資料中的 Pattern,很難學習資料背後的數學規律和我們所說的一個 MetaCoT 的過程,而強化學習是透過試錯和嘗試來鼓勵模型在最大化獎勵過程中去學習到推理背後的規律,獲得的泛化性和推理表現的上界都是更高的。與此同時,其實我們一個社群的 Common Sense 或者是說在對齊過程當中實踐是監督微調主要是負責記憶,而很難實現 out of distribution,也就是分佈外的泛化,而基於結果獎勵模型的強化學習是能夠獲得更高的泛化能力的。對於此的理解,其實我們一般在後訓練的階段中是採用監督微調來規勸模型的輸入格式,從而使得後續的強化學習可以獲得更高的收益。隨著強推理模型出現的興起,其實社群也有很多的工作來比較長文字的思維鏈的這種效果,比如說其實背後是說如何去 scaling up 可驗證的獎勵會成為一個核心。對於一些小模型來說,其實也有一些工作發現其實像 Qwen-math-7b 這些,它是不容易 recentivize 長思維鏈的正規化,比如說一些 'aha' Moment。那麼在像 Math 場景下,其實像 wait check 這些詞,它是在 RL 訓練中沒有進行明顯的增加的,所以如何將蒸餾和強化學習 combine 起來,其實還是一個比較關鍵的社群的問題。但是我們如果要突破強化學習的或者突破推理的能力的上界的話,其實還是要依靠強化學習。這裡有一些 open questions 是比如說長思維鏈的指令資料擴充套件,它是否是有助於提升慢思考推理能力,以及我們如何去構建這樣的長思維鏈資料來獲得最佳的樣本效率,進一步的我們長思維鏈的擴充套件是否有助於多模態任務。我們之前的一些嘗試是比如 RedSTaR,其實在這份工作中我們是發現了這麼一些 takeaways:首先長思維鏈它是能夠在有限的資料下去增加推理能力的,比如說只需要 1300 條資料,資料量較少的情況下去增加小模型的強推理能力。與此同時更大規模的模型以及更多專業預訓練的模型,它其實在這樣一個長推理鏈的微調中其實表現是更佳的,包括在較小的模型中,它正確的推理路徑和處理複雜任務的能力,這也進一步證明其實預訓練中的知識,對於後續無論是蒸餾還是強化學習的擴充都是有幫助的。進一步其實任務和語言之間也可以透過長監督微調進行正遷移,比如說從而去幫助在通用任務上的語言的泛化性,以及在透過基礎任務中去取得更好的表現,透過一些離線強化學習演算法和 online 的強化學習演算法,我們也能夠提升模型的表現。與此同時將 long cot 應用到多模態大型模型,也是可以顯著提升其效能的。DeepSeek-R1 也是現在只有文字模態,未來如何進行多模態的擴充套件也是非常關鍵的一個問題。其實社群有一些方法比如最近非常火的 S1 模型,我們在這裡進行一個簡單的分析。Kimi K 1.5 中的 long2short 的方法其實本質上也是一種蒸餾,也就是我們如何將長文字思維鏈的模型的知識遷移到短文字的模型上,不過它的目標和策略需要更多樣。不僅需要效能,還需要 Token 的效率,並且更多的去關注對於教師模型推理策略的學習,而不僅僅是輸出。而 S1 模型,它是透過少成本去獲得 o1-preview 的這麼一個表現。它關鍵是基於兩點,第一個是高質量推理資料集的貢獻,也就是進行挑選了 1000 條,關於數學競賽博士級的科學問題、以及奧林匹克競賽題目等,這些問題經過難度多樣性和質量的嚴格篩選,它是包含了詳細的推理軌跡和答案,它也能達到類似於課程學習的效果;第二個是取樣策略的最佳化,其實他們採用了一個預算強制法來控制模型在推理時間的計算消耗,也就是透過引入 end of thinking 的 token,去控制模型的思維鏈長度,比如終止思考過程來轉向答案生成的階段。如果要增加計算投入的話,我們就會暫時阻止 end of thinking 的 token 出現來鼓勵進一步的探索。DeepSeek-R1 為什麼蒸餾的效果能夠超過強化學習,其實主要是在於 DeepSeek R1 這個模型確實很大,然後他也確實發現了一些高階推理的正規化。透過大規模的資料的蒸餾,它其實能夠讓小模型在任務表現上是超過小模型進行大規模強化學習的效果的。但是它也有兩個比較關鍵的點,第一是對於依賴強大的教師模型,第二是它的證明過程,通常是基於特定任務或者一組任務,比如說程式碼和數學問題來進行最佳化,這可能導致生成的小模型在面對新任務例如通用任務時它的適應性和方法能力是不足的。接下來一個對比討論就是 MCTS 和 PRM 的應用。我們知道其實社群包括我們之前的講解,對於 MCTS 和過程獎勵模型,實還是比較重視的。MCTS 的核心的方法,是將答案拆分成分句或者 Token 為單位的節點,然後對於解空間進行搜尋。但是透過 MCTS 可能會有以下的問題,第一個是整個 token 的 generation space 是更大的,而不是像象棋一樣,象棋中的搜尋空間是相對一個良定義的,而語言模型它的 token 產生過程空間是相對更大的,它是更容易陷入區域性最優的。第二是 MCTS 中的 value model 也非常重要,它直接影響了搜尋方向,而去直接去訓練一個更好的 value model 是相對比較困難的,所以在復現強推理模型的一些實踐上,其實社群也有很多關注的如何進行 MCTS 演算法的最佳化。一個相對成功的典範是 rStar-Math,它是透過小模型就達到了 OpenAI o1 數學任務相當的水平,其中關鍵的核心思路是透過兩個小模型的配合,其中一個是策略模型 policy model,另一個模型我把它訓練成為基於偏好的過程獎勵模型,它透過配合迭代,然後 MCTS 去產生分步驗證的高質量處理資料,然後再進行一個自我迭代的提升,從而不斷的更新資料,然後微調模型。其中背後的一個觀點是說,我們提到 PRM,對於單個步驟的絕對值最佳化,它其實可能是存在問題,或者說難以估確準穩定的獎勵,但是透過 MCTS 的模擬之後,我們雖然絕對值的評分是不準的,但它能夠有效的識別出哪些步驟是正確的、哪些步驟是錯誤的,進而我們就可以利用 ranking loss,去訓練一個偏序資料集。比較樹搜尋和不同的獎勵模型的一些方法,其實我們可以發現,傳統的一些方案都是基於比如說像利用我們 MCTS 去構建資料集或者是說直接去顯式在推理過程中加入樹搜尋的技巧來延長推理的時間,其實背後的相應有一些考量是說直接將樹搜尋應用到模型的訓練過程中,是否可能會限制模型的思考過程。背後的啟發是,樹搜尋本身是一種結構化的先驗,包括 A * 演算法也是這樣的一種 structure,那麼人為的加入這樣的認知偏差使得語言模型去按照人類的結構化經驗去進行思考,是可能會限制模型的能力。比如說,就如右邊 OpenAI 所展示的圖,其實隨著算力的增長,加入更多的這樣一個人類先驗,其實整個模型的表現上限是有限的,具有更少的人類先驗,所能獲得的表現上界是更高的。最後我們想要思考的是,我們不透過額外的新增人為先驗,模型自身的時候是否可以直接進行思考的。背後其實有兩個演算法:第一個也就是演算法蒸餾,第二個是透過搜尋流來顯式的去引入規劃的過程。關於演算法蒸餾其實是將強化學習的整個訓練過程中的 history 的 trajectory,直接建模到語言模型中從而尋找一個資料相對會比較高效的這樣一些強化學習演算法。Stream of Search 也就是搜尋流其實是類似的,它更多是說將強化學習的訓練的軌跡,比如將對搜尋過程轉化為自然語言序列訓練預訓練模型,然後基於這個模型,做一些策略提升的方法,它也是解決了很多啟發式的解決器沒有解決的一些問題。但是我們可以看到其實 DS-R1 和 Kimi K1.5 它背後沒有進行明確的樹搜尋和過程獎勵模型的嘗試,其背後也有其特定的考量。比如說這個過程獎勵模型,它具備的一些挑戰是決定當下的某一步是否是正確是一個非常難的任務,那麼並且透過自動化標註是很難以產生很好的結果的,而透過人工標註又很難以把規模擴大;第二是基於神經網路的過程獎勵模型可能會引入獎勵攻陷的現象,而重新訓練就會讓整個訓練過程變得非常複雜,並且整個過程獎勵模型還是比較適合於 rank 前 n 個回答,並且去支援有方向的去搜尋。那麼在大規模強化學習學習的使用下,其實提高算力相對是一個更加直接的方法。但是過程獎勵模型有它自己的潛力,因為它畢竟總歸是一個比較稠密的監督訊號,那麼對於獎勵進行合適的 shaping 之後,是可以使訓練更加穩定或者收斂更快的。包括其背後也有更多的探索的空間比如說我們如何讓模型收斂更快或者說藉助過程獎勵的方法來讓整個訓練更加穩定,並且未來有希望和自動化形式化驗證進行結合,從而提供在基於規則的獎勵之外更多的獎勵訊號,從而去指導密集的最佳化,賦能長思維鏈安全的驗證。那麼最後一個討論也就是其實我們會發現現在很多強推理模型,存在過度思考的行為具體表現,比如說它會出現過多的語氣詞,以及在任何的場合都會使用一些高階詞彙典型的比如 DS-R1 會使用量子糾纏,對於一些簡單的數學問題也會出現過多思考的正規化。但其背後看似是有反思的正規化,重複的正規化也是非常多的,它可能會導致更好的表現,但是也會帶來在訓練和推理過程中極大的損耗。其實背後的問題就是,我們如何去合理的去分配在測試階段的算力,從而進行選擇性的思考。其實 Kimi 裡邊為我們展現一種策略,比如說從長思維鏈到短思維鏈的蒸餾,以及如何引入長度最佳化的懲罰和優先取樣策略,去幫助整個模型在強化學習訓練過程中建模到使用合適的方法,而避免過度思考的現象。我們會發現整個 DS-R1 在純文字模態上取得優異表現非常驚豔,其實這也讓人不禁期待多模態場景的加持下,深度推理模型會是怎樣的表現,整個未來也是將進入一個模態穿透和模態聯動的這麼一個趨勢。我們人類在日常生活中接收到的資訊往往是全模組的不同感官的渠道,它是能夠互相補充,幫助我們更加全面的理解和表達複雜概念。其實模態擴充套件將成為強推理模型下一個重大突破,比如說我們如何在複雜的決策環境中構建起感知 - 理解 - 推演的閉環認知體系,以及如何在某個模態下應對許多複雜的推理任務,基於規則的獎勵提供監督訊號,從而作為人類意圖和偏好的載體。而從文字模態擴充套件到多模態、甚至到全模態場景時,許多問題便會隨之呈現,比如說隨著模態數的增加,傳統的二元偏好是否能夠捕捉人類意圖的多元偏好或者層次化偏好;並且當多模態擴充套件到全模態空間,模態互動更加複雜,強化學習方法又需要做哪些改進;以及不同的模態下模態特有和模態共有的資訊又如何統一在獎勵訊號建模之中。其實擴充套件多模態對強推理有很多可能性,第一種是像 Qwen 一樣基於多模態做基座的模型擴充套件到強推理的模型;第二是可以利用 LLaVA 的思路,在原來強推理基座模型上進行額外的多模態模組的擴充套件,比如說如凍結除投影層之外的所有模型引數,對投影層進行單獨的預訓練,從而獲得能夠經過視覺編碼器的視覺表徵對映到語言表徵空間的能力;以及第二步是同時微調投影層和大語言模型,從而激發語言模型的多模態處理能力。我們在這裡也總結了一些未來的技術方向,比如說長推理模型的可解釋性、模態擴充套件、強推理如何賦能智慧體的發展以及強推理模型下的一個監管和安全保證,具體包括形式化驗證、審計對齊和對齊欺騙現象。首先是長思維鏈的可解釋性,其實強推理模型在為我們帶來效能提升的同時也帶來了新的挑戰。比如在複雜的環境下,模型可能會採取捷徑或者偏離原本的設計的任務路線,那麼隨著模型被提供隱式思考的機會,出現這種操縱和欺騙的可能性逐漸加大,模型可以去透過相應的思考去更發現完成目標的更快方法。儘管這種目標可能是不被允許或者是欺騙人類的。比如說在 OpenAI 的 o1 中就已經發現了這種透過獲取任務的漏洞來完成任務的這樣一個現象。並且同樣的現象也在更多的語言模型上發現了這種獎勵篡改的機制,比如修改自己的獎勵機制來避開設定的難點。基於長思維鏈的推理雖然在一定程度上可以提高模型的可解釋性,比如說我們可以檢視顯式的路徑讓人類可以追蹤到模型如何從輸入推匯出輸出,進而追蹤模型的決策過程。但是與此同時它也不能完全去可解釋性的問題,因為模型可能仍然利用思維鏈進行欺騙性推理。儘管思維鏈生成的推理步驟是模型輸出的一部分,但是它並不能保證它真實地反映了模型內部計算的過程。模型是否能學會輸出符合人類期望的思維鏈,但是實際的處理過程可能與其展示的思維鏈是不同的。進一步當模型具備長期的目標意識的時候,它可能會構造看似合理但實際上誤導性的思維鏈以隱藏其真正的意圖。那麼為了防止思維鏈變成偽裝工具,其實需要兼顧一些 AI 驅動的方法以及對比推理、形式化驗證等方法。例如可以讓模型在不同的監督環境下執行相同的任務,檢測其推理的一致性。或者是利用自動化對抗測試來分析模型是否在訓練過程中最佳化了欺騙策略。第二個未來發展展望也就是如何透過模態擴充套件和模態穿透來進一步擴充強推理的邊界。我們可以知道傳統的對齊方法,它本身是模態無感的,它能夠透過資料的構造直接應用於多模態的場景。但是多模態的對齊的難點在於隨著模態數量的增加,傳統的二元偏好能否捕捉人類意圖的多元偏好或者層次化偏好;第二是當多模態擴充套件到全模態空間,模態互動更加複雜,那麼傳統對齊演算法是否還奏效,以及不同模態下模態特有和模態共有的資訊如何統一在變化建模中。這裡的出發點是我們如何在全模態場景中實現任意模態輸入任意模態輸出的模型也能夠和人類的意圖相對齊。背後其實有一個統一的正規化,是我們能否利用資訊更豐富的多模態偏好資料從而實現更準確且細粒度的人類偏好對齊呢?先前我們組其實提出一種演算法就是從語言反饋中進行學習,具體來說是針對於傳統對齊方法中存在的效率低迭代慢最佳化難的等難題,讓語言模型對於每一個偏好資料集去提供相應的語言反饋。其實這個語言反饋就是可以作為整個偏好中人類意圖的載體,因為它不僅給出了偏好為什麼好,也給出了這個偏好為什麼壞,以及如何進行最佳化的這樣一個反饋。那麼透過從語言反饋中學習正規化,它是能夠提升任意模態的生成和理解任務的對齊表現的。其背後是說當前模型的問題可能通常是並不完美的,我們可以利用語言反饋去最佳化問題,也可以最佳化問題的輸出,從而可以在某些維度上去改善模型的輸出,進而合成更多具有學習價值的偏好對。我們也發現其實模態穿透是能夠賦能整個文字模態上的智慧並且擴充的。背後有兩個關鍵之處:第一個是客觀基礎上多模態模型,已具備了強大的跨模態穿透和融合的機制,能夠透過結合視覺能力世界知識和上下文學習能力,實現多種模組之間的協同輸出;第二是基於慢思考強推理能力的持續自我進化,可以突破單一模組的侷限性,從而可以用其他模態的輔助資訊來幫助模型在文字模態上得以大幅提升。在這裡其實我們基於 DeepSeek 的一系列模型也進行了相關的實驗,我們發現其實經過多模態訓練後的 8B 的模型是能夠在很多文字的評測基準上超越原來的基座模型的能力。其實就證明多模態能力的賦予幫助了在文字模態下智慧邊界的擴充套件。在這裡我們也是提出了 Align-Anything 框架,其中包括了對於任意模態任意資料,還有任意演算法的這樣一個開源庫的偏好支援。它支援的任意模態到任意模態的對齊,在目前開源社群中也是獨一無二的。並且我們還已經支援了 DeepSeek R1 671B 的微調,這也是為全模態大模型的對齊提供了統一的和通用的解決方案。背後的資料框架演算法和模型我們也全部進行了開源。第三個未來技術判斷是強推理其實可以賦能未來智慧體的發展。我們可以發現日常的聊天任務其實對於強推理能力的需求並不大。未來更多是說能否利用強推理能力來賦能智慧體和具身智慧的發展。那其背後是需要依賴於強推理模型反思、長程規劃和工具呼叫的能力以及關鍵問題是如何克服記憶體和記憶模組的挑戰,以及小模型如何獲得更強的推理效果來節省記憶體和視訊記憶體的開銷。最後一個需要關注的未來技術方向是強推理模型下的監管和保證。因為語言模型已經表現出了抗拒對齊的現象。傳統的這些演算法雖然可能提升模型的效能並且確保人類意圖和價值相一致。但是這些對齊微調是否真正修改了對齊模型的內部表徵?我們發現其實在經過安全對齊的模型可以在最小化微調之後變得再次不安全,並且在非惡意資料集上的微調對齊的模型,也可能會削弱模型的安全機制。那不僅侷限於安全,這種假象對其表明模型可能會內在執行逆對齊的操作,反而銷燬對齊過程的可能性。這一概念其實我們也稱之為逆向對齊。那麼進一步我們探究了,語言模型是能否表現出彈性從而抗拒對齊的現象。我們是從最簡單的彈簧系統建模進行出發來探究單元模型內在抗拒對齊的機理。其背後是說就像彈簧的胡克定律,在彈性限度內,彈簧的彈力和長度的變化是成線性關係的。大語言模型其實也是具備彈性的,那模型在預訓練的階段經過大資料大更新之後產生了通用能力的穩定分佈,而經過對齊階段的小資料小功能性是可能表現出由對齊分佈回彈到預訓練分佈的傾向而體現出抗拒對齊的。我們對於模型施加微調之時,模型其實更傾向於保持原有預訓練的分佈而抗拒對齊的分佈,從而使逆向對齊更加容易。從理論解釋上來說,其實我們會發現整個預訓練到後訓練階段模型是因為彈性而抗拒對齊的,因為模型可以被視作為一種壓縮器。預訓練和對齊的過程就是利用模型對於每階段的資料進行聯合壓縮,而在預訓練中所花的資料量是要顯著多於後訓練的,那模型為了提高整體的壓縮率就會傾向於保留預先的部分的分佈,而抗拒微調對齊的分佈從而表現出模型的彈性。理論上,其實對齊的模型受到擾動之後,模型對於預訓練資料和對齊資料集的壓縮率是成一個變化的關係的;並且這個變化的關係是和資料量之比是同階的。我們也在大量的實驗上進行了模型彈性的相應的驗證,會發現兩個關鍵的結論:首先模型的彈性是會隨著模型的大小增大而增大的,那麼隨著模型引數規模的增大,其實模型的彈性也是隨著引數量大小的增大而不斷變強;第二是模型的彈性,其實隨著一系列的資料增大而不斷增大。我們觀察到隨著一系列資料量增加的時候,負面資料微調導致的初始效能其實下降更後下降變得更慢。其實這表明模型彈性隨著預訓練數量的增多,是在不斷增多的。總的來說其實我們從彈性視角來反思大量模型的對齊。其實它本身也是強推理模型下一個非常關鍵的安全對齊的舉措。我們可以發現預訓練的階段和對齊階段是不應當被各自獨立的,而我們對於模型的評估更應該去關注模型內在表現的對齊。如何從表面對齊深入到深入對齊,那麼其背後是對齊的正規化應該是需要改變的。第三個需要關注點是審計對齊,這其背後的挑戰是當下的大語言模型其實容易被誘導陷害有害內容,那麼他們通常會表現出過度的拒絕,就是可能會拒絕一些合法請求。但是這樣依然容易受到越獄攻擊。背後的兩個關鍵原因是,當下的語言模型必須用固定的資源即時響應使用者的需求;第二是當下的這些方法是鼓勵語言模型透過偏好學習,從大量資料中去總結和規範人的意圖,而不是直接去學習安全的規範。那麼背後的科學問題是我們能否直接利用強推理能力來學習安全規範以增強模型的安全效能。其實 OpenAI 提出了這樣一種審計對齊的方法,大體思路是我們在監督微調和推理生成階段可能就可以利用強推理模型產生一個對於安全準則的思考過程,那麼進而我們可以去將這種思考過程融入到模型監督微調的過程中。並且在強化學習的訓練過程中,我們可以鼓勵模型自主產生這種安全並且有幫助性的思維鏈過程,而更好的利用強推理模型的思路深入思考學習到背後的安全規範。其實更多它是像把 CAI 的這種過程和背後的這種 constitutions 的憲法融入到了模型的推理過程之中。那麼這也是在推理時,它也能夠很大程度上提升模型的安全性。背後其實更關鍵是說,剛才我們提到的模型可能會表現出來對齊欺騙和對齊抗拒的這樣的正規化,以及未來我們是需要對齊更強大的模型我們如何去提供獎勵訊號,去為這些可能比人類更聰明以及我們沒有辦法去理解它們任務的這樣的模型。接下來非常關鍵的點就是形式化驗證。形式化驗證其實起源於數學的形式化證明,因為數學的形式化它的目的是為了提供一個完全客觀可驗證的證明過程;而與此同時其實安全價值也需要這樣的形式化驗證。因為安全的監管具有重要性,其背後的本源在於人類的安全價值觀是具有重要性的,而內建價值的衝突和單智慧體的安全並不能保證多智慧體系統的安全。包括現在人工智慧系統已經出現了偽裝對齊的現象,以及隨著 VLA和智慧體等模型下游和賦能應用興起,確保模型準確的應對不確定性,考慮物理規律下的人類價值對齊至關重要。因為我們在複雜的動態環境中不僅要考慮短期安全,還要保證長期使用的安全性,對操作環境產生影響。那麼透過形式化驗證和強化學習,我們其實是能夠提高模型的可靠性和處理複雜推理問題的能力,透過構建形式化的數學資料庫,我們也能夠建立高度嚴謹的推理模型。其背後既是智慧體的模型背後的安全也具有獨特的挑戰。一方面是模型具有內生價值的安全性,因為它不僅要考慮不確定性,還必須考慮物理規律下人類價值觀的對齊,例如肢體語言的安全性和個人空間的邊界感等等;第二是外生的具身安全性,因為在複雜的動態環境中不僅要短期安全,還要確保長期行為的安全性,例如對操作環境造成影響的安全性。總結下來我們其實會發現,這三年整體是有一個快思考到慢思考以及到 2025 年強推理和模態穿透整個正規化的躍進。關鍵問題是基於複雜推理慢思考和強化學習技術正規化,我們如何透過高質量資料去驅動產生強推理模型,透過賦能全推理全模態場景下去擴充智慧的邊界。最後我們也附上了有關 DeepSeek-v3 的一些分析。我們可以發現 DeepSeek-v3 它是基於 61 層 MoE 的架構以及做了很多像 MLA 這種架構的最佳化來降低模型的成本。同時保證模型對於輸入資料和複雜關係的捕捉能力。與此同時採用混合精度訓練和多 Token 預測的機制。也能夠提高模型對於語言結構的理解能力,然後更好的去捕捉語言中的長距離依賴關係。更進一步也在通訊和方面進行了例如像雙流水線並行最佳化這樣的機制來進一步提高模型的效率。在這裡我們也想進行探究和分析也就是人類的系統一和系統二之間的對比。那系統一它其實更多的說進行一個快速但是可能不為準確的判斷,而系統二它通常是經過深入思考透過遍歷組合來解決一些問題,但是這種方法的複雜度極高,容易導致組合爆炸。其實未來一個潛在方向是我們如何利用系統一快速但可能不準確的判斷,來幫助系統二控制組合爆炸的問題,從而高效地進行復雜推理。並且我們能不能將這種流式智慧建模到語言模型之中。當下的語言模型其實更多還是受限於過程性的推理任務,它儘管可能完成一些複雜推理,但是對於以人類來說一些很簡單的任務,比如說逆轉詛咒,語言模型其實是非常有困難的。其本質在於語言模型的思考過程本身是靜態和非過程的。我們能不能透過人類的抽象推理建模出高維的概念並且進行細度反饋。結合系統一和系統二來幫助語言模型進一步提升它的推理能力其實是一個非常關鍵的方向。最後我們也提供了一些擴充文獻和參考資料也是希望能夠幫助到社群。以上這就是我們全部的分享。