R1-Zero 等模型正在打破人類資料瓶頸,開啟 AI 自我進化新正規化?
透過投入更多計算資源,AI 系統的準確性和可靠性可以顯著提升,這將增強使用者對 AI 的信任,推動商業化應用。
推理過程正在生成大量高質量的訓練資料,且這些資料由使用者付費產生,這種「推理即訓練」的新正規化可能徹底改變 AI 資料經濟的運作方式,形成自我強化的迴圈。
為問題域生成思維鏈(CoT)。
使用人類專家(「監督微調」或 SFT)和自動化機器(強化學習(RL))的組合來標註中間 CoT 步驟。
使用(2)得到的資料訓練基礎模型。
在測試時,從過程模型中進行迭代推理。
在 CoT 過程模型訓練中新增人類標籤(即 SFT);
使用 CoT 搜尋而不是線性推理(並行逐步 CoT 推理);
整體 CoT 取樣(並行軌跡推理)。
在那些能夠清晰判斷對錯的領域中 ,SFT(如人類專家標註)對於準確和易讀的 CoT 推理並非必需。
R1-Zero 訓練過程能夠透過 RL 最佳化在 token 空間中建立自己的內部領域特定語言(DSL)。
SFT 是提高 CoT 推理領域泛化性的必要條件。
現在可以花更多錢來獲得更高的準確性和可靠性;
訓練成本正在轉向推理成本。