Deepseek R1-Zero關鍵兩項發現:無需人類專家、有自己專業領域語言DSL,也就是沒有SFT,有自己DSL!
ARC Prize基金會對DeepSeek釋出的R1-Zero和R1“推理”系統的分析。
ARC Prize基金是誰?
ARC Prize基金會旨在定義、衡量並激勵新的AGI(通用人工智慧)想法。目前尚未實現AGI,主流AI行業和公眾普遍認為透過擴大純語言模型(LLM)的預訓練規模就能實現突破,但ARC Prize基金會認為這並非通往AGI的正確路徑。
DeepSeek釋出了R1-Zero和R1系統
這些系統在ARC-AGI-1基準測試中表現與OpenAI的o1系統相當,但R1-Zero不依賴人類專家標註(SFT),僅使用強化學習(RL)。
效能對比:
- R1-Zero:14%的準確率,無SFT,無搜尋,平均11K tokens,成本0.11美元。
- R1:15.8%的準確率,使用SFT,無搜尋,平均6K tokens,成本0.06美元。
- o1(低):20.5%的準確率,使用SFT,無搜尋,平均7K tokens,成本0.43美元。
- o3(低):75.7%的準確率,使用SFT,搜尋+取樣,平均335K tokens,成本20美元。
R1-Zero展示了在沒有人類專家標註的情況下,透過強化學習也能實現有效的推理能力,這對於減少人類資料生成的瓶頸具有重要意義。
推理系統的三個關鍵維度
- 人類標註(SFT):透過人類專家標註中間推理步驟,提升推理系統的準確性和通用性。
- 推理搜尋(CoT Search):透過並行的每步推理搜尋,而不是線性推理,提升推理系統的適應性。
- 整體取樣(Whole CoT Sampling):透過並行軌跡推理,進一步提升推理系統的效能。
R1-Zero的關鍵發現
- 無需SFT:R1-Zero證明在具有強驗證的領域(如數學和程式設計),無需人類專家標註也能實現清晰且準確的推理。
- 內部領域特定語言(DSL):R1-Zero透過強化學習在token空間中建立了自己的內部DSL,但目前還無法發現更廣泛的共享詞彙。
- 未來研究方向:未來的研究可能會集中在如何透過強化學習發現更通用的詞彙,以提升推理系統的通用性。
AI推理系統的經濟影響
- 可靠性與成本:AI推理系統現在可以透過增加計算成本來提升準確性和可靠性,這將推動對推理計算的巨大需求。
- 訓練成本向推理成本轉移:未來的AI系統將更多地在推理階段投入成本,而不是在訓練階段。
- 資料生成的轉變:推理系統可以透過搜尋、合成和驗證生成“真實”資料,而不是依賴於傳統的預訓練資料。這種資料生成方式可能會導致AI系統開發者之間的權力集中,因為擁有更多付費使用者的開發者能夠生成更多高質量資料,從而提升模型效能。
R1的開放性和可復現性將促進更多團隊探索推理和搜尋的極限,推動創新,增加實現AGI的可能性。R1-Zero和R1的釋出為AI領域帶來了新的研究方向和經濟模式,未來可能會看到更多基於這些系統的創新和突破。
其他DeekSeek相關:
1、微軟免費為Copilot的所有使用者提供了Think Deeper。現在,每個人都可以在Copilot中免費訪問OpenAI世界級的o1推理模型。
2、DeepSeek-R1-Distill-Qwen-1.5B-ONNX模型完全在客戶端使用 webgpu:
- https://github.com/sdan/r1-web