450 美元的價格,乍一聽起來不算「小數目」。但如果,這是一個 32B 推理模型的全部訓練成本呢?
是的,當時間來到 2025 年,推理模型正變得越來越容易開發,且成本迅速降低到我們此前無法想象的程度。
近日,加州大學伯克利分校天空計算實驗室的研究團隊 NovaSky 釋出了 Sky-T1-32B-Preview。有趣的是,團隊表示:「Sky-T1-32B-Preview 的訓練成本不到 450 美元,這表明可以經濟、高效地複製高階推理能力。」
專案主頁:https://novasky-ai.github.io/posts/sky-t1/ 開源地址:https://huggingface.co/NovaSky-AI/Sky-T1-32B-Preview
據官方資訊,這款推理模型在多個關鍵基準測試中與 OpenAI o1 的早期版本相媲美。
重點是,Sky-T1 似乎是第一個真正開源的推理模型,因為團隊釋出了訓練資料集以及必要的訓練程式碼,任何人都可以從頭開始複製。
大家驚呼:「資料、程式碼和模型權重,多麼驚人的貢獻。」
不久前,訓練一個具有同等效能的模型的價格往往高達數百萬美元。合成訓練資料或由其他模型生成的訓練資料,讓成本實現了大幅降低。
此前,一家 AI 公司 Writer 釋出的 Palmyra X 004 幾乎完全基於合成資料進行訓練,開發成本僅為 70 萬美元。
想象一下,以後我們可以在 Nvidia Project Digits AI 超級計算機上執行此程式,該超級計算機售價 3000 美元(對於超級計算機來說很便宜),可以執行多達 2000 億個引數的模型。而不久的將來,不到 1 萬億個引數的模型將由個人在本地執行。
2025 年的大模型技術演進正在加速,這感受確實很強烈。
模型概述
擅長推理的 o1 和 Gemini 2.0 flash thinking 等模型透過產生長長的內部思維鏈,解決了複雜的任務,並取得了其他方面的進步。然而,技術細節和模型權重卻無法獲取,這對學術界和開源社群的參與構成了障礙。
為此,在數學領域出現了一些訓練開放權重推理模型的顯著成果,如 Still-2 和 Journey。與此同時,加州大學伯克利分校的 NovaSky 團隊一直在探索各種技術,以發展基礎模型和指令調整模型的推理能力。
在 Sky-T1-32B-Preview 這項工作中,團隊不僅在數學方面取得了有競爭力的推理效能,而且在同一模型的編碼方面也取得了有競爭力的推理效能。
為確保這項工作能「惠及更廣泛的社群」,團隊開源了所有細節(如資料、程式碼、模型權重),使社群能夠輕鬆複製和改進:
基礎設施:在單一儲存庫中構建資料、訓練和評估模型; 資料:用於訓練 Sky-T1-32B-Preview 的 17K 資料; 技術細節:技術報告及 wandb 日誌; 模型權重:32B 模型權重。
技術細節
資料整理過程
為了生成訓練資料,團隊使用了 QwQ-32B-Preview,這是一個開源模型,其推理能力與 o1-preview 相當。團隊對資料混合進行了整理,以涵蓋需要推理的不同領域,並採用拒絕取樣程式來提高資料質量。
然後,團隊受到 Still-2 的啟發,用 GPT-4o-mini 將 QwQ trace 重寫為結構規整的版本,以提高資料質量並簡化解析。
他們發現,解析的簡便性對推理模型尤其有利。它們被訓練成以特定格式做出響應,而結果往往難以解析。例如,在 APPs 資料集上,如果不重新格式化,團隊只能假設程式碼是寫在最後一個程式碼塊中的,而 QwQ 只能達到約 25% 的準確率。但是,有時程式碼可能寫在中間,經過重新格式化後,準確率會提高到 90% 以上。
拒絕取樣。根據資料集提供的解決方案,如果 QwQ 樣本不正確,團隊就會將其丟棄。對於數學問題,團隊會與 ground truth 解決方案進行精確匹配。對於編碼問題,團隊執行資料集中提供的單元測試。團隊的最終資料包含來自 APPs 和 TACO 的 5k 編碼資料,以及來自 AIME、MATH 和 NuminaMATH 資料集的 Olympiads 子集的 10k 數學資料。此外,團隊還保留了來自 STILL-2 的 1k 科學和謎題資料。
訓練
團隊使用訓練資料來微調 Qwen2.5-32B-Instruct,這是一個不具備推理能力的開源模型。該模型採用 3 個 epoch、學習率 1e-5 和 96 的批大小進行訓練。使用 DeepSpeed Zero-3 offload(根據 Lambda Cloud 的定價約為 450 美元),在 8 個 H100 上用 19 個小時完成模型訓練。團隊使用了 Llama-Factory 進行訓練。
評估結果
Sky-T1 在 MATH500(「競賽級」數學挑戰)上的表現優於 o1 的早期預覽版本,還在一組來自 LiveCodeBench(一種編碼評估)的難題上擊敗了 o1 的預覽版本。然而,Sky-T1 不如 GPQA-Diamond 上的 o1 預覽版,後者包含博士畢業生應該瞭解的物理、生物和化學相關問題。
不過,OpenAI 的 o1 GA 版本比 o1 的預覽版更強大,並且 OpenAI 預計將在未來幾周釋出效能更佳的推理模型 o3。
值得重視的新發現
模型大小很重要。團隊最初嘗試在較小的模型(7B 和 14B)上進行訓練,但觀察到的改進不大。例如,在 APPs 資料集上訓練 Qwen2.5-14B-Coder-Instruct 在 LiveCodeBench 上的效能略有提高,從 42.6% 提高到 46.3%。然而,在手動檢查較小模型(小於 32B 的模型)的輸出時,團隊發現它們經常生成重複內容,從而限制了它們的有效性。
資料混合很重要。團隊最初使用 Numina 資料集(由 STILL-2 提供)中的 3-4K 個數學問題訓練 32B 模型,AIME24 的準確率從 16.7% 顯著提高到 43.3%。然而,將 APPs 資料集生成的程式設計資料納入訓練過程時,AIME24 的準確率下降到 36.7%。可能意味著,這種下降是由於數學和程式設計任務所需的推理方法不同。
程式設計推理通常涉及額外的邏輯步驟,如模擬測試輸入或內部執行生成的程式碼,而數學問題的推理往往更為直接和結構化。為了解決這些差異,團隊使用 NuminaMath 資料集中具有挑戰性的數學問題和 TACO 資料集中複雜的程式設計任務來豐富訓練資料。這種均衡的資料混合使模型在兩個領域都表現出色,在 AIME24 上恢復了 43.3% 的準確率,同時也提高了其程式設計能力。
與此同時,也有研究者表示了懷疑:
對此大家怎麼看?歡迎在評論區討論。
參考連結:https://www.reddit.com/r/LocalLLaMA/comments/1hys13h/new_model_from_httpsnovaskyaigithubio/