崑崙萬維「天工大模型4.0」o1版（Skywork o1）正式啟動邀請測試

今天，崑崙萬維正式推出具有複雜思考推理能力的系列模型——「天工大模型4.0」 o1版（Skywork o1）。

Skywork o1是由崑崙萬維集團釋出的具有慢思考推理能力的系列模型。這是國內第一款中文邏輯推理能力的o1模型。不同於現有的復現OpenAI o1模型的工作，Skywork o1不僅在模型輸出上內生了思考、計劃、反思等能力，同時，該開源模型在標準評測集上，對比普通模型推理能力大幅上升，真正讓模型擁有了思考和反思帶來的推理能力的提升。團隊復現o1的技術路線，使得初始推理能力較差的基座模型在基準測試集上成為生態位SOTA。

此次釋出的Skywork o1包括三款模型，既有回饋開源社群的開放版本，也有能力更強的專用版本：

Skywork o1 Open：一款基於Llama 3.1 8B的開源模型，該模型在同生態位開源模型中評測指標大幅提升達到SOTA水平，並解鎖了許多輕量級模型無法解決的複雜數學任務。該模型的釋出也將幫助加速國內開源社群復現o1的程序。
Skywork o1 Lite：該模型具備完整的思考能力，具有更好的中文支援和更快的推理和思考速度。在數學、中文邏輯和推理類問題上表現突出。
Skywork o1 Preview：這款模型是本次完整版的推理模型，搭配自研的線上推理演算法，對比Skywork o1 Lite有著更多樣和“深度”的思考過程，更完善和更高質量的推理。

其中，我們開源的Skywork o1 Open，在各項數學和程式碼指標上均有大幅提高，將Llama-3.1-8B的效能拉到同生態位SOTA（超越Qwen-2.5-7B instruct）。同時，8B的Skywork o1 Open也解鎖了很多較大量級模型，如GPT 4o，無法完成的數學推理任務（如24點計算）。這也為推理模型在輕量級裝置上部署提供了可能性。

崑崙萬維「天工大模型4.0」o1版（Skywork o1）正式啟動邀請測試

同時，我們也將開源兩個推理任務的Process Reward Model（PRM）：Skywork o1 Open-PRM-1.5B 和Skywork o1 Open-PRM-7B，相比此前開源的Skywork-Reward-Model僅對整個模型回答進行打分，Skywork o1 Open-PRM能給模型回答中的每個步驟進行打分。

對比開源社群現有的PRM，Skywork o1 Open-PRM-1.5B能達到開源社群8B的模型效果，例如RLHFlow的Llama3.1-8B-PRM-Deepseek-Data，OpenR的Math-psa-7B，Skywork o1 Open-PRM-7B能同時在大部分benchamrk上接近/超過10倍量級的Qwen2.5-Math-RM-72B。Skywork o1 Open-PRM也是第一款適配程式碼類任務的開源PRM。下面表格為以Skywork-o1-Open-8B作為基礎模型，使用不同PRM在數學和程式碼評測集上的評估結果。

崑崙萬維「天工大模型4.0」o1版（Skywork o1）正式啟動邀請測試

除Skywork-o1-Open-PRM外，其他開源PRM均未針對程式碼類任務進行專門最佳化，故不進行程式碼任務的相關對比。

詳細技術報告也將在不久後釋出。目前模型和相關介紹在Huggingface開源。

開源地址：https://tinyurl.com/skywork-o1

強推理以及自我反思的能力是如何練成的？

Skywork o1在邏輯推理任務上效能的大幅提升得益於天工三階段自研的訓練方案：

推理反思能力訓練：透過自研的多智慧體體系構造高質量的分步思考，反思和驗證資料。透過高質量的、多樣性的長思考資料對基座模型進行繼續預訓練和監督微調。
推理能力強化學習：團隊研發了最新的適配分步推理強化的Skywork o1 Process Reward Model（PRM）。實驗證明Skywork-PRM可有效的捕捉到複雜推理任務中間步驟和思考步驟對最終答案的影響。結合自研分步推理強化演算法進一步加強模型推理和思考能力。
推理planning：基於天工自研的Q*線上推理演算法配合模型線上思考，並尋找最佳推理路徑。這也是全球首次將Q*演算法實現和公開。Q*演算法落地也大大提升了模型線上推理能力。

關於天工 Q*演算法，更多詳情可見：https://arxiv.org/abs/2406.14283

亮點功能與實測

Skywork o1模型具有以下能力和亮點功能：

模型思考和規劃能力
模型自我反思能力
模型自我驗證能力

相較於此前（長文字任務）大模型，無論是常識推理問題、邏輯推理問題、數學推理問題、倫理決策問題、還是“弱智”（類似腦筋急轉彎）邏輯陷阱問題等，Skywork o1都處理的遊刃有餘。整體來說，Skywork o1 Lite和Skywork o1 Preview線上版本在複雜問題分析、思考反思過程、輸出答案質量上均有大幅提升。

首先，我們拿一道「2024年全國碩士研究生入學統一考試數學(一)試題」考考它（如下圖所示），測試一下它的“智力水平”。

崑崙萬維「天工大模型4.0」o1版（Skywork o1）正式啟動邀請測試

面對難度不小的最新考研數學題，Skywork o1 Preview儘管花費了一些時間，但還是一步步推理出了正確結果。

那麼，之前大模型經常翻車的比大小問題，Skywork o1現在的回答水平如何了？

崑崙萬維「天工大模型4.0」o1版（Skywork o1）正式啟動邀請測試

從它的思考過程可以看出，Skywork o1的模型思考和規劃能力大幅提升。這個解題邏輯非常像人類的思考方法了，“如果整數部分相同，那麼就要開始比較小數部分了”。透過嚴謹的推理過程，準確得出8.8大於8.11，且多給出了一步差值計算。

此外，模型自我反思能力和自我驗證能力也都有長足進步。Skywork o1可以準確識別出“nǐ hǎo hěn gāo xìng rèn shí nǐ”，還可以給出後續對話建議。

崑崙萬維「天工大模型4.0」o1版（Skywork o1）正式啟動邀請測試

儘管我們讓它回答存在中文讀音“陷阱”的問題——“請將qíng rén yǎn lǐ chū xī shī轉換為中文”，它也沒有被我們繞進去。充分展示了中文邏輯問題思考中的反思能力，它主動發現了“西詩”是不對的說法，而是“西施”。

同樣的，對於之前的大模型來說，“算24點”的遊戲很容易把模型搞崩潰了，但是對於Skywork o1來說，可謂是小菜一碟。它不僅給出了正確答案，重點是它在過程中進行了「自我驗證」。它在計算過後，又檢查了一遍，確認過程和答案全部符合命題要求，才給出最終答案。

崑崙萬維「天工大模型4.0」o1版（Skywork o1）正式啟動邀請測試

除了上述給出的數學推理、比大小、中文邏輯以及24點計算的任務外，Skywork o1在其他複雜的場景也有較好表現：

競賽數學：Skywork o1拿到2024 AIME第一題（如下圖所示），也從容應對。計算邏輯清晰、公式展示流暢，計算時長也明顯具有優勢。

崑崙萬維「天工大模型4.0」o1版（Skywork o1）正式啟動邀請測試

密碼解密：在複雜密碼解密任務中，Skywork o1擁有強大的自我探索和推理能力。

崑崙萬維「天工大模型4.0」o1版（Skywork o1）正式啟動邀請測試

在已知「原文→密文」的前提下，經過一系列複雜推理後成功給出答案（如下圖所示）。

崑崙萬維「天工大模型4.0」o1版（Skywork o1）正式啟動邀請測試

如果反過來呢？已知一段「密文→原文」，能否找出新密文所對應的原文。Skywork o1表示小菜一碟。

崑崙萬維「天工大模型4.0」o1版（Skywork o1）正式啟動邀請測試

智力問答：在複雜的中文推理問題上，Skywork o1表現優異，並給出了完整的思考鏈路。

崑崙萬維「天工大模型4.0」o1版（Skywork o1）正式啟動邀請測試

最後，再讓我們再給他出一些有趣的“弱智”問題，來看看它的回答是不是合理。

為什麼我爸媽結婚的時候沒邀請我參加婚禮?
被門夾過的核桃，還能補腦嗎？
午餐肉，我可以晚上吃嗎?

崑崙萬維「天工大模型4.0」o1版（Skywork o1）正式啟動邀請測試

令人驚喜的是，Skywork o1不但沒有被問題繞進去，還分析的頭頭是道，甚至透露出“大智慧”，引申出了一些更底層的思考。

進階版的複雜人類思考能力的解鎖也將進一步在垂類領域增強大模型的應用，例如：

中英文常見邏輯推理和複雜任務，如數學/程式碼類任務，科學研究
高質量內容生成，如創意寫作，行業報告寫作
深度搜尋，解鎖複雜搜尋任務的拆解

2024年以來，崑崙萬維天工AI持續進化，陸續釋出了「天工2.0」、「天工3.0」、「天工大模型4.0」4o版——Skywork 4o，以及今天正式釋出的「天工大模型4.0」 o1版（Skywork o1），不僅是我們貫徹“All in AGI 與 AIGC” 戰略的重要舉措，更是我們構建AI技術棧的重要一步。我們將秉持“實現通用人工智慧，讓每個人更好地塑造和表達自我”的使命，從模型層、應用層等全方位、多維度來構建公司技術競爭力和生態矩陣。

測試地址

「天工大模型4.0」 o1版（Skywork o1）開啟測試

嚐鮮地址：www.tiangong.cn

相關文章