2024 年 12 月中旬,前 OpenAI 首席科學家 Ilya Sutskever 在 NeurIPS 大會上發表了一個驚人的觀點:Scaling law 正在放緩,預訓練時代即將結束,未來的研究方向將更加註重推理能力的提升。
如果 Ilya 的預測為真,那我們現在其實正在經歷一場大模型發展路線的正規化轉移。
在國內,不少從業者也觀察到了類似趨勢。崑崙萬維董事長兼 CEO 方漢曾提到,「從目前的情況來看,訓練的 Scaling Law 其實還是有所放緩的,但是基於慢思考的、推理的 Scaling Law 又開始湧現。」
與此同時,國內外很多公司都在加碼多模態。因為隨著大模型應用範圍的擴大,單一模態的侷限性正變得愈發明顯,只有實現多模態融合,使用者才能獲得更豐富的體驗。
不過,在國內,能做到兩條線齊頭並進的公司還非常少。
崑崙萬維就是其中之一。2024 年 11 月,機器之心報導了這家公司的兩個大模型 —— 天工大模型 4.0 o1(Skywork o1)和天工大模型 4.0 4o(Skywork 4o)。
但令人意外的是,2025 年第一週剛過完,這兩個模型就一起上線了!而且是全量上線,免費用。
開啟天工 web 端網站,由 Skywork o1 加持的各項功能就會出現在眼前。o1 的提升主要體現在推理能力方面,在數學、程式碼、中文邏輯推理等問題中表現突出。
可以看到,在拿到一個提示後,Skywork o1 不會立馬給出答案,而是一步一步去推導正確答案。與之前的「快思考」模型相比,這種「慢思考」的模式更適合去解決現實世界的複雜問題。
天工 web 端地址:https://www.tiangong.cn/ (點開立即體驗 Skywork o1)
Skywork 4o 則有著擬人的語音對話能力,而且延遲低、可打斷、音色逼真、情感豐富…… 利用這一模型,天工技術團隊打造了實時語音對話 AI 助手 Skyo,透過天工 APP 的 Skyo 入口對外開放。
Skywork o1 表現如何?
當大模型學會複雜推理,一些原本很難解決的數學、程式碼等問題往往會迎刃而解。Skywork o1 的表現就證明了這一點。
在數學相關的基準測試中,Skywork o1 Preview 在包含數十道數學競賽級別難度的測試問題的 AMC-23 中達到了 SOTA,在 AIME-24 和由國際數學奧林匹克等高難度數學競賽題組成的 OlympiadBench 也取得了不錯的成績,僅次於 OpenAI 的 o1-mini。
在程式碼相關的基準測試中,Skywork o1 的表現也令人印象深刻。例如,在 HumanEval 和 MBPP 測試中,Skywork o1 preview 分別取得了 94.5 和 93.4 的高分,前者僅次於 o1-mini,後者比 o1-mini 高出 4.4 分。此外,Skywork o1 團隊還專門建立了一個私有評估集,用於更好地評估類 o1 模型的思考、規劃以及反思等能力。這個評估集包含 20 種問題型別,每種問題型別包含 30 條不同難度或約束條件的問題樣本。下表列舉了在該評估集上 skywork o1 對比主流大模型的效能差異。結果顯示,Skywork o1 的能力顯著優於常規通用大模型,表現僅次於 o1-mini。為了驗證模型的真實能力,在 Skywork o1 全量開放的第一天,機器之心就進行了測試,全方位考察了該模型覆蓋思考、反思和驗證過程的推理能力。首先來看 Skywork o1 能不能應對「海龜湯題」,這是一類沒有標準答案的開放性問題,透過設定一個故事情節來推導背後可能的深層原因, 用以考察大模型對故事內容、隱含資訊等的篩選、理解、分析、關聯性推理能力。從結果來看,Skywork o1 初步具備瞭解讀這類問題所需的能力,針對故事場景,透過發散性思維與聯想給出了它自己以及我們也認為合理的解釋。再考它一道益智類「過河」問題,往往涉及多個人物、動物或物品,在遵守一定規則和限制條件的情況下,最終完成完全渡河的目標。此類問題主要考察大模型的邏輯推理、問題拆解和規劃能力,Skywork o1 很擅長此道。經典的「真話者與說謊者」問題可以用來考察大模型的問題解構與重構、逆向思維能力,Skywork o1 遊刃有餘,直接抓住了破解的關鍵點。公務員行測中的類比推理題對 Skywork o1 來說是手拿把掐,此類問題主要考察大模型對集合概念、內在邏輯關係、跨學科常識知識的綜合分析、歸納與判斷能力。如下準確 get 到了抽象概念與學術領域相關的類比推理。2025 管理類聯考中的一道邏輯推理題,考察了大模型的演繹推理、資訊整合與分析、空間排列理解等多方面的能力。Skywork o1 也能正常應對。這次,我們在數學能力測試上給 Skywork o1 上了難度,讓它做兩道 2025 考研數學一的試題。首先是一道填空題,考察了機率知識。經過一番縝密的思考與推理,Skywork o1 答對了。然後是一道單選題,主要考察線性代數中矩陣秩(Rank)的相關概念以及在矩陣乘法中的應用,要求 Skywork o1 分析和驗證不同秩關係,並利用已知條件進行推理和證明。從解題過程來看,它具備了比較紮實的線性代數基礎和嚴密的數學推理能力。目前,Skywork o1 可以解決不同難度和技術領域的程式碼問題,比如「反轉字串裡的單詞」。一番體驗下來,我們的最大感受是:從思考全鏈路、答案詳實度與準確度、實際體驗等多個維度來看,Skywork o1 稱得上全能型高質量選手了。Skywork o1 在邏輯推理任務上效能的大幅提升主要得益於天工自研的三階段訓練方案。第一階段是推理反思能力的訓練,資料是其中的側重點。其實,在 OpenAI o1 推理模型釋出之前,Transformer 作者 Aidan Gomaz 等人就提到,AI 模型不擅長推理並不是因為推理本身很難,而是網際網路上沒有太多展示推理過程的訓練資料,Cohere、OpenAI 和 Anthropic 等公司一直在收集這類資料。在打造 Skywork o1 的過程中,研究團隊也在資料上下了很大功夫。透過自研的多智慧體體系,他們構造了高質量的分步思考、反思和驗證資料,並透過多樣的高質量長思考資料對基座模型進行繼續預訓練和監督微調。為了提高這一階段模型的訓練效率和邏輯推理能力,他們還在版本迭代中大規模使用了自蒸餾和拒絕取樣。第二階段是提高推理能力的強化學習。Skywork o1 的工作方式是分步推理,確保每個步驟的正確性對於最終結果的正確性非常重要。為此,研究團隊研發了適配分步推理強化的 Skywork o1 Process Reward Model(PRM),而且在短期內實現了新版本迭代。與主要側重於數學和程式碼的上一個版本相比,新版 PRM 增加了對更多常見推理領域的支援,例如常識推理、邏輯陷阱、倫理決策等。此外,在模組化評估方面,Skywork-PRM 還側重最佳化了對 o1 風格思維鏈的試錯與反思驗證能力的支援,細粒度地為強化學習與搜尋提供了更準確的獎勵訊號。實驗證明,Skywork-PRM 可有效地捕捉到複雜推理任務中間步驟和思考步驟對最終答案的影響,結合自研分步推理強化演算法進一步加強模型推理和思考能力。第三階段是推理規劃。Skywork o1 團隊基於天工自研的 Q * 線上推理演算法,配合模型線上思考,尋找最佳推理路徑。Skywork o1 團隊自研的 Q * 演算法,這也是全球首次將 Q * 演算法實現和公開。圖源:論文《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》。論文連結:https://arxiv.org/pdf/2406.14283前面提到,透過使用高質量和多樣化的長思考資料,研究團隊對基座模型進行了預訓練和監督微調,從而使其具備了結構化輸出回答的能力。這種能力體現在 Skywork o1 能夠對推理過程進行統籌規劃,並實現模型回答的自動化分層輸出。在這一過程中,Skywork o1 還會穿插進行反思和驗證,以確保推理的準確性。考慮到這類模型的回答通常比傳統模型更長,如果使用以句子為單位的規劃方法,會顯得效率低下,並且容易導致過度思考。因此,Skywork o1 採用了一種新的規劃方式,即以模組作為規劃的步驟單位。這種模組化的樹形結構推理不僅提高了規劃效率,還使得 Skywork o1 的 PRM 能夠更完整地觀察到模組化的回答,從而做出更準確的判斷,並指導 LLM 進行更有效的推理。為了避免模型在回答簡單問題時過度思考。Skywork o1 還採用了自適應分配搜尋資源的方式,在搜尋開始之前對使用者 query 進行難度預估,自適應地控制搜尋樹的寬度和深度,在簡單的問題上做到快速給出回答的效果,在複雜題目上做到反覆多輪驗證從而提高回答的準確率。Skywork 4o 加持的 Skyo 和真人有多像? 自從 OpenAI 釋出 GPT-4o 以來,行業和使用者對語音大模型的需求已經發生了變化:他們不單單追求自然、實時和準確的回覆,還希望 AI 能夠儘可能讀懂對話中的情緒並給予相應的情感反饋,這就在情緒感知、情感共鳴方面提出了更高的要求。實現以上這些在技術上面臨著一些挑戰,比如在資料層面,高質量、多樣性和代表性的資料獲取往往成本高昂,採集資料後還需要專業人員對包含各種噪聲、口音、語速的語音資料進行標註。同時,更強的情緒感知和回應需要準確識別使用者語音的音調、節奏、音量、語氣等細微且複雜的變化,並在回答時根據情境調整語氣和語調。總之,需要克服的問題不少。Skyo 利用超過百萬小時的語音資料進行了大模型預訓練,學習到了真實世界各種場景、不同風格的說話表達方式,在回覆時的語速、語調、情感方面不再幹巴巴,變得更加自然、更加多變、更有人情味。也得益於端到端建模(而非傳統的 ASR + NLU + TTS 三階段的級聯方案),Skyo 能夠像人類一樣,能聽懂使用者的語音,並提供了高質量互動能力(包括極低延遲、實時打斷)和自然、流暢的互動體驗,使用者也能快速獲得智慧的語音回應。上圖為 Skyo 所採用的語音對話方塊架,專為全雙工端到端語音對話設計,方便使用者透過自然的對話方式與智慧系統交流。整個框架可以分為以下幾步:- 語音輸入(Speech Query)與語音編碼(Speech Encoder):使用者透過語音表達自己的問題或請求,這些語音被系統接收,作為對話的起點。系統利用語音編碼器將接收到的語音訊號轉換為語義表示。
- 適配轉換(Adapter):語音的語義表示透過適配模組的模態對齊被調整為大語言模型(LLM)能夠理解的格式,為語音與文字語義的無縫對接提供支援。
- 大語言模型(LLM):經過適配的語音資訊被輸入到核心智慧模型(LLM),模型透過多模態的處理能力理解語音意圖,並生成相應的解決方案或回答。
- 語音輸出(Speech Token):系統支援直接輸出語音 token(Speech Token),透過擴散模型將這些 token 還原為真實語音,實現從語音輸入到語音輸出的端到端互動。從體驗效果中我們能感覺到,Skyo基本能做到「像和真人一樣說話聊天」的效果,兩個影響體驗的關鍵因素——響應速度和回覆的自然流暢程度——都最佳化得非常好。由此可見,端到端建模的方式確實存在明顯優勢,它讓 Skyo 不再僅僅是一個語音轉錄後進行理解問答的工具,而是成為了聲音領域的智慧專家。2025 年,大模型競爭進入 Next Level這段時間,關於 2025 年 AI 趨勢的分析多了起來,大家不約而同地提到了一些關鍵詞,比如推理時間計算、AI 智慧體、空間智慧、AI 應用…… 顯然,大模型的競爭即將進入 Next Level。當然,並不是所有的企業都可以繼續走下去。除了算力這種攔路虎,技術路線的環環相扣也是一個重要因素。比如要想做好 AI 智慧體,模型的推理能力要足夠強;要想做好空間智慧和 AI 應用,多模態能力至關重要。畢竟,現實生活中的很多需求都是多模態而不是純文字的,模型對真實物理世界的感知也要建立在強大的多模態理解能力之上。在眾多做大模型的國內公司中,崑崙萬維是模型能力較為全面的一家。這些能力彼此增益,幫助崑崙萬維實現了模型能力的快速迭代,也讓他們在潛在應用的探索中擁有更高的自由度。截至目前,崑崙萬維已經在應用領域取得了不少成果,比如推出了最懂金融、學術的天工 AI 搜尋,AI 音樂創作平臺 Mureka,AI 短劇平臺 SkyReels,AI 社交產品 Linky 等。對於這樣的成績,崑崙萬維創始人周亞輝在朋友圈發文表示,「崑崙萬維 24 年的 AI 戰略我自己也打滿分,原因是足夠差異化,找到了自己小而大美的空間。」更重要的是,這些已經取得的技術、產品成果讓崑崙萬維在實現其長期目標 —— 通用人工智慧(AGI)的道路上,顯得尤為堅定和有信心。2024 年初,崑崙萬維釋出了新使命 —— 實現通用人工智慧,讓每個人更好地塑造和表達自我。周亞輝認為,AGI 時代也可以叫做機器人時代。AGI 時代的標誌是機器人開始真正進入人類社會,進入到人們工作和生活的方方面面的場景中。不過,要想進入這個時代,需要解決空間智慧大模型的構建、運動控制技術的改進、機器人的保值增值能源能耗這三大問題。目前,對推理大模型和多模態大模型的研究正逐步為這些技術難題提供解決方案。這些研究可能是通往 AGI 時代的必經之路。未來一年,我們期待崑崙萬維在 AI 領域的發展能夠帶給大家更多的驚喜。