多模態也做到了強推理!工業界首個開源的R1V,讓視覺思考進入o1時代

机器之心發表於2025-03-18

DeepSeek-R1 問世後,我們一直在期待能「強推理、慢思考」的大模型進化成多模態模式。如果能在視覺等各領域復刻強化學習(RL)在文字上的突破,AI 應用勢必會將更多領域推入新的正規化。

毫無疑問,這也是眾多科技公司正在探索的方向。

3 月 18 號,崑崙萬維正式釋出 Skywork R1V(以下簡稱 R1V)系列模型,實現了 SOTA 級別的視覺推理和強大的通用推理能力。隨著新模型的到來,崑崙萬維成為了國內第一家開源多模態思維鏈推理模型的企業

目前,崑崙萬維已經開源了 R1V 的模型權重和技術報告。

  • Hugging Face 地址:https://huggingface.co/Skywork/Skywork-R1V-38B

  • Github 地址:https://github.com/SkyworkAI/Skywork-R1V

  • 技術報告地址:https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V.pdf

具體表現如何呢?從多項基準測試來看,R1V-38B 相比較文字推理模型,已經在數學推理、程式碼生成等任務中達到了領先水平,在部分任務上接近了更大尺寸的閉源模型。相比較傳統多模態模型(如 OpenAI 4o、Claude 3.5 Sonnet),R1V 的推理能力更是遙遙領先,相比多模態開源大模型 DeepSeek V3 也有所提升。

在推理能力方面,R1V-38B 同樣可以達到頂尖水平。在權威的 MATH500 和 AIME 數學推理基準測試中,R1V 分別取得了 94.0 和 72.0 的高分,並在邏輯推理和數學問題求解上展現出了人類專家級水準,從而在行業內眾多主流模型中脫穎而出。

而在視覺能力方面,R1V 成功實現了強文字推理能力的多模態遷移,在視覺推理任務上表現出色,憑藉著創新的跨模態遷移技術與最佳化框架,R1V 在 MMMU 與 MathVista 等視覺推理基準中分別取得了 69 和 67.5 的成績,不僅超越了多個開源競品模型,更達到了與更大規模閉源模型媲美的水準。

更值得關注的是,R1V 成為全球範圍內首個在數學推理能力上接近 OpenAI o1 的開源多模態模型

最近一段時間,DeepSeek 的突破讓我們看到了在大模型上引入強化學習的潛力。現在,崑崙萬維的實踐似乎也已經給多模態開啟了方向。

多模態喜獲「強推理」

AI 應用格局開啟

崑崙萬維表示,R1V 視覺推理模型可以同時處理文字與視覺資訊,擁有強大的跨模態推理能力,可輕鬆應對複雜的邏輯推理、數學問題、科學分析以及醫學影像診斷等場景。

因為多模態 + 強推理的能力,大模型「睜開了眼睛」,因此也擴充了一大堆新的應用方向。

我們蒐羅了一些不同學科(包括數學、化學、醫學等)的題目,對 R1V 的解題推理能力來了一波考察。

先來一道 2025 考研數學題目:

圖片

很快,R1V 的完整解題思路和正確答案就展現了在我們面前:

圖片

接著讓 R1V 分析下圖化學分子式描述的是哪種立體幾何構型:

圖片

這類題目要求多模態推理模型熟練、準確地判斷、區分各類化學分子圖,經過了抽絲剝繭的推理過程,R1V 給出了正確答案。

圖片

R1V 的知識面還不止於此,它甚至還略懂醫學影像,看看它是如何診斷這張 CT 圖片的。當然,分析結果僅供參考,最終的診斷和治療還是要交給醫生,由他們根據實際情況來做出。

圖片

最後,我們還測試了 R1V 的其他視覺推理能力,比如柱狀圖的數值分析:多模態也做到了強推理!工業界首個開源的R1V,讓視覺思考進入o1時代

可見,無論是數學等不同學科的一般性問題,還是一些更需要「眼力見」的視覺場景,R1V 都可以應付自如。

三大核心技術創新

讓開源視覺思考模型成功「上位」

為什麼到了 R1V 的程度,多模態上的強推理就能跑通了?在 R1V 釋出的技術報告中,我們可以瞭解到其中的技術創新。

視覺多模態的特殊性決定了其推理與數學、邏輯等自然語言推理的不同,前者要解決跨模態對齊等一系列挑戰。儘管當前的視覺語言模型(VLM)在描述性任務(比如為影像生成連貫且上下文相關的文字描述)方面表現出色,但它們在幾何證明、科學問答等涉及深度邏輯的多模態任務中仍然不如單模態系統。

圖片

圖片來自英偉達部落格:https://developer.nvidia.com/blog/vision-language-model-prompt-engineering-guide-for-image-and-video-understanding/

對此,學界提出將具有推理能力的語言模型整合到 VLM 中來增強後者的推理能力。雖然這一方案很有潛力,但實現過程中也面臨挑戰。比如,推理任務的獨特性要求在訓練時使用專門的推理格式的資料,然而當前的 VLM 資料集主要由非推理內容組成,即使是一些包含 VLM 思維鏈的示例,往往缺乏高階推理任務所需的複雜性。

此外,VLM 的推理能力提升也依賴多模態表徵學習、知識增強、模組化架構設計等技術層面的協同進步。顯然,崑崙萬維的 R1V 在這些方面做出了突破。

作為一個 VLM 推理模型,R1V 採用高效的多模態遷移方法,最大程度保留了文字推理能力,同時最佳化視覺任務表現。同時,R1V 提出透過混合最佳化策略來加強視覺文字對齊,顯著提升了跨模態整合效率。最後,R1V 引入自適應長度思維鏈蒸餾方法來生成推理資料。

正是有了這三大核心技術的支撐,R1-V 才取得了領先的多模態推理效能。我們接下來一一來解析。

一,高效多模態推理能力遷移。該工作首次提出了利用輕量級 Skywork-VL 視覺投影器,使 R1V 模型實現了無縫多模態適應。這樣一來,無需重新訓練基礎語言模型或視覺編碼器,就能高效地將文字推理能力遷移到視覺任務中,同時將原有優秀的推理文字能力保留了下來。

二,多模態混合式訓練,具體來講是將迭代監督微調(Iterative SFT) 與 DeepSeek-R1 的核心 RL 演算法群組(相對策略最佳化,GRPO)相結合,分階段地對齊視覺 - 文字表徵,達成跨模態任務的高效融合,將跨模態任務的表現提升了一大步。

其中在迭代監督微調階段,對於利用獎勵模型從全部資料中挑選出的高質量資料以及在前序訓練過程中模型未能正確處理的難點資料,進行反覆迭代微調,讓 R1V 持續地鞏固自身知識並自我糾錯,穩步提升視覺推理能力。

GRPO 強化學習階段,不額外引入評判器,僅對 R1V 生成的不同答案進行組內對比學習,最終大幅提升多模態推理的穩定性、精度和泛化表現。

如下為混合最佳化框架的示意圖,包括了三個細化步驟:基於完整資料集的原始訓練、利用自定義資料的迭代訓練以及強化學習。三個階段共同作用,成為 R1V 多模態推理能力提升的關鍵。

圖片

多模態混合式訓練

三,自適應長度思維鏈蒸餾(AL-CoTD)。R1V 引入了一種基於視覺 - 文字複雜度的自適應推理鏈長度控制機制,可以對模型的推理過程進行動態最佳化,在提升推理效率的同時避免模型過度思考。此外結合多階段自蒸餾策略,提升了資料生成與推理過程的質量,確保模型在複雜多模態任務中依然有不俗的表現。

下圖為具體的流程,包括了質量和難度評估模組(QDAM),從視覺評分和文字評分兩個主要維度來系統地評估影像 - 文字查詢對;視覺 - 文字整合分析器(VTIA),透過句法和語義分析確定跨模態整合所需要的深度,並根據影像 - 文字查詢中的模式識別來計算整合評分;動態推理長度控制器(DRLC)以及在此基礎上形成的多階段自蒸餾 pipeline。

圖片

AL-CoTD 流程

除了整體技術方案的最佳化,R1V 的創新性還特別體現在訓練過程中,透過「三階段方法」將文字端強大的推理能力高效遷移至視覺任務上。

首先是視覺語言表徵的初始對齊。訓練時首先使用輕量級的視覺介面卡(MLP)連線視覺編碼器(ViT)與語言模型,在已有的 200 萬條常規多模態資料上進行訓練,使 MLP 初步學習如何將影像特徵對映至語言空間。這一階段僅訓練 MLP 介面卡,在保持視覺編碼器和語言模型的數凍結不變的情況下,快速、高效地達成視覺與語言表徵初步對齊的目的。

其次是推理能力遷移。基於第一階段訓練好的 MLP 介面卡,直接將視覺編碼器與原始的強推理語言模型(R1-distilled-Qwen-32B)連線,形成 R1V 視覺推理模型。雖然此時語言模型的引數發生了改變,但得益於語言模型架構的高度相似性和 MLP 的泛化能力,重組後的模型已能表現出一定的視覺推理能力,初始效能即達到了業內同等規模的先進水平。

最後是視覺與文字模態精準對齊,即上面提到的「混合最佳化框架」,結合迭代監督微調和 GRPO 進一步精準對齊視覺和語言模態表徵。

結果顯而易見,高效的訓練策略帶來了 R1V 視覺推理任務的突破性進展,在跨多學科的不同公開評測基準中達到或超過了現有領先模型的效能,具體可見下表 1(與開源近似尺寸橫向對比)、圖 1 (與開源同等及更大尺寸模型對比)和圖 2 (與開源大尺寸模型以及閉源專有模型對比)。

圖片

表 1:與開源近似尺寸模型橫向對比

圖片
圖 1:與開源同等及更大尺寸模型對比
圖片
圖 2:與開源更大尺寸模型以及閉源專有模型對比

在開源 R1V 模型並公開方法之後,崑崙萬維希望能夠推動全球範圍內的學術研究與產業應用探索。不僅如此,崑崙萬維 Skywork 團隊正在進行從視覺多模態跨越到全模態的技術探索,將包括「文字、視覺、語音」在內所有環節打通並開源。

為此,該團隊設計了一種在 R1V 模型中靈活擴充套件語音模態的方式,從而構建了一個全模態思考大模型,不僅在單個模型中同時實現了影像、影片、語音的全模態理解能力,還在語音和視覺理解評測中取得多項 SOTA 成績。未來將公佈相關評測成績並同樣開源這一全模態思考大模型。

結語

從今年 1 月 DeepSeek-R1 的提出,到人們開始在多模態大模型、甚至自動駕駛的 VLM 中加入 GRPO,僅僅過去了不到兩個月。我們可以看到在這一波開源的浪潮下,AI 領域的發展肉眼可見地再次加速,下一次突破可能已近在眼前。

不過在這股浪潮中,能算得上引領潮流的團隊只是少數。

進入大模型時代之後,崑崙萬維在多模態領域的探索一直引人關注。過去三年,崑崙萬維在音樂大模型、文字大模型和影片模型等方向取得了一系列成績,建立了自己的 AI 產品矩陣,包括懂金融、學術的天工 AI 搜尋、全球首個 AI 音樂創作平臺 Mureka、AI 短劇平臺 SkyReels、AI 社交產品 Linky 等等。

今年 2 月,崑崙萬維釋出世界模型 Matrix-Zero 系列,把探索延伸到了 AI 領域最前沿的方向。在可以模擬物理世界的 AI 模型中,我們可以執行許多實驗和模擬任務,或是完成不同以往的影視創作。再加上今天開源出來的 R1V 大模型,在讓大模型實現多模態強推理之後,AI 面對物理世界獲得了更強大的理解、推理、互動能力。

此舉也彰顯了崑崙萬維在 AI 時代始終秉持的開源初心。過去幾年,這家「All in AGI」的 AI 科技公司在推出前沿大模型及技術的同時,一直透過開源回饋社群與開發者,先後開源了百億級「天工」Skywork-13B 系列、2 千億引數稀疏大模型 Skywork-MoE 和國內首個面向 AI 短劇創作的影片生成模型 SkyReels-V1 等。這些舉措在擴大自身技術影響力的同時,無疑也對開源社群、開發生態和整個 AI 行業的健康發展起到了積極作用。

一面是技術前沿的開拓,一面是更多樣化的整合與落地,崑崙萬維已經形成了「AI 前沿基礎研究 —— 基座模型 ——AI 矩陣產品 / 應用」的產業鏈。

似乎已經可以隱隱聽到 AGI 的腳步聲了。

相關文章