Kimi又上新!搶先實測視覺思考模型k1,甚至比o1更聰明

机器之心發表於2024-12-16

用強化學習,改變大模型技術正規化。

國產大模型,正在引領 AI 技術新方向。

今天上午,月之暗面 Kimi 正式釋出了視覺思考模型 k1,並已經上線了最新版的網頁版以及安卓和 iOS APP。使用者只需要在對話方塊中輸入 @,然後選擇「Kimi 視覺思考版」即可開始自己的 AI 視覺推理之旅。這是繼上個月 k0-math 釋出之後,Kimi 在推理模型上跨出的又一大步。

它是 Kimi 的首個視覺思考模型,在 k0-math 的基礎上,k1 的推理能力不僅大大提升,還突破了數學題的範圍,進入了更廣闊的天地。

據介紹,k1 模型基於強化學習技術打造,原生支援端到端影像理解和思維鏈技術,並將能力擴充套件到數學之外的更多基礎科學領域。在數學、物理、化學等基礎科學學科的基準能力測試中,初代 k1 模型的表現超過了全球標杆模型 OpenAI o1、GPT-4o 以及 Claude 3.5 Sonnet。

圖片

此外,k1 的影像理解能力還可以解決之前 kimi 數學推理模型 k0-math 無法解決的許多幾何圖形問題。在基礎教育各階段的幾何和圖形題專項基準能力測試中,k1-preview 成績打平或超過了 OpenAl 的 o1 模型。

圖片

除了推理能力大幅提升,k1 的強大視覺能力也值得稱道。它可以識別各種真實的拍題場景,處理各種複雜的狀況,比如照片影像不清晰、多題一起拍、手寫字跡干擾,甚至純手寫的題目。

圖片

更重要的是,k1 的強大推理能力與視覺能力還以一種端到端的方式組合到了一起,這意味著我們可以直接理解使用者輸入的圖片資訊並進行深度推理,而不像之前的多階段方法那樣容易出現資訊丟失的問題。

這種視覺能力和推理能力的端到端有機結合正規化帶來了顯著的收益,讓 k1 在真實應用場景中的效能相比於 OpenAl 和 Anthropic 的視覺模型有了大幅提升:在模擬環境中的初級和高階的數學、物理、化學題目上,k1 的最低正確度分數(38.7 / 高階物理)也顯著高於 OpenAl 和 Anthropic 的視覺模型的最高分數(32.0 / 高階化學)。

圖片

此外,k1 還展現出了其它一些湧現能力,包括古代文獻分析、梗圖理解、基於照片推斷地點等等。這些湧現能力大大提升了 k1 在日常生活中的實用性。

k1 的分數表現著實不錯,實際表現如何呢?下面我們直接略過官方示例,親自動手檢驗一下 k1 的真實世界能力。

從做題到梗圖理解:

k1 將強大視覺推理帶入日常生活

現在,我們在最新版手機 APP 或網頁版 Kimi+ 頁面上找到「Kimi 視覺思考版」,即可拍照或傳圖體驗。

Round1: 數學題

我們在網上找到了一個手寫的高中數學題來檢驗 Kimi k1 的視覺和數學推理能力。

圖片

圖源:YouTube 題中說題

龍飛鳳舞的手寫題目讓 k1 「費了些功夫」,不過最終還是得到了正確答案:

圖片

有意思的是,k1 在解答這個數學題的過程中還展現出了一定的反思能力。

圖片

Round2: 物理題

我們又找了一道高一物理題。正確答案選 C。

圖片

k1 不僅可以用正確的方式完成任務,還完整展示了推理思維鏈 CoT,讓我們不只看到答題結果,也能完整看到模型思索答案的全過程。

圖片

Round3:輔助學習化學

測了數學和物理題,化學自然也不能錯過。這一次我們不暗示任何背景資訊,直接給出圖示,看看 k1 的表現如何。

圖片

結果可以說是有點驚喜了。

k1 不僅很快分析指出這是一個化學反應的圖示,而且還詳細地說明了該裝置的具體實驗目的以及圖片中各種器皿和化學物質的作用。而且對於我們的進一步追問:「如果將稀鹽酸換成稀硫酸會發生什麼?」k1 也給出了超出預期的解答 —— 它不僅說明了反應過程和化學方程式,還指出了生成的硫酸鈣可能阻礙反應充分完成的問題及相關原因。

圖片

我們還進行一些稀奇古怪的測試。比如讓它識別不熟悉的瓜果蔬菜、解讀看不懂的梗圖以及分析古代文獻等。

Round4: 不熟悉的水果

下圖展示的奇葩水果名為刺角瓜,又被稱為非洲角瓜、火參果等。

圖片

把它「喂」給 k1 進行識別。k1 很快就判斷出這是非洲角瓜,但又經過一番反思,推翻之前的答案,最終猜出是火參果。

圖片

火參果和非洲角瓜本是同一種水果的不同稱呼,因此我們繼續提問:火參果是非洲角瓜嗎?

這次,k1 經過 6 步推理和驗證,終於給出正確答案。

圖片

Round5: 看不懂的梗圖

當初蘋果推出 iPhone16 時,網友拿這張梗圖來嘲諷蘋果創新「擠牙膏」,iPhone16 和 iPhone15 幾乎沒啥太大的區別。

圖片

k1 揣摩了這張梗圖背後的各種幽默元素,比如諷刺那些總是追求最新產品的人,即使這些新產品並不總是有顯著的改進;每年新產品釋出時的代際差異;調侃人們對於品牌和型號的過度關注等。

圖片

對於微妙的諧音和雙關語梗,k1 也能相當出色地把握。

圖片

k1 準確地理解了這張圖背後多層趣味,比如通常推崇簡樸的僧人在喝與現代性密切關聯的咖啡所形成的反差感、咖啡因來自咖啡果以及佛教因果觀的微妙聯絡。

圖片

Round6:古代文獻分析

此外,Kimi 官方還展示了一個非常有趣的湧現能力,即能夠識別和分析古老的科學手稿。官方的示例中,k1 成功分析出了一份出自伽利略之手的手稿。我們在這裡找了一張《天工開物》中的圖片,再次檢驗了它的這個能力。

圖片

此外,我們還讓其做了進一步的原理解析。

圖片

實測下來,我們發現,k1 的整體表現確實超出了我們的預期。另外,如果明確指示 k1「一步步地」執行分析或推理,k1 往往能夠發揮自己的更大實力。感興趣的使用者在實際使用時可不要忘記這個小技巧。

大模型的下個方向:

強化學習 Scaling

當前的 AI 領域中,有關大模型「Scaling Laws 終結」的觀點正在興起。上週五,OpenAI 前首席科學家 Ilya Sutskever 又喊出「預訓練即將終結,網際網路中的資料已被利用殆盡」,引發了人們的關注和思考。

大模型的未來應該走哪個方向?現在或許已經到了不得不做抉擇的分叉口。

圖片

在月之暗面看來,規模的擴充套件是支撐 AI 技術在過去幾年裡發展的重要因素,但 Scaling 並不只意味著模型的體量,現階段應該尋找新的有效擴充套件方向。

月之暗面選擇的方向是基於強化學習來擴充套件。如果說大模型基本的預測下一 token 方式具有一定的侷限性,只基於靜態資料集無法探索較複雜的任務,那麼加入強化學習的預測則可以在思考過程中生成更多資料,並實現思考能力的提升。

從模型訓練的角度看,k1 視覺思考模型的訓練分為兩個階段:先透過預訓練得到基礎模型,再在基礎模型上進行強化學習後訓練。在強化學習規模化(scaling)上取得的突破,是 k1 取得行業領先成績的關鍵原因。

在數學這樣的場景中,新形態的 AI 模型可以透過不斷試錯驗證「積累經驗」,在不用和外界互動的情況下鍛鍊思考能力。就像人類在遇到難題時,先分析問題、探索不同的解決方案、嘗試各種方案、反思,不斷改進策略的方式一樣,基於強化學習技術的新一代模型,透過激勵模型生成更詳細的推理步驟,可以形成高質量的思維鏈 CoT,顯著提升瞭解決更復雜、更難任務的成功率。

基於強化學習的「思考模型」,未來或許還能給我們帶來更加強大的互動體驗。

相關文章