阿里巴巴的人工智慧研究團隊 Qwen釋出了 QVQ-72B-Preview,這是一種可以分析影像並從中得出結論的新開源模型。雖然它仍處於實驗階段,但早期測試表明它在視覺推理任務方面特別出色。
要點:
- 阿里巴巴 Qwen 研究團隊釋出了 QVQ-72B-Preview,這是一個開源語言模型,能夠分析視覺資訊並從影像和指令中得出複雜的結論。
- 該模型以循序漸進的方式處理資訊:它讀取影像和指令,分析內容,得出結論,並輸出預測和置信度值。在基準測試中,該模型在數學和物理方面的表現優於同類模型。
- 儘管 Qwen 功能強大,但它也存在一些侷限性,例如混合語言、陷入邏輯迴圈以及失去對影像的關注。該團隊的目標是解決這些問題,並整合其他模式,以在未來建立一個“全能”模型。
該模型透過逐步思考來解決問題,類似於我們從其他所謂的推理模型(如OpenAI 的 o1或谷歌的 Flash Thinking)中瞭解到的。當使用者輸入影像和指令時,系統會分析資訊,在必要時花時間進行思考,併為每個預測提供帶有置信度分數的答案。
從本質上講,QVQ-72B-Preview 是基於 Qwen 現有的視覺語言模型Qwen2-VL-72B構建的,並增加了思考和推理功能。Qwen 表示,這是同類中第一個開源模型。雖然它看起來與他們最近釋出的QwQ 推理模型很相似,但該團隊尚未解釋這兩個模型是否相關或如何相關。
為了測試該模型,Qwen 使用了四個不同的基準:MMMU 測試大學水平的視覺理解能力,MathVista 檢查它透過數學圖表推理的能力,MathVision 使用數學競賽問題挑戰它,OlympiadBench 用中文和英文測試奧林匹克級別的數學和物理問題。
在這些測試中,QVQ 的表現全面優於其前身 Qwen2-VL-72B-Instruct,達到了與 OpenAI 的 o1 和Claude 3.5 Sonnet等閉源模型相似的準確度水平。
QVQ 預覽
Qwen 承認,該模型仍存在一些侷限性。它可能會意外地在語言之間切換,或者陷入迴圈推理迴圈——這些問題甚至連 OpenAI 的 o1 都還沒有解決。在執行復雜的視覺推理任務時,該模型有時會忘記自己正在看什麼,這可能會導致幻覺。該團隊還表示,在模型準備好廣泛使用之前,需要更強大的保護措施。
Qwen 將 QVQ 描述為他們今年的“最後一份禮物”,並將其視為邁向更大目標的一步:在通往通用人工智慧 (AGI) 的道路上建立他們所謂的“全知智慧模型”。與 OpenAI 的 GPT-4o 一樣,該團隊計劃構建一個統一的“全能”模型,以應對更復雜的科學挑戰。
該團隊解釋說:“想象一下,人工智慧可以研究複雜的物理問題,並像物理學大師一樣自信地有條不紊地推理出解決方案。”
QVQ 的開原始碼和模型權重可透過專案頁面獲取,並在 Hugging Face 上提供免費演示。