編者按: 視覺功能的融入對模型能力和推理方式的影響如何?當我們需要一個既能看懂影像、又能生成文字的 AI 助手時,是否只能依賴於 GPT-4V 這樣的閉源解決方案?
我們今天為大家分享的這篇文章,作者的核心觀點是:多模態語言模型領域正處於快速發展階段,Llama 3.2 Vision 和 Molmo 等開源模型的出現為構建開放的多模態生態系統奠定了重要基礎。
本文分享了來自 Meta 的 Llama 3.2 Vision 和 AI2 的 Molmo 模型的主要技術架構及其特點,同時比較了它們與眾多多模態大模型的效能表現。文中介紹在多數視覺領域測試中, Molmo 表現更優,Llama 3.2 V 在 MMMU 等文字相關任務中表現更好,目前多模態模型的開源定義仍需進一步探討和完善,但 Molmo 是目前最接近開源的視覺模型。同時還探究了視覺功能的融入對模型能力和推理方式的影響。
儘管目前在評估工具、資料集等方面還存在不足,但開源模型已經展現出與閉源模型相媲美的潛力,這預示著多模態 AI 領域即將迎來新的發展機遇。
作者 | Nathan Lambert
編譯 | 嶽揚
多模態語言模型領域相比純語言模型,顯得定義更為不明確、未解決的問題更多,同時也有更多空間讓人們發揮創意。在語言模型領域,存在一系列明確的任務和行為,那些前沿實驗室正試圖透過例如 OpenAI o1 這樣的創新訓練方法,在最為棘手的推理問題上取得突破。然而,無論是前沿實驗室(frontier labs)還是小型實驗室(small labs),都在探索多模態模型的應用方向。AI如何“感知”和理解外部世界?擁有一系列強大的開放式模型(open models)對於該領域全面且公開、透明的發展至關重要——這是實現積極成果的兩個關鍵條件(譯者注:這兩個條件應當是指全面、公開透明的發展)。
目前,多模態語言模型研究大多是透過 late-fusion 模型進行的,即基於語言主幹網路(language backbone)和影像編碼器(image encoder)(很可能也是 GPT-4V 所使用的方法)進行初始化。 這種對基礎語言模型的微調方式雖然成本較高,但實際上計算成本並沒有人們想象的那麼難以承受。雖然存在多種模型架構[1],但由於 late-fusion 這一架構的穩定性和可預測性,成為了當下研究的熱門選擇。Molmo 和 Llama 3.2 V 就是透過這種方法訓練而成的。
透過在多模態資料集上預訓練的 early-fusion 模型來擴充套件資料的預期效果尚未顯現。或許只有當這些模型在 GPT-5 級別的計算叢集上進行測試時,它們的真正優勢才會顯現出來。
Late-fusion 的多模態方法激發了我們對如何將基礎語言模型轉型升級為多樣化輸出形式的深入探索。回顧過去幾年我們在模型微調領域所採用的各種技術,從 RLHF 開始,到多模態 late-fusion 模型,再到像 o1 這樣的創新模型,我們意識到模型還有大量表達潛能等待我們去發掘。一些基本問題仍然值得關注,比如“多模態訓練會對 GSM8k 或 IFEval 這樣的標準文字評測基準造成何種影響?”在對模型進行視覺方面的微調之後,那些主要用於評估模型知識水平的標準測試,例如 MMLU(Massive Multitask Language Understanding)測試,並沒有發生較大變化。
這個領域對我來說同樣新穎。本文的主要介紹物件是 Ai2 的一個重要模型版本——Molmo[2](開放式多模態語言模型),以及 Meta 的新模型 Llama 3.2 Vision。兩者都推出了一套不同規模的四個模型。它們的效能表現相當,但 Molmo 在開放程度上更勝一籌。
Meta 釋出了 Llama 3.2 的早期版本,包括 1B、3B、11B-Vision 和 90B-Vision[3],並在部落格文章中透露了一些訓練過程的細節[4](文章中還有相關連結)。11B 模型可能是基於 Llama 3 8B 模型的改進版,而 90B 模型則是在 Llama 3 70B 模型的基礎上發展而來的。
Ai2 推出了基於 Qwen 2 72B 打造的 Molmo 72B,基於 Qwen 2 7B 的 Molmo-7B-D,即將問世的基於 OLMo 7B 版本的 Molmo-O,以及基於 OLMoE 並擁有 1B 活躍引數的 Molmo-E。
Molmo 系列模型採用 Apache 2.0 許可協議,而 Meta 模型則採用了 Llama 3.2 社群許可協議,該許可協議對模型的使用施加了一些較為嚴格的限制。
這不禁讓人思考,人工智慧領域的發展將何去何從。實際上,重頭戲是 1B 和 3B 引數規模的 Llama 模型。小型語言模型的市場需求持續攀升,而且隨著這些模型能力的不斷提升,市場潛力還在不斷擴大。我會反覆探討這一話題,但今天我們聚焦的是多模態。
01 Llama Vision:面向大眾開發者的多模態模型
自 Llama 3 報告[5]釋出以來,Meta 已經明確表示這些模型不久將面世(歐盟地區除外)。Meta 正在將它們應用到 Meta AI 以及旗下的擴增實境(AR)/虛擬現實(VR)裝置,例如 RayBan 智慧眼鏡。這些模型非常可靠,比封閉實驗室的小型模型更勝一籌,後者的活躍引數通常估計在 60B 範圍內。
關於這些模型的具體資訊相對較少。若歐盟地區的使用者嘗試從 Meta AI 的官方頁面下載模型,將會看到我在 HuggingFace 平臺上看到的地理限制鎖🔒。
其他使用者可在 Meta AI 中獲取這些模型。不過還有個更重要的訊息,還有一些具有更豐富文件和更高開放性的模型可供使用(且不受地理限制)。
02 Molmo:與 Llama Vision 相當的一個(大部分)開源的模型
Molmo 是 Ai2 最新推出的開源語言模型[6],它附有一份初步的技術報告[7],使用者可以免費體驗模型 demo[8],而且即將公開相應的資料集。該專案的宗旨是構建開源語言模型,讓任何人都有機會參與或理解構建現代 AI 模型的最關鍵部分。Molmo 模型是在 Qwen2 和 OLMo 的架構基礎上,結合了 CLIP 編碼器[9]進行訓練的。但儘管有了這個資料開放的 CLIP 版本[10],研究團隊並沒有選擇這個版本,而是放棄使用它,轉而選擇另一種版本,因為後者下游效能更卓越。請注意,Mistral 的 Pixtral 模型[11]和 Llama 模型都訓練了自己的編碼器。相關部落格文章清晰地闡述了這些組成部分是如何協同工作的:
該模型架構採用了將語言模型與影像編碼器結合的簡潔而標準的設計。整個模型由四個主要部分組成: (1) 一個前處理器,將輸入的單張影像轉換成一系列不同尺度(multiscale)和不同裁剪方式(multi-crop)的影像集合; (2) 一個 ViT 影像編碼器,獨立地將這些影像轉換成一系列視覺 tokens; (3) 一個聯結器,負責將視覺 tokens 轉換為適合語言模型輸入的維度,並透過池化技術減少視覺 tokens 數量; (4) 一個僅包含解碼器的 Transformer 大語言模型(LLM)。
論文中對該模型結構進行了詳細的概述。
請留意,在這些模型的兩個訓練階段中,所有的模型引數都會得到更新,而不是保持不變。此外,這些模型在訓練過程中並未採用RLHF(基於人類反饋的強化學習)或偏好調優技術(preference tuning)。就我們針對視覺模型所設定的基準測試而言,Molmo 模型在效能上可與 GPT、Claude 以及 Gemini 模型相媲美。
相較於 Llama 3.2 V 模型,Molmo 在多數視覺領域的表現更勝一籌。以下是對各個基準測試得分情況的概述:
- 在 MMMU 測試中,Llama模型的得分高出6分;
- 在 MathVista 測試中,Molmo模型的得分領先1分;
- 在 ChatQA 測試中,Molmo模型的得分高出2分;
- 在 AI2D 測試中,Molmo模型的得分領先4分;
- 在 DocVQA 測試中,Molmo模型的得分高出3分;
- 而在 VQAv2 測試中,兩者的得分相近,或者 Molmo 稍佔優勢(Llama 3.2 的部落格文章中對這一處的報告不夠明確)。
以下是 Reddit 上的使用者 LocalLlama[12] 對評估結果的獨立復現。
依我看,這一點也基本符合各組織的追求目標,Llama 3.2 V 在文字方面表現更佳,或許優勢還相當明顯,但在影像方面,Molmo 則更勝一籌。特別是在識別影像中的指向性特徵和讀取時鐘等任務上,Molmo 的表現尤為出色。
正如我將在本文後續部分進一步探討的,基準測試並不能全面反映這些模型的實力。Molmo 對開源和科學界做出了巨大貢獻,但探討這些模型的行為特性同樣重要。Molmo 具備一項獨特的功能,是其同等級模型所不具備的 —— 那就是能夠指向參考圖片中的特定畫素。 例如,我向 Molmo 詢問了一張我的照片中腳踏車的位置[13]。
這種指向性功能是多模態模型在 web agents 應用中最顯著的優點。一旦在模型訓練時融入了足夠的 web 資料,它就能迅速掌握瀏覽所有常規網頁的能力。
當模型被要求對同一張圖片進行描述時,它給出了一個相當詳盡的描述[14],而且相當標準:
圖片是一張 Zoom 通話的截圖,圖片被黑色邊框和白色內框所環繞。在右上角,有一個小視窗顯示另一位參與者,他留著鬍鬚,戴著眼鏡和耳機,身穿一件黑色T恤。他坐在壁爐前,壁爐臺上擺放著照片和書籍。主畫面中的年輕男子有著短短的棕色頭髮和藍色的眼睛,面帶微笑,穿著一件點綴著白色圓點的藍色襯衫。他坐在一個白色牆壁、帶窗臺窗戶的房間裡,背後是一個黑色的架子。架子上陳列著各式物品,牆上還掛著一個腳踏車輪胎。屋內還擺放了幾幅裝框的畫作。螢幕頂端顯示著檔名……
這種詳細的描述得益於新資料集 PixMo 的直接影響,該資料集被用於訓練 Molmo 模型。PixMo 的價值遠遠超出這些早期模型。這個資料集的創新之處在於,它讓標註人員透過音訊而非文字來對圖片做出回應(類似於這篇關於區域性化敘述的研究[15]),這使得他們的資料標註更加富有創造性和描述性。事實上,資料標註人員們非常喜歡這些任務(比如提供指向資料),以至於他們主動要求完成更多工。激發資料標註人員的高度參與度是任何人工資料流程(human data pipeline)的目標,而這在我所見過的案例中是前所未有的。這個資料集有數百萬個樣例,涉及各種各樣的影像。
我們所掌握的有關 Llama 3.2 V 的少數技術細節之一是,它是在 “6B(影像,文字)對” 上進行訓練的,其中大部分可能是合成資料。而 Molmo 則是透過主要由人類產生的數百萬份資料進行訓練。
對於 OLMo 模型,包括 Molmo 在內,最關鍵的差異化因素和戰略是其開放性(openness)。隨著對“開源 AI”定義的討論進行,像這些多模態模型(例如 CLIP)就是很好的案例,可以用來檢驗或“壓力測試”我們對開源 AI 的理解。以下是對 Molmo 模型及其同類模型的開放性比較 —— Llama 3.2 V 的開放性與其他所有權重開源模型(open-weight models)相似。
這些模型都採用了沒有開放資料的視覺編碼器(主要是 OpenAI 的 CLIP),但也有開源的替代方案。公開影像資料風險較高(可能會涉及像 CSAM 這樣的敏感問題),而且過程複雜。Molmo 模型是基於非開源模型進行微調的(並對引數進行了更新),根據開源倡議的最新定義,它們並不能算作開源。但如果 Molmo 只是公開資料的嵌入,而不是原始影像或文字資料,那麼這種做法是否能讓模型滿足開源要求。這就引出了一個問題:當核心權重保持不變並且公開嵌入資料時,模型的開源性是否依舊符合標準?
這與根據其他語言模型(包括非公開模型)的合成輸出訓練出的模型可被視為開源的定義是一樣的。在同時使用多個模型和資料流的領域,開源 AI 的定義還需要進一步的探討。 對於僅使用文字進行預訓練的模型,其“開源”定義原則上是合理的,只需要在一些細節上做出調整。然而,當涉及到微調和多模態時,情況變得更加複雜,因此還需要更多的討論。
基於這些原因,我不會直接宣稱“Molmo 是開源的”,但它無疑是目前最為接近開源的視覺模型。從定義上講,生態系統中最開放的實驗室在戰略上與開源的差距微乎其微。
03 視覺功能的融入對模型能力和推理方式的影響
視覺功能的增加可以被視為一種微調問題,讓我不禁要問,當前頂級模型在處理帶影像和不帶影像的相同提示詞時會有怎樣的表現。在幕後會將 query 路由給不同的模型。對於那些不是 early fusion 模型的,比如 GPT-4 和 Claude,除了推理成本之外,帶有視覺元素幾乎肯定會對效能有所影響 —— 否則,所有的模型都將是視覺模型。而對於像 GPT-4o 這樣能夠原生處理影像資料的模型,這一測試並不適用。
最直接的比較方法就是檢視模型的標準版本和視覺版本對文字任務進行評估的差異。然而,在目前已經發布的模型中,進行這種直接比較的寥寥無幾。即便有,也通常只限於部分評估。在撰寫本文的過程中,我做了一個還算不錯但並不完全詳盡的調查,發現對比資料不足,因此沒法用具體的數字支撐一個有說服力的論點。我的直覺是,在模型中加入視覺處理會使得模型在訓練完成之後透過各種方法(如微調、最佳化等)實現的效能提升(我們在 ChatBotArena 等平臺上觀察到的)變得更加難以實現。
本實驗旨在觀察 GPT-4 和 Claude 3.5 Sonnet 在處理中等難度的推理或程式設計任務時,能否在有影像干擾的情況下正確地忽略非相關資訊。實驗結果顯示,當明確指示模型忽略某些資訊時,它們都能輕鬆做到,並且在後續詢問影像相關問題時,仍能準確理解影像內容。影像的引入可能會導致模型更容易出現之前模型在處理類似任務時遇到的那些典型問題或錯誤。
我首先提出了一個我經常使用的簡單推理問題:“月球能裝下多少高爾夫球?”無論是附有影像還是無影像的 ChatGPT4 ,它們的推理過程幾乎相同,得出的答案也非常接近。
另一方面,Claude 的視覺系統在這個例子中(見下圖右側)顯得有些力不從心。Claude 給出的回應,更像是一種巧妙的迴避,而不是像往常那樣嘗試解答這個常見的概念性問題。
這個任務難度似乎不夠,於是我決定挑戰一個程式設計問題,要求 LLM 闡述解題思路,然後為其編寫一個 Python 指令碼 —— 一個語言模型的基本訓練指令碼。首先未提供給 ChatGPT 相關影像,這也在情理之中,對於實際開發來說,其作用有限。
ChatGPT 對帶有影像的提示詞的回應不夠詳盡,也不夠周全。
而 Claude 所給出的兩次回答在內容上幾乎無二致。
這個結論並不讓人意外。模型的影像輸入不那麼成熟,因此我們看到了更多去年常見的典型問題或不足之處。
更值得關注的問題是未來這種情況會有顯著改善,還是維持現狀?像 o1 這樣的特性獲得的認可度,明顯高於更優質的視覺輸入。在 AI 模型領域,語言仍然是核心, 如果沒有明確的任務來挑戰視覺的極限 ,就很難證明視覺輸入具有變革性。語言依然是這個生態系統的命脈。
對於 Molmo 而言,由於缺乏標準的文字指令調優和 RLHF(基於人類反饋的強化學習),在進行推理任務時,給人的感覺與以往熟悉的模型大相徑庭。我們清楚,需要在所有 OLMo 模型上不斷最佳化這類任務。
然而,Molmo 還有一些 Claude 和 ChatGPT 所不具備的特殊功能。我們期待這些功能能夠證明其使用價值。如果想要體驗這些模型,還有一個選擇是 Vision Arena[16],但需要注意的是,它的某些功能介面出現了問題,而且其執行速度不及原生的本地應用程式。
04 多模態語言模型:正處於快速發展階段的前端
Molmo 專案與我之前關注的純文字模型專案的進展相比,最顯著的區別在於多模態模型生態系統的成熟度較低。 尤其是在模型訓練完成後的行為研究方面,我們缺少評估工具、資料集、開放的基準模型 —— 總之,一切都非常缺乏。我在今年年初就這個問題發表了自己的看法,特別是對於開放流程(open pipelines)中多模態 RLHF 的不明確性[17],遺憾的是,至今變化不大。這就導致了一個現象:某些可以說是“開源”的模型幾乎能與像 GPT-4o 這樣的閉源模型相媲美。
需要明確的是,雖然技術報告中對模型的基準測試討論頗多,但與潛在的研究空間相比,這些討論僅僅是觸及了表面。許多評估工作是將傳統語言模型的理念,如解釋概念或識別內容,遷移到視覺領域。 而對於視覺模型來說,我們需要的是全新的基準測試方向。對於視覺語言模型,SWE-Bench 的對等基準測試會是什麼?我推測可能會出現 SWE-Bench-Vision,但我們還需要開發更多無法與文字模型相對應的新測試類別。
在使用多模態模型時,我發現並不清楚應該用它們來做什麼。這些模型在資訊提取和加工處理等方面確實強大。我就經常用 Claude 或 ChatGPT 來複製表格內容或重新編寫程式碼生成圖表。除了前面提到的用途之外,還有很多功能,特別是場景描述(scene captioning),雖然展示出來的時候非常吸引人,讓人印象深刻,但並不是我們日常生活中會經常使用到的功能。
曾經,視覺語言模型的效果並不理想。但現在,它們的效能得到了大大增強,更重要的是,它們現在可以被大規模公開使用,這無疑會促進其被更廣泛地採用。而隨著使用率的提升,就有了發展的反饋迴路。以下是對這一論點的詳細解釋。
特別是,Meta 採取了將“開源 AI”的品牌與 Llama 模型掛鉤的策略,這一行動提升了 Llama 模型在業界的可信度,從而促使更多開發者更加重視此類模型。
在未來的多模態語言模型中,唯一尚未解決但肯定會重要的應用是理解網頁元素。 Web agents 成為了阻礙生成式 AI 產品大規模部署的最後幾道關卡之一。 我們之所以尚未見到更多的 web agents,可能是因為當前的生態系統過於依賴封閉模型,而這些模型很難獲得執行相關操作所需的許可權(尤其是在企業級應用中)。隨著技術能力的提升,我們有理由相信,權重開源模型(open-weight models)將會得到快速的推廣和應用。推動多模態模型發展的原因似乎更多是市場、技術、行業趨勢等方面的因素,而非僅僅是為了推廣本地多模態模型 —— 這一點我們可以向 Adept 公司進行探討。隨著權重開源模型和近乎開源模型((nearly) open-source models)的增多,AI 領域的加速發展指日可待。
Thanks for reading!
Hope you have enjoyed and learned new things from this blog!
About the authors
Nathan Lambert
ML researcher making sense of AI research, products, and the uncertain technological future. PhD from Berkeley AI. Experience at Meta, DeepMind, HuggingFace.
END
本期互動內容 🍻
❓Molmo 模型的“畫素級指向功能”給您帶來了哪些啟發?您認為這個功能在未來可能催生什麼樣的創新應用?
🔗文中連結🔗
[1]https://lilianweng.github.io/posts/2022-06-09-vlm
[2]https://molmo.allenai.org/blog
[3]https://huggingface.co/collections/meta-llama/llama-32-66f448...
[4]https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-m...
[5]https://arxiv.org/abs/2407.21783
[6]https://www.interconnects.ai/p/olmo
[7]https://molmo.allenai.org/paper.pdf
[8]https://molmo.allenai.org/
[9]https://huggingface.co/openai/clip-vit-large-patch14-336
[10]https://github.com/mlfoundations/open_clip
[11]https://mistral.ai/news/pixtral-12b/
[12]https://www.reddit.com/r/LocalLLaMA/comments/1fpb4m3/molmo_mo...
[13]https://molmo.allenai.org/share/963de0d0-9069-4a14-ad5a-8e4bc...
[14]https://molmo.allenai.org/chat/d1917496-1581-4ca5-8bda-1f4216...
[15]https://arxiv.org/abs/1912.03098
[16]https://huggingface.co/spaces/WildVision/vision-arena
[17]https://www.interconnects.ai/i/140525309/multimodal-rlhf-ques...
原文連結:
https://www.interconnects.ai/p/molmo-and-llama-3-vision