就像動物有了眼睛,謝賽寧 Yann LeCun 團隊的 Cambrian-1 能讓 AI 獲得強大的視覺表徵學習能力。
古往今來,許多哲學家都探究過這個問題:理解語言的含義是否需要以感官為基礎?儘管哲學家們看法不一,但有一點卻不言而喻:堅實有效的感官定基(grounding)至少能帶來助益。
比如科學家們普遍相信,寒武紀大爆發期間視覺的出現是早期動物演化的關鍵一步;這不僅能幫助動物更好地找尋食物和躲避捕食者,而且還有助於動物自身的進化。事實上,人類(以及幾乎所有動物)的大多數知識都是透過與物理互動的感官體驗獲取的,比如視覺、聽覺、觸覺、味覺和嗅覺。這些感官體驗是我們理解周圍世界的基礎,也是幫助我們採取行動和決策的關鍵。
這些思想不僅僅能用來探究哲學概念,而且也具有實用價值,尤其是近期多模態大型語言模型(MLLM)的發展,更是讓視覺表徵學習與語言理解來到了實踐應用的關注核心。語言模型表現出了非常強大的規模擴充套件行為,而多模態學習領域的近期進展也很大程度上得益於更大更好的 LLM。
另一方面,人們仍舊沒有充分探索視覺元件的設計選擇,並且這方面的探索與視覺表徵學習的研究有所脫節。這主要是因為這方面的研究非常困難:MLLM 涉及複雜的訓練和評估流程,需要考慮的設計選擇非常多。
近日,紐約大學謝賽寧和 Yann LeCun 團隊以視覺為中心對 MLLM 進行了探索,填補了這一空白;他們還基於這些探索成果構建了 Cambrian-1(寒武紀 1 號)系列模型。(本文有三位共同一作:Shengbang Tong(童晟邦)、Ellis Brown 和 Penghao Wu。)
論文標題:Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs
論文地址:https://arxiv.org/pdf/2406.16860
網站:https://cambrian-mllm.github.io
程式碼:https://github.com/cambrian-mllm/cambrian
模型:https://huggingface.co/nyu-visionx/
資料:https://huggingface.co/datasets/nyu-visionx/Cambrian-10M
CV-Bench:https://huggingface.co/datasets/nyu-visionx/CV-Bench
評估:https://github.com/cambrian-mllm/cambrian
具體來說,他們將 MLLM 指令微呼叫作了多種視覺表徵的評估協議,如圖 1 所示。
該團隊表示:「我們這項研究的動機源自當前多模態學習研究的兩個潛在問題:1)過度且過早地依賴語言,這是一個捷徑,能彌補學習有效視覺表徵的不足之處;2)現有基準可能無法為真實世界場景提供足夠的指導 —— 視覺定基對於穩健的多模態理解至關重要。」
這些問題並非毫無根據,因為研究者已經開始注意到:在將 MLLM 應用於一些高難度真實世界應用方面,視覺定基正在成為一大瓶頸。
從另一個角度看,傳統的視覺表徵學習評估協議已經變得飽和,不能反映真實世界分佈中發現的各種感知難題。另一方面,使用視覺問答(VQA)形式的語言卻能提供一種靈活且穩健的評估協議。
謝賽寧和 Yann LeCun 團隊這項研究的目標就是探索這種新的協議設計,並從中獲取新見解以引導未來的視覺表徵發展。此外,為了在這種綜合設定中更好地評估視覺表徵,他們還開發了一個以視覺為中心的 MLLM 基準 CV-Bench,做法是將傳統的視覺基準轉換成 VQA 格式。
Cambrian-1 的構建基於五大關鍵支柱,每一支柱都能為 MLLM 的設計提供重要的見解:
視覺表徵:該團隊探索了多種不同的視覺編碼器及其組合;
聯結器設計:他們設計了一種動態且可感知空間的新型聯結器,可將視覺特徵與 LLM 整合到一起,同時還能降低 token 的數量。
指令微調資料:他們基於公共資料來源整編了高質量視覺指令微調資料,其中格外強調了分佈平衡的重要性。
指令微調配方:他們討論了指令微調的策略和實踐措施。
基準評測:他們分析了現有的 MLLM 基準,並直觀地將它們分成了 4 組,然後提出了一種新的以視覺為中心的基準 CV-Bench。
基於這些支柱,該團隊構建了 Cambrian-1 系列模型,其在多個基準上都表現領先,並且尤其擅長以視覺為中心的任務。該團隊也釋出了這項研究的模型權重、開原始碼、資料集以及模型訓練和評估的詳細方案。
多模態 LLM 基礎知識
MLLM 研究的關鍵元件包括大型語言模型、視覺編碼器、多模態聯結器、資料整編流程、指令微調策略、評估與基準評測。具體說明及相關研究請參閱原論文。
透過 MLLM 評估視覺表徵
當前 MLLM 使用的視覺編碼器主要是 CLIP,因為其已經與語言預對齊了,並且易於適應到 LLM token 空間。但是,強大的語言先驗可能是一把雙刃劍:既能彌補學習有效視覺表徵時的不足,也會削減從廣泛的視覺表徵學習研究中獲得的見解。
該團隊系統性地評估了各種視覺編碼器選擇(見圖 2)對 MLLM 的多模態能力的影響。
他們還主張將 MLLM 評估用作一種評估視覺表徵方法的穩健框架,以更忠實地反映真實世界場景中多樣化的感知難題,從而更好地引導人們開發更好的視覺表徵。下面我們將簡要介紹其研究過程和所得發現,更多詳情請參看原論文。
分析基準
基於 23 個不同視覺骨幹網路,該團隊使用一種兩階段指令微調過程訓練了 MLLM:首先基於 ShareGPT-4V 的 1.2M 適應器資料訓練聯結器,之後在 737K 指令微調資料上同時微調該聯結器和 LLM。
透過比較有或無視覺輸入時模型的表現(見圖 3),該團隊得到了以下發現:
發現 1:大多數基準未能準確地度量以視覺為中心的能力,少數能度量這些能力的基準也只有非常少的樣本。
Cambrian 以視覺為中心的基準(CV-Bench)
為了解決現有以視覺為中心的基準的侷限,該團隊提出了 CV-Bench。其中包含 2638 個經過人工檢查的樣本,遠多於其它以視覺為中心的 MLLM 基準 —— 比 RealWorldQA 多 3.5 倍,比 MMVP 多 8.8 倍。
如圖 4 和表 1 所示,CV-Bench 能透過空間關係和目標計數來評估 2D 理解能力,能透過深度順序(depth order)和相對距離評估 3D 理解能力。
發現 2:可以將現有視覺基準有效地調整用於 VQA 任務,實現對以視覺為中心的 MLLM 能力的評估。
指令微調方案
MLLM 始於預訓練 LLM 和視覺骨幹網路,再透過投射器(MLP)等聯結器將這些模組連線起來。該團隊透過大量實驗探究了不同的指令微調方案,並得到了以下發現。
對於選擇單階段訓練還是雙階段訓練,該團隊發現:
發現 3:雙階段訓練是有益的;使用更多適應器資料能進一步提升結果。
在是否凍結視覺編碼器方面,該團隊發現:
發現 4:不凍結視覺編碼器有很多好處。語言監督式模型總是有益的;SSL 模型在以視覺為中心的基準上尤其有益。
將 MLLM 用作視覺表徵評估器
該團隊研究了將 MLLM 用於評估視覺表徵,結果見圖 6,得到的發現如下:
發現 5:高解析度編碼器可極大提升在以圖表或視覺為中心的基準上的表現,並且基於卷積網路的架構非常適合此類任務。
他們也研究了基於自監督模型的 MLLM 的持續微調能否達到與語言監督模型相近的效能,結果見圖 7。
發現 6:語言監督有很強的優勢,但只要有足夠的資料和適當的微調,可透過 SSL 方法縮減效能差距。
組合多個視覺編碼器
該團隊也探索了組合多個視覺編碼器來構建更強大 MLLM 的可能性,結果見表 3。
發現 7:組合多個視覺編碼器(包括視覺 SSL 模型)可提升在多種不同基準上的 MLLM 效能,尤其是對於以視覺為中心的任務。
空間視覺聚合器(SVA):一種聯結器新設計
為了有效地聚合多個視覺編碼器的特徵並防止插值引入的資訊損失,他們使用了一個可學習的隱含查詢集合,其能透過交叉注意力層與多個視覺特徵互動。
具體來說,新方法整合了兩種新的以視覺為中心的設計原理:
透過為查詢中的每個 token 顯式地定義聚合空間,引入了空間歸納偏置。
跨 LLM 層多次聚合視覺特徵,讓模型能夠重複訪問和整合必要的視覺資訊。
這種新的構建方法可以靈活地適配特徵解析度不同的多個視覺編碼器,同時在聚合過程中以及與 LLM 的整合過程中保留視覺資料的空間結構。
使用前一節的最佳視覺模型組合和一個 Vicuna-1.5-7B base LLM,該團隊展現了 SVA 模組的效用。
表 4 表明:SVA 在所有基準類別上均優於兩個對比技術,其中在 OCR 和表格類別(需要高解析度特徵理解)上有巨大提升。
更進一步,他們以 OpenAI CLIP ViT-L/14@336 + OpenCLIP ConvNeXt-L@1024 組合為基礎進行了消融實驗,結果見表 5。
發現 8:空間歸納偏置以及 LLM 和視覺特徵之間的深度互動有助於更好地聚合和凝練視覺特徵。
用於訓練 MLLM 的指令微調資料
資料收集
從已有資料來源收集指令微調資料:
該團隊既使用了涉及視覺互動資料的多模態基準和資料集(比如視覺問答(VQA)和 OCR 資料),還收集了少量高質量的純語言指令遵從資料。他們還將這些資料分成了不同類別:一般對話、OCR、計數、程式碼、數學、科學和純語言資料。圖 9 給出了資料來源。
針對性的網際網路資料收集引擎:如圖 9 所示,資料的分佈不平衡。
為了建立大規模、可靠、高質量的基於知識的指令微調資料,該團隊提出了一種資料引擎。該引擎可選取一個目標域和子域(比如物理學),然後使用 GPT-4 這樣的 LLM 來識別主題(比如牛頓定律)。然後,其會針對每個主題搜尋維基百科等可靠資訊源。該團隊發現,從維基百科提取的影像 - 文字對的質量很高。
之後,該團隊使用一個解析器提取出其中的影像 - 描述元組,然後將描述文字輸送給一個 LLM,比如 GPT-3.5,透過精心設計的 prompt 讓其生成有關影像的指令型別的問答對。這些問答對和影像就構成了他們的 VQA 資料集。
Cambrian-10M:他們建立了一個大型指令微調資料池並將其命名為 Cambrian-10M,其中包含大約 9784k 個資料點。圖 9 展示了其組成情況。
資料整編
為了提升資料平衡和調整資料比例(見圖 10 和 11),該團隊對 Cambrian-10M 進行了整編。
最終得到了一個更小但質量更高的資料集 Cambrian-7M。表 6 和 7 說明了對指令資料進行整編所帶來的好處:儘管 Cambrian-7M 中樣本更少,但所帶來的效能卻更好。
透過系統 prompt 緩解「答題機現象」
他們還研究了所謂的答題機現象(Answer Machine Phenomenon)。他們觀察到,一個訓練良好的 MLLM 也許擅長應對 VQA 基準,但缺乏基本的對話能力,預設情況下會輸出簡短生硬的響應。這種情況的原因是基準問題所需的響應通常限於單個選項或詞,這不同於更一般更現實的用例。其它 LLM 研究也觀察到了類似的現象。
他們猜測,這個問題的原因是指令微調資料包含過多的短響應 VQA 任務,這會導致 LLM 出現災難性遺忘。
為了解決這個問題,該團隊在訓練期間整合了額外的系統 prompt。比如對於響應中生成單個詞或短語的問題,在 prompt 中附加「使用單個詞或短語來回答本問題」這樣的內容。結果發現,這樣的系統 prompt 可在保證模型基準效能不變的同時大幅提升其對話能力。圖 12 給出了一個示例。
此外,系統 prompt 還能透過鼓勵模型使用思維鏈來提升推理能力。
當前最佳效能
最後,利用探索研究過程中獲得的見解,該團隊訓練了一個新的 MLLM 模型系列:Cambrian-1。他們使用不同規模大小的 LLM 骨幹網路訓練了模型:LLaMA-3-Instruct-8B、Vicuna-1.5-13B、Hermes-2-Yi-34B。
他們的視覺元件透過空間視覺聚合器(SVA)組合了 4 個模型:OpenAI CLIP ViT-L/14@336、SigLIP ViT-SO400M/14@384、OpenCLIP ConvNeXt-XXL@1024、DINOv2 ViT-L/14@518。他們使用 2.5M 適應器資料對聯結器進行了預訓練,然後使用 Cambrian-7M 資料混合對其進行了微調。
表 8 和圖 13 給出了模型的評估結果。
可以看到,Cambrian-1 超過了 LLaVA-NeXT 和 Mini-Gemini 等開源模型。得益於 SVA,Cambrian-1 也能非常好地處理需要高解析度影像處理的任務,即便僅使用 576 個影像 token 也能做到,大約只有 LLaVA-NeXT 和 Mini-Gemini 所用 token 數的 1/5。
Cambrian-1 在多個基準上還取得了與 GPT-4V、Gemini-Pro 和 MM-1 等最佳專有模型相當的效能。
圖 14 給出了一些示例,可以看到儘管 Cambrian-1 只使用了 576 個 token,卻能有效關注影像中的細節。
另外,從 Cambrian-1 的命名也看得出來,這是一個雄心勃勃的團隊。讓我們好好期待該系列模型的下一代升級吧。