在當今多模態領域,CLIP 模型憑藉其卓越的視覺與文字對齊能力,推動了視覺基礎模型的發展。CLIP 透過對大規模圖文對的對比學習,將視覺與語言訊號嵌入到同一特徵空間中,受到了廣泛應用。
然而,CLIP 的文字處理能力被廣為詬病,難以充分理解長文字和複雜的知識表達。隨著大語言模型的發展,新的可能性逐漸顯現:LLM 可以引入更豐富的開放時間知識、更強的文字理解力,極大提升 CLIP 的多模態表示學習能力。
在此背景下,來自同濟大學和微軟的研究團隊提出了 LLM2CLIP。這一創新方法將 LLM 作為 CLIP 的強力 「私教」,以少量資料的高效微調為 CLIP 注入開放世界知識,讓它能真正構建一個的跨模態空間。在零樣本檢索任務上,CLIP 也達成了前所未有的效能提升。
- 論文標題:LLM2CLIP: POWERFUL LANGUAGE MODEL UNLOCKS RICHER VISUAL REPRESENTATION
- 論文連結:https://arxiv.org/pdf/2411.04997
- 程式碼倉庫:https://github.com/microsoft/LLM2CLIP
- 模型下載:https://huggingface.co/collections/microsoft/llm2clip-672323a266173cfa40b32d4c
在實際應用中,LLM2CLIP 的效果得到了廣泛認可,迅速吸引了社群的關注和支援。HuggingFace 一週內的下載量就破了兩萬,GitHub 也突破了 200+ stars!值得注意的是, LLM2CLIP 可以讓完全用英文訓練的 CLIP 模型,在中文檢索任務中超越中文 CLIP。此外,LLM2CLIP 也能夠在多模態大模型(如 LLaVA)的訓練中顯著提升複雜視覺推理的表現。程式碼與模型均已公開,歡迎訪問 https://aka.ms/llm2clip 瞭解詳情和試用。LLM2CLIP 目前已被 NeurIPS 2024 Workshop: Self-Supervised Learning - Theory and Practice 接收。CLIP 的橫空出世標誌著視覺與語言領域的一次革命。不同於傳統的視覺模型(如 ImageNet 預訓練的 ResNet 和 ViT)依賴簡單的分類標籤,CLIP 基於圖文對的對比學習,透過自然語言的描述獲得了更豐富的視覺特徵,更加符合人類對於視覺訊號的定義。這種監督訊號不僅僅是一個標籤,而是一個富有層次的資訊集合,從而讓 CLIP 擁有更加細膩的視覺理解能力,適應零樣本分類、檢測、分割等多種任務。可以說,CLIP 的成功奠基於自然語言的監督,是一種新時代的 「ImageNet 預訓練」。雖然 CLIP 在視覺表示學習中取得了成功,但其在處理長文字和複雜描述上存在明顯限制。而大語言模型(LLM)例如 GPT-4 和 Llama,透過預訓練掌握了豐富的開放世界知識,擁有更強的文字理解和生成能力。將 LLM 的這些能力引入到 CLIP 中,可以大大拓寬 CLIP 的效能上限,增強其處理長文字、複雜知識的能力。藉助 LLM 的知識擴充套件,CLIP 在圖文對齊任務中的學習效率也得以提升。原始的 LLM 無法給 CLIP 帶來有意義的監督事實上,將 LLM 與 CLIP 結合看似簡單粗暴,實際並非易事。直接將 LLM 整合到 CLIP 中會引發「災難」,CLIP 無法產生有效的表示。這是由於 LLM 的文字理解能力隱藏在內部,它的輸出特徵空間並不具備很好的特徵可分性。於是,該團隊設計了一個影像 caption 到 caption 的檢索實驗,使用 COCO 資料集上同一張影像的兩個不同 caption 互相作為正樣本進行文字檢索。他們發現原生的 llama3 8B 甚至無法找到十分匹配的 caption,例如 plane 和 bat 的距離更近,但是離 airplane 的距離更遠,這有點離譜了,因此它只取得了 18.4% 的召回率。顯然,這樣的輸出空間無法給 CLIP 的 vision encoder 一個有意義的監督,LLM 無法幫助 CLIP 的進行有意義的特徵學習。影像描述對比微調是融合 LLM 與 CLIP 的秘訣從上述觀察,研究團隊意識到必須對提升 LLM 輸出空間對影像表述的可分性,才有可能取得突破。為了讓 LLM 能夠讓相似的 caption 接近,讓不同影像的 caption 遠離,他們設計了一個新的影像描述對比微調 ——Caption-Contrastive(CC)finetuning。該團隊對訓練集中每張影像都標註了兩個以上 caption,再採用同一個影像的 caption 作為正樣本,不同影像的 caption 作為負樣本來進行對比學習,來提升 LLM 對於不同畫面的描述的區分度。實驗證明,這個設計可以輕易的提升上述 caption2caption 檢索的準確率,從上述 cases 也可以看出召回的例子開始變得有意義。LLM2CLIP 這一高效的訓練正規化具體是怎麼生效的呢?首先,要先使用少量資料對 LLM 進行微調,增強文字特徵更具區分力,進而作為 CLIP 視覺編碼器的強力 「教師」。這種設計讓 LLM 中的文字理解力被有效提取,CLIP 在各種跨模態任務中獲得顯著效能提升。實驗結果表明,LLM2CLIP 甚至能在不增加大規模訓練資料的情況下,將當前 SOTA 的 CLIP 效能提升超過 16%。一個令人驚喜的發現是,LLM2CLIP 的開放世界知識不僅提升了 CLIP 在英文任務中的表現,還能賦予其多語言理解能力。儘管 LLM2CLIP 僅在英文資料上進行了訓練,但在中文圖文檢索任務上卻超越了中文 CLIP 模型。這一突破讓 CLIP 不僅在英文資料上達到領先水平,同時在跨語言任務中也展現了前所未有的優勢。LLM2CLIP 的優勢還不止於此。當該團隊將 LLM2CLIP 應用於多模態大模型 LLaVA 的訓練時,顯著提升了 LLaVA 在複雜視覺推理任務中的表現。LLaVA 的視覺編碼器透過 LLM2CLIP 微調後的 CLIP 增強了對細節和語義的理解能力,使其在視覺問答、場景描述等任務中取得了全面的效能提升。總之,該團隊希望透過 LLM2CLIP 技術,推動大模型的能力反哺多模態社群,同時為基礎模型的預訓練方法帶來新的突破。LLM2CLIP 的目標是讓現有的預訓練基礎模型更加強大,為多模態研究提供更高效的工具。除了完整的訓練程式碼,他們也逐步釋出了經過 LLM2CLIP 微調的主流跨模態基礎模型,期待這些模型能被應用到更多有價值的場景中,挖掘出更豐富的能力。