顏水成掛帥,崑崙萬維2050全球研究院聯合NUS、NTU釋出Vitron,奠定通用視覺多模態大模型終極形態

新闻助手發表於2024-04-26

近日,由顏水成教授帶隊,崑崙萬維2050全球研究院、新加坡國立大學、新加坡南洋理工大學團隊聯合釋出並開源了Vitron通用畫素級視覺多模態大語言模型

這是一款重磅的通用視覺多模態大模型,支援從視覺理解到視覺生成、從低層次到高層次的一系列視覺任務,解決了困擾大語言模型產業已久的影像/影片模型割裂問題,提供了一個全面統一靜態影像與動態影片內容的理解、生成、分割、編輯等任務的畫素級通用視覺多模態大模型,為下一代通用視覺大模型的終極形態奠定了基礎,也標誌著大模型邁向通用人工智慧AGI)的又一大步。

Vitron作為一個統一的畫素級視覺多模態大語言模型,實現了從低層次到高層次的視覺任務的全面支援能夠處理複雜的視覺任務,理解和生成影像和影片內容,提供了強大的視覺理解和任務執行能力。同時,Vitron支援與使用者的連續操作,實現了靈活的人機互動,展示了通向更統一的視覺多模態通用模型的巨大潛力。

Vitron相關的論文、程式碼和Demo已全部公開,其在綜合性、技術創新、人機互動和應用潛力等方面展現出的獨特優勢和潛力,不僅推動了多模態大模型的發展,還為未來的視覺大模型研究提供了一個新的方向。

一直以來,崑崙萬維2050全球研究院都致力於打造一家面向未來世界的卓越科學研究機構,與科學社群共同跨越奇點,探索未知世界創造美好未來。此前,崑崙萬維2050全球研究院已經發布並開源了數字智慧體研發工具包AgentStudio,未來,研究院還將不斷推動人工智慧技術突破,為中國人工智慧生態建設貢獻力量。

當前視覺大語言模型(LLMs)的發展取得了喜人進展。社群越來越相信,構建更通用、更強大的多模態大模型(MLLMs)將會是通向通用人工智慧(AGI)的必經之路。但在向多模態通用大模型(Generalist)的邁進過程中,目前仍存在一些關鍵挑戰。比如很大一部分工作都沒有實現細粒度畫素級別的視覺理解,或者缺乏對影像和影片的統一支援。抑或對於各種視覺任務的支援不充分,離通用大模型相差甚遠。

為了填補這個空白,近日,崑崙萬維2050全球研究院、新加坡國立大學、新加坡南洋理工大學團隊聯合釋出開源了Vitron通用畫素級視覺多模態大語言模型。Vitron支援從視覺理解到視覺生成、從低層次到高層次的一系列視覺任務,包括靜態影像和動態影片內容進行全面的理解、生成、分割和編輯等任務。

顏水成掛帥,崑崙萬維2050全球研究院聯合NUS、NTU釋出Vitron,奠定通用視覺多模態大模型終極形態

上圖綜合描繪了Vitron在四大視覺相關任務的功能支援,以及其關鍵優勢。Vitron還支援與使用者的連續操作,實現靈活的人機互動。該專案展示了面向更統一的視覺多模態通用模型的巨大潛力,為下一代通用視覺大模型的終極形態奠定了基礎。

Vitron相關論文、程式碼、Demo目前已全部公開。

  • 論文標題:Vitron: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing
  • 專案主頁&Demo:https://vitron-llm.github.io/
  • 論文連結:https://is.gd/aGu0VV
  • 開原始碼:https://github.com/SkyworkAI/Vitron

顏水成掛帥,崑崙萬維2050全球研究院聯合NUS、NTU釋出Vitron,奠定通用視覺多模態大模型終極形態

01. 大一統的終極多模態大語言模型

近年來,大語言模型(LLMs)展現出了前所未有的強大能力,其被逐漸驗證為乃是通向AGI的技術路線。而多模態大語言模型(MLLMs)在多個社群火爆發展且迅速出圈,透過引入能進行視覺感知的模組,擴充套件純語言基礎LLMs至MLLMs,眾多在影像理解方面強大卓越的MLLMs被研發問世,例如BLIP-2、LLaVA、MiniGPT-4等等。與此同時,專注於影片理解的MLLMs也陸續面世,如VideoChat、Video-LLaMA和Video-LLaVA等等。

隨後,研究人員主要從兩個維度試圖進一步擴充套件MLLMs的能力。一方面,研究人員嘗試深化MLLMs對視覺的理解,從粗略的例項級理解過渡到對影像的畫素級細粒度理解,從而實現視覺區域定位(Regional Grounding)能力,如GLaMM、PixelLM、NExT-Chat和MiniGPT-v2等。另一方面,研究人員嘗試擴充套件MLLMs可以支援的視覺功能。部分研究已經開始研究讓MLLMs不僅理解輸入視覺訊號,還能支援生成輸出視覺內容。比如,GILL、Emu等MLLMs能夠靈活生成影像內容,以及GPT4Video和NExT-GPT實現影片生成

目前人工智慧社群已逐漸達成一致,認為視覺MLLMs的未來趨勢必然會朝著高度統一、能力更強的方向發展。然而,儘管社群開發了眾多的MLLMs,但仍然存在明顯的鴻溝。

  • 首先,幾乎所有現有的視覺LLMs將影像和影片視為不同的實體,要麼僅支援影像,要麼僅支援影片。研究人員主張,視覺應該同時包含了靜態影像和動態影片兩個方面的內涵——這兩者都是視覺世界的核心組成,在大多數場景中甚至可以互換。所以,需要構建一個統一的MLLM框架能夠同時支援影像和影片模態。
  • 其次,目前MLLMs對視覺功能的支援還有所不足。大多數模型僅能進行理解,或者最多生成影像或影片。研究人員認為,未來的MLLMs應該是一個通用大語言模型,能覆蓋更廣泛的視覺任務和操作範圍,實現對所有視覺相關任務的統一支援,達到“one for all”的能力。這點對實際應用尤其是在經常涉及一系列迭代和互動操作的視覺創作中至關重要。例如,使用者通常首先從文字開始,透過文生圖,將一個想法轉化為視覺內容;然後透過進一步的細粒度影像編輯來完善初始想法,新增更多細節;接著,透過影像生成影片來建立動態內容;最後,進行幾輪迭代互動,如影片編輯,完善創作。

顏水成掛帥,崑崙萬維2050全球研究院聯合NUS、NTU釋出Vitron,奠定通用視覺多模態大模型終極形態

上表簡單地歸納了現有的視覺MLLM的能力(只代表性地囊括了部分模型,覆蓋不完整)。為了彌補這些差距,該團隊提出一種通用的畫素級視覺MLLM——Vitron。

02. Vitron系統架構:三大關鍵模組

Vitron整體框架如下圖所示。Vitron採用了與現有相關MLLMs相似的架構,包括三個關鍵部分:1) 前端視覺&語言編碼模組,2) 中心LLM理解和文字生成模組,以及3) 後端使用者響應和模組呼叫以進行視覺操控模組。

顏水成掛帥,崑崙萬維2050全球研究院聯合NUS、NTU釋出Vitron,奠定通用視覺多模態大模型終極形態

  • 前端模組:視覺-語言編碼。為了感知影像和影片模態訊號,並支援細粒度使用者視覺輸入,Vitron整合了影像編碼器、影片編碼器、區域框/草圖編碼器。
  • 中心模組:核心LLM。Vitron使用的是Vicuna(7B,1.5),來實現理解、推理、決策制定和多輪使用者互動。
  • 後端模組:使用者響應與模組呼叫。Vitron採用以文字為中心的呼叫策略,整合現成的幾個強大先進(SoTA)的影像和影片處理模組,用於解碼和執行從低層到高層的一系列視覺終端任務。透過採用以文字為中心的模組整合呼叫方法,Vitron不僅實現了系統統一,還確保了對齊效率和系統可擴充套件性。

顏水成掛帥,崑崙萬維2050全球研究院聯合NUS、NTU釋出Vitron,奠定通用視覺多模態大模型終極形態

03. Vitron模型訓練三大階段

基於上述架構,再對Vitron進行訓練微調,以賦予其強大的視覺理解和任務執行能力。模型訓練主要囊括三個不同的階段。

  • 步驟一:視覺-語言整體對齊學習。將輸入的視覺語言特徵對映到一個統一的特徵空間中,從而使其能夠有效理解輸入的多模態訊號。這是一種粗粒度的視覺-語言對齊學習,可以讓系統具備整體上有效處理傳入的視覺訊號。研究人員採用了現存的影像-標題對(CC3M)、影片-標題對(Webvid)和區域-標題對(RefCOCO)的資料集進行訓練。
  • 步驟二:細粒度的時空視覺定位指令微調。系統採用了呼叫外部模組方式來執行各種畫素級視覺任務,但LLM本身並未經過任何細粒度的視覺訓練,這將會阻礙了系統實現真正的畫素級視覺理解。為此,研究人員提出了一種細粒度的時空視覺定位指令微調訓練,核心思想是使LLM能夠定點陣圖像的細粒度空間性和影片的具體時序特性。步驟三:輸出端面向命令呼叫的指令微調。上述第二階段的訓練賦予了LLM和前端編碼器在畫素級別理解視覺的能力。這最後一步,面向命令呼叫的指令微調,旨在讓系統具備精確執行命令的能力,允許LLM生成適當且正確的呼叫文字。由於不同的終端視覺任務可能需要不同的呼叫命令,為了統一這一點,研究人員提出將LLM的響應輸出標準化為結構化文字格式,其中包括:

1)使用者響應輸出,直接回複使用者的輸入。

2)模組名稱,指示將要執行的功能或任務。

3)呼叫命令,觸發任務模組的元指令。

4)區域(可選輸出),指定某些任務所需的細粒度視覺特徵,例如在影片跟蹤或視覺編輯中,後端模組需要這些資訊。對於區域,基於LLM的畫素級理解,將輸出由座標描述的邊界框。

顏水成掛帥,崑崙萬維2050全球研究院聯合NUS、NTU釋出Vitron,奠定通用視覺多模態大模型終極形態

04. 評估實驗

研究人員基於Vitron在22個常見的基準資料集、12個影像/影片視覺任務上進行了廣泛的實驗評估。Vitron展現出在四大主要視覺任務群組(分割、理解、內容生成和編輯)中的強大能力,與此同時其具備靈活的人機互動能力。以下代表性地展示了一些定性比較結果:

  • Vision Segmentation

顏水成掛帥,崑崙萬維2050全球研究院聯合NUS、NTU釋出Vitron,奠定通用視覺多模態大模型終極形態

Results of image referring image segmentation

  • Fine-grained Vision Understanding

顏水成掛帥,崑崙萬維2050全球研究院聯合NUS、NTU釋出Vitron,奠定通用視覺多模態大模型終極形態

Results of image referring expression comprehension.

顏水成掛帥,崑崙萬維2050全球研究院聯合NUS、NTU釋出Vitron,奠定通用視覺多模態大模型終極形態

Results on video QA.

  • Vision Generation

顏水成掛帥,崑崙萬維2050全球研究院聯合NUS、NTU釋出Vitron,奠定通用視覺多模態大模型終極形態

  • Vision Editing

顏水成掛帥,崑崙萬維2050全球研究院聯合NUS、NTU釋出Vitron,奠定通用視覺多模態大模型終極形態

Image editing results

具體更多詳細實驗內容和細節請移步論文。

05. 未來方向展望

總體上,這項工作展示了研發大一統的視覺多模態通用大模型的巨大潛力,為下一代視覺大模型的研究奠定了一個新的形態,邁出了這個方向的第一步。儘管團隊所提出的Vitron系統表現出強大的通用能力,但依然存在自身的侷限性。以下研究人員列出一些未來可進一步探索的方向。

  • 系統架構

Vitron系統仍採用半聯合、半代理的方式來呼叫外部工具。雖然這種基於呼叫的方法便於擴充套件和替換潛在模組,但這也意味著這種流水線結構的後端模組不參與到前端與LLM核心模組的聯合學習。這一限制不利於系統的整體學習,這意味著不同視覺任務的效能上限將受到後端模組的限制。未來的工作應將各種視覺任務模組整合成一個統一的單元。實現對影像和影片的統一理解和輸出,同時透過單一生成正規化支援生成和編輯能力,仍然是一個挑戰。目前一種有希望的方式是結合modality-persistent的tokenization, 提升系統在不同輸入和輸出以及各種任務上的統一化。

  • 使用者互動性

與之前專注於單一視覺任務的模型(例如,Stable Diffusion和SEEM)不同,Vitron旨在促進LLM和使用者之間的深度互動,類似於行業內的OpenAI的DALL-E系列,Midjourney等。實現最佳的使用者互動性是本項工作的核心目標之一。Vitron利用現有的基於語言的LLM,結合適當的指令調整,以實現一定程度的互動。例如,系統可以靈活地響應使用者輸入的任何預期訊息,產生相應的視覺操作結果,而不要求使用者輸入精確匹配後端模組條件。然而,該工作在增強互動性方面仍有很大的提升空間。例如,從閉源的Midjourney系統汲取靈感,不論LLM在每一步做出何種決定,系統都應積極向使用者提供反饋,以確保其行動和決策與使用者意圖一致。

模態能力

當前,Vitron整合了一個7B的Vicuna模型,其可能對其理解語言、影像和影片的能力會產生某些限制。未來的探索方向可以發展一個全面的端到端系統,比如擴大模型的規模,以實現對視覺的更徹底和全面的理解。此外,應該努力使LLM能夠完全統一影像和影片模態的理解。

相關文章