沒有等來OpenAI開源GPT-4o,等來了開源版VITA

机器之心發表於2024-08-14
開源領域又傳來好訊息。

語言模型 (LLM) 經歷了重大的演變,最近,我們也目睹了多模態大語言模型 (MLLM) 的蓬勃發展,它們表現出令人驚訝的多模態能力。

特別是,GPT-4o 的出現顯著推動了 MLLM 領域的發展。然而,與這些模型相對應的開源模型卻明顯不足。開源社群迫切需要進一步促進該領域的發展,這一點怎麼強調也不為過。

本文 ,來自騰訊優圖實驗室等機構的研究者提出了 VITA,這是第一個開源的多模態大語言模型 (MLLM),它能夠同時處理和分析影片、影像、文字和音訊模態,同時具有先進的多模態互動體驗。

研究者以 Mixtral 8×7B 為語言基礎,然後擴大其漢語詞彙量,並進行雙語指令微調。除此以外,研究者進一步透過多模態對齊和指令微調的兩階段多工學習賦予語言模型視覺和音訊能力。

VITA 展示了強大的多語言、視覺和音訊理解能力,其在單模態和多模態基準測試中的出色表現證明了這一點。

除了基礎能力,該研究在提升自然多模態人機互動體驗方面也取得了長足進步。據瞭解,這是第一個在 MLLM 中利用非喚醒互動和音訊中斷的研究。研究者還設計了額外的狀態 token 以及相應的訓練資料和策略來感知各種互動場景。

VITA 的部署採用複式方案,其中一個模型負責生成對使用者查詢的響應,另一個模型持續跟蹤環境輸入。這使得 VITA 具有令人印象深刻的人機互動功能。

VITA 是開源社群探索多模態理解和互動無縫整合的第一步。雖然在 VITA 上還有很多工作要做才能接近閉源同行,但該研究希望 VITA 作為先驅者的角色可以成為後續研究的基石。

圖片

  • 論文地址:https://arxiv.org/pdf/2408.05211

  • 論文主頁:https://vita-home.github.io/

  • 論文標題:VITA: Towards Open-Source Interactive Omni Multimodal LLM沒有等來OpenAI開源GPT-4o,等來了開源版VITA在上述影片中,使用者可以和 VITA 進行無障礙的溝通,看到使用者穿的白色 T 恤後,會給出搭配什麼顏色的褲子;在被問到數學題時,能夠實時檢視題目型別,進行推理,然後給出準確的答案;當你和別人講話時,VITA 也不會插嘴,因為知道使用者不是和它交流;出去旅遊,VITA 也會給出一些建議;在 VITA 輸出的過程中,你也可以實時打斷對話,並展開另一個話題。 沒有等來OpenAI開源GPT-4o,等來了開源版VITA

    在這個影片中,使用者拿著一個餅乾,詢問 VITA 自己在吃什麼,VITA 給出在吃餅乾,並給出餅乾搭配牛奶或者茶口感會更好的建議。

    健身時,充當你的聊天搭子:沒有等來OpenAI開源GPT-4o,等來了開源版VITA

    注:上述影片都是實時 1 倍速播放,沒有經過加速處理。

    根據使用者提供的流程圖,VITA 就能編寫程式碼:

    圖片

    提供一張圖片,VITA 也能根據圖片內容回答問題:

    圖片

    還能觀看影片回答問題,當使用者丟擲問題「詳細描述狗的動作」,VITA 也能準確給出答案:

    圖片

    方法介紹

    如圖 3 所示,VITA 的整體訓練流程包括三個階段:LLM 指令微調、多模態對齊和多模態指令微調。

    圖片

    LLM 指令微調

    Mixtral 8x7B 的效能屬於頂級開源 LLM 中一員,因此該研究將其作為基礎。然而研究者觀察到官方的 Mixtral 模型在理解中文方面的能力有限。為了注入雙語(中文和英文)理解能力,該研究將中文詞彙量擴充套件到基礎模型,將詞彙量從 32,000 個增加到 51,747 個。在擴充套件詞彙量後,研究者使用 500 萬個合成的雙語語料庫進行純文字指令微調。

    多模態對齊

    為了彌合文字和其他模態之間的表徵差距,從而為多模態理解奠定基礎。僅在視覺對齊階段訓練視覺聯結器。表 1 總結了所使用的訓練資料,除了純文字部分。

    圖片

    視覺模態

    首先是視覺編碼器。研究者使用 InternViT-300M-448px 作為視覺編碼器,它以解析度 448×448 的影像作為輸入,並在使用一個作為簡單兩層 MLP 的視覺聯結器後生成了 256 個 token。對於高解析度影像輸入,研究者利用動態 patching 策略來捕捉區域性細節。

    影片被視作影像的特殊用例。如果影片長度短於 4 秒,則統一每秒取樣 4 幀。如果影片長度在 4 秒到 16 秒之間,則每秒取樣一幀。對於時長超過 16 秒的影片,統一取樣 16 幀。

    其次是視覺對齊。研究者僅在視覺對齊階段訓練視覺聯結器,並且在該階段沒有使用音訊問題。

    最後是資料級聯。對於純文字資料和影像資料,該研究旨在將上下文長度級聯到 6K token,如圖 4 所示。值得注意的是,影片資料不進行級聯。

    圖片

    級聯不同的資料有兩個好處:

    • 它支援更長的上下文長度,允許從單個影像問題互動擴充套件到多個影像問題互動,從而產生更靈活的輸入形式,並擴充套件上下文長度。

    • 它提高了計算效率,因為影片幀通常包含大量視覺 token。透過級聯影像 - 問題對,該研究可以在訓練批中保持平衡的 token 數量,從而提高計算效率。

    此外,該研究發現使用級聯資料訓練的模型與使用原始資料訓練的模型效能相當。

    音訊模態

    一方面是音訊編碼器。輸入音訊在最開始透過一個 Mel 濾波器組塊進行處理,該塊將音訊訊號分解為 mel 頻率範圍內的各個頻帶,模仿人類對聲音的非線性感知。隨後,研究者先後利用了一個 4×CNN 的下采樣層和一個 24 層的 transformer,總共 3.41 億引數,用來處理輸入特徵。同時他們使用一個簡單的兩層 MLP 作為音訊 - 文字模態聯結器。最後,每 2 秒的音訊輸入被編碼為 25 個 tokens。

    另一方面是音訊對齊。對於對齊任務,研究者利用了自動語言識別(ASR)。資料集包括 Wenetspeech(擁有超過 1 萬小時的多領域語音識別資料,主要側重於中文任務)和 Gigaspeech(擁有 1 萬小時的高質量音訊資料,大部分資料面向英文語音識別任務)。對於音訊字幕任務,研究者使用了 Wavcaps 的 AudioSet SL 子集,包含了 400k 個具有相應音訊字幕的音訊片段。在對齊過程中,音訊編碼器和聯結器都經過了訓練。

    多模態指令微調

    該研究對模型進行了指令調整,以增強其指令遵循能力,無論是文字還是音訊。

    資料構建。指令調優階段的資料來源與表 1 中對齊階段的資料來源相同,但該研究做了以下改進:

    問題被隨機(大約一半)替換為其音訊版本(使用 TTS 技術,例如 GPT-SoVITS6),旨在增強模型對音訊查詢的理解及其指令遵循能力。

    設定不同的系統 prompt,避免不同型別資料之間的衝突,如表 2 所示。例如,有些問題可以根據視覺資訊來回答或者基於模型自己的知識,導致衝突。此外,影像資料已被 patch,類似於多幀影片資料,這可能會混淆模型。系統 prompt 顯式區分不同資料型別,有助於更直觀地理解。

    圖片

    為了實現兩種互動功能,即非喚醒互動和音訊中斷互動,該研究提出了複式部署框架,即同時部署了兩個 VITA 模型,如圖 1 所示。

    圖片

    在典型情況下,生成模型(Generation model)會回答使用者查詢。同時,監控模型(Monitoring model)在生成過程中檢測環境聲音。它忽略非查詢使用者聲音,但在識別到查詢音訊時停止生成模型的進度。監控模型隨後會整合歷史上下文並響應最新的使用者查詢生成模型和監控模型的身份發生了轉換。

    圖片

    實驗評估

    語言效能。為了驗證語言模型訓練過程的有效性,研究者使用了四個資料集,分別是 C-EVAL、AGIEVAL、MMLU 和 GSM8K。這些資料集涵蓋了各種場景,包括一般選擇題、多學科問答題以及數學和邏輯推理任務,同時覆蓋了中英文上下文。

    下表 3 的結果表明,本文的訓練顯著增強了語言模型在中文評估集(C-EVAL 和 AGIEVAL)上的能力,同時保持了在英文相關基準(MMLU)上的原始效能水平,並在數學推理任務(GSM8K)上實現顯著提升。

    圖片

    音訊效能。為了驗證模型學得的語音表示的穩健性,研究者在 Wenetspeech 和 Librispeech 兩個資料集上進行了測試。

    其中 Wenetspeech 有兩個評估指標,分別是 test_net 和 test_meeting,前者資料來源與訓練資料更加一致,因而更容易;後者提出了更大的挑戰。作為模型的 held-out 資料集,Librispeech 評估了模型在未見過資料集上的泛化能力,它有四個評估集,以「dev」開頭的是驗證集,以「test」開頭的是測試集,「Clean」代表挑戰性較低的集,「other」代表挑戰性更高的集。

    從下表 4 的結果可以看到,VITA 在 ASR 基準測試上取得了非常不錯的結果。

    圖片

    多模態效能。為了評估多模態能力,該研究在四個基準上評估了 VITA,包括 MME 、OCRBench、HallusionBench 和 Video-MME。結果如圖 5 所示。

    在影像理解方面,VITA 優於影像專用開源模型 LLaVA-Next,並且接近閉源模型 Gemini 1.5 Pro。

    在影片理解方面,VITA 超過了影片開源模型 Video-CCAM。儘管 VITA 和影片專用的 LLaVA-Next-Video 之間存在差距,但考慮到 VITA 支援更廣泛的模態並優先考慮可互動性,因而這是可以接受的。

    最後,值得注意的是,目前開源模型與專有模型在影片理解能力方面仍存在較大差距。

    圖片

相關文章