將影像自動文字化,影像描述質量更高、更準確了

机器之心發表於2024-06-28
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

皮仁杰:香港科技大學博士三年級學生,師從張潼教授和周曉方教授。於 2024 年獲得蘋果獎學金。目前主要研究方向是多模態大語言模型和資料為中心的 AI。

張鑑殊:武漢大學本科三年級學生,目前在張潼教授的指導下擔任研究實習生,主要研究方向是大語言模型,多模態大語言模型以及持續學習。當下在尋找 2025 fall 博士入學機會。

在當今的多模態大模型的發展中,模型的效能和訓練資料的質量關係十分緊密,可以說是 “資料賦予了模型的絕大多數能力”。

在這其中,影像 - 文字資料集發揮著至關重要的作用,在影像理解、文字生成和影像檢索等多個領域發揮著關鍵作用。

然而,現有的影像描述資料集主要來源於網路抓取和人工標註,存在著質量參差不齊、細節缺失、描述噪音多等問題。儘管人類可以為影像提供詳細的描述,但高昂的標註成本限制了其規模和可行性。因此,迫切需要一種高效、可擴充套件的方法來生成準確且詳細的影像描述。

為了應對上述挑戰,來自香港科技大學、武漢大學、浙江大學、UIUC的研究者聯合提出了一種創新的自動化框架 ——Image-Textualization(IT),該框架透過整合多模態大語言模型(MLLMs)和多種視覺專家模型的協作,將圖片資訊進行文字化,最後利用擁有強大的推理能力的純文字大語言模型將這些文字化的資訊轉化為高質量的影像描述。

圖片

  • 論文:Image Textualization: An Automatic Framework for Creating Accurate and Detailed Image Descriptions

  • 論文地址:https://arxiv.org/pdf/2406.07502v1

  • 專案地址:https://github.com/sterzhang/image-textualization/

圖片

利用多模態模型造的圖片描述 vs 利用 IT 生成的圖片描述

總的來說,本文貢獻包括:

  • 創新框架:我們提出了影像文字化框架,利用多模態大模型的的粗粒度影像理解能力,視覺專家模型的精細感知能力,以及純文字大語言的模型的推理能力去自動生成細節豐富且語言表達清晰的影像描述。

  • 評估基準與實驗:提出了多個評估細節豐富的圖片描述的基準,透過廣泛的實驗驗證了框架的有效性。

  • 資料集與程式碼釋出:利用我們的影像文字化框架,我們生成了一個大規模高質量的影像描述資料集(IT-170K)。為了促進未來的研究,我們已將所有原始碼和生成的資料集公開發布。

圖片

Image Textualization 方法

Image-Textualization(IT)框架包括以下三個階段:

1. 粗粒度的圖片文字化(Holistic Textualization):首先利用多模態大語言模型對圖片生成參考描述,儘管這些描述可能存在細節缺失和幻覺,但它們為影像的視覺資訊和語言表達提供了基本結構。這裡視覺的結構主要體現在參考描述中往往會包含一些大的,核心的物體,這個可以為後續的細節提供類似 “錨點” 的作用,能夠使得最後的文字化重述(Textualized Recaptioning)更好的新增細節。另外,語言表達上的結構主要體現在多模態大模型包含的純文字大語言模型使得其擁有較強的語言能力,這使得這裡生成的參考描述能夠在語言上有良好的組織,比如會先說出這個圖片大概描述了些什麼,然後展開細節,最後總結,這種描述風格較為偏向人類的偏好。這也能夠使得最後的文字化重述(Textualized Recaptioning)能夠在一個語言能力較好的模板上進行加工。

2. 視覺細節文字化(Visual Detail Textualization):這個階段我們同時從圖片端和文字端進行細節的提取。

首先是文字端,由於在上一階段中我們利用多模態大模型生成的參考描述可能含有幻覺,所以這裡首先做的是 “幻覺檢測”。我們首先利用 LLM 去抓取參考描述中含有的實體,再利用了一個開集檢測器去圖片裡對這個實體進行匹配,如果沒有被檢測出來,則將這個實體判斷為幻覺。這裡我們把檢測出來的幻覺也進行了文字化,在最後的文字化重述(Textualized Recaptioning)進行刪除。

圖片

在視覺端,我們利用在高解析度圖片上訓練出來的各個任務上的視覺專家模型提取影像中的細節資訊。想要將一個圖片上的物體的細節資訊利用文字表達出來僅僅用物體的 caption 是不夠的,我們首先利用提取這些物體的 bounding box 來把這些物體的左右關係給用文字的方式體現出來。但圖片中的物體不僅僅有左右資訊,還有前後資訊。對此,我們首先利用分割模型將這些物體的 mask 給提取出來,再將原本的圖片轉化為深度圖,透過計算深度圖中特定物體 mask 對應的深度分數來將深度資訊由文字體現出來。至此,我們能利用文字還原出圖片中各個物體的大小,左右位置,前後關係等細節資訊。

圖片

3. 文字化重述(Textualized Recaptioning):結合前兩個階段的圖片資訊文字化的結果,加上我們透過精心設計的改寫 prompt,純文字的大語言模型能夠很好的透過純文字還原出圖片的資訊,並透過強大理解和推理能力生成詳細且準確的影像描述。

全面評估與實驗驗證

為了驗證我們框架的有效性,我們構建了三個評估基準,分別是 DID-Bench(詳細影像描述基準)、D2I-Bench(描述到影像基準)和 LIN-Bench(語言基準)。我們進行了廣泛的實驗,結果表明 IT 框架生成的影像描述在細節豐富度和準確性方面顯著優於現有方法。尤其是,透過我們的 IT 框架生成的資料集訓練的 MLLMs,如 LLaVA-7B,展現出了更強的影像描述能力,減少了幻覺現象。

DID-Bench(詳細影像描述基準):用於評估圖片描述和人類手動標的詳細的圖片描述的相似性。可以看到我們的修改後的 IT-{LLaVA} 和 IT-{GPT4-V} 圖片描述都比修改前的要更詳細和準確,更貼合人類標註出來的描述。

圖片

D2I-Bench(描述到影像基準):利用文生圖模型將生成的描述轉化為圖片,和原圖進行相似度的對比,這裡我們選取了 CLIP-score 和 DINO-score 進行評估,都能達到更高的分數。

圖片

圖片

另外我們還在 POPE 和 LIN-Bench 上驗證了利用我們框架生成資料進行訓練的 LLaVA-7B 能夠在生成描述更詳細更復雜的情況下(表右側 LIN-Bench),還能降低幻覺(表左側 POPE 基準)。

圖片

最後,我們對生成出的資料進行了統計上的對比,可以看到我們修改後的描述中各個詞性的數量上都能有較大的提升。

圖片

未來展望

我們的工作不僅解決了現有影像描述資料集的侷限性,也為設計更高效、可擴充套件的方法提供了靈感。我們期待 IT 框架在更多應用領域中展示其潛力,推動影像理解和生成技術的進一步發展。

相關文章