萬億token!史上最大多模態資料集誕生

机器之心發表於2024-07-27

開源多模態大模型或將開始騰飛。

圖片

值此 Llama 3.1 佔領各大頭條之際,又突然冒出了另一個也非常重要的釋出 —— 一個規模空前的開源多模態資料集。

對大模型來說,資料集的重要性無需多言,甚至可以說沒有大型資料集就不可能有大模型。現在正是多模態大模型(LMM)發展正盛的時候,規模足夠大的優質且開源的多模態資料集已經成為該領域的一大「剛需」。

不過,相比於開源的文字資料集,現有的開源多模態資料集都比較小、多樣性也不足,並且來源基本都是 HTML 文件 —— 這就限制了資料的廣度和多樣性。這無疑限制了開源 LMM 的發展,讓開源 LMM 與閉源 LMM 之間的差異變得非常大。

近日,華盛頓大學、Salesforce Research 和史丹佛大學等機構的聯合團隊填補了這一空白,構建了一個萬億 token 級的交織多模態的開源資料集 MINT-1T(Multimodal INTerleaved)。毫無疑問,這是目前最大的開源多模態資料集。
圖片
  • 資料集地址:https://github.com/mlfoundations/MINT-1T
  • 論文地址:https://arxiv.org/abs/2406.11271
  • 論文標題:MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens

MINT-1T 共包含一萬億文字 token 和三十億張影像,並且其有 HTML/PDF/ArXiv 等多種不同來源。在 MINT-1T 問世之前,該領域最大的開源資料集是 OBELICS,其包含 1150 億文字 token 和 3.53 億張影像,並且來源只有 HTML。圖 1 比較了這些資料集。
圖片
資料集的構建

首先,該團隊從多樣化的來源(包括 HTML、PDF、ArXiv)收集了大量多模態資料,圖 2 展示了這些不同來源的多模態文件樣本。
圖片
然後,為了提高資料質量和安全性,他們執行了文字質量過濾、影像過濾、安全過濾(包括去除 NSFW 影像和可識別個人身份的資訊)以及去重。圖 3 簡要展示了這些資料過濾過程。
圖片
最終,他們得到的 MINT-1T 資料集包含 9220 億 HTML token、1060 億 PDF token 和 90 億 ArXiv token。值得注意的是,整個資料處理過程耗費了大約 420 萬 CPU 小時數。表 1 對比了一些常見的開源或閉源多模態資料集。
圖片
模型實驗

該團隊也實驗了使用該資料集訓練多模態模型的效果,並與其它資料集進行了比較。

他們使用的模型架構是 Salesforce 的 XGen-MM,評估的則是模型在資料集上學習之後的上下文學習和多影像推理能力。評估基準包括:視覺描述基準(COCO 和 TextCaps)、視覺問答基準(VQAv2、OK-VQA、TextVQA 和 VizWiz)、多影像推理基準(MMMU 和 Mantis-Eval)。

實驗結果

在 HTML 文件上訓練

該團隊首先對比了 MINT-1T 的 HTML 部分與 OBELICS;因為 OBELICS 是之前領先的多模態資料集並且也是基於 HTML 文件,他們基於這兩個資料集分別用 100 億多模態 token 訓練了兩個模型,並評估了它們的上下文學習效能。

表 2 給出了在常見基準上的 4-shot 和 8-shot 效能。
圖片
可以看到,對於 VQA(視覺問答)任務,在 MINT-1T HTML 文件上訓練的模型表現優於在 OBELICS 訓練的模型,但前者在視覺描述任務上表現更差一些。平均而言,OBELICS 比 MINT-1T (HTML) 略好一點。

新增 PDF 和 ArXiv 文件

之後,該團隊又在 MINT-1T 全資料集上進行了測試,即同時包含 HTML、PDF 和 ArXiv 文件。他們通常取樣了 100 億多模態 token,其中 50% 來自 HTML、45% 來自 PDF、5% 來自 ArXiv。

結果同樣見表 2,可以看到在 MINT-1T 混合資料上訓練的模型在大多數基準上都優於在 OBELICS 和 MINT-1T (HTML) 上訓練的模型。

而在更為複雜的多模態推理任務上,如表 3 所示,用 MINT-1T 訓練的模型在 MMMU 上優於用 OBELICS 訓練的模型,但在 Mantis-Eval 基準上不及後者。
圖片
更細粒度的測試和模型架構的影響請參考原論文。

這個超大規模的開源多模態資料集能否成為一系列傳奇的起點,最終造就一個類似 Llama 系列模型那樣的多模態大模型系列呢?讓我們拭目以待吧。

相關文章