
CLIP、DINO、SAM 基座的重磅問世,推動了各個領域的任務大一統,也促進了多模態大模型的蓬勃發展。
然而,這些經過影像級監督或弱語義訓練的基座,並不是處理細粒度密集預測任務的最佳選擇,尤其在理解包含密集文字的文件影像上。
為解決這一限制,上交聯合美團實現了圖文對齊粒度的新突破,其具備三大核心優勢:
構建業內首個 token 級圖文資料集 TokenIT:該資料集包含 2000 萬條公開影像以及 18 億高質量的 Token-Mask 對。影像中的每個 BPE 子詞均對應一個畫素級掩碼。資料體量是 CLIP 的 5 倍,且比 SAM 多出 7 億資料對。
構建圖文領域首個細粒度大一統基座 TokenFD:僅需透過簡單的一層語言編碼,依託億級的 BPE-Mask 對打造出細粒度基座 TokenFD。真正實現了影像 Token 與語言 Token 在同一特徵空間中的共享,從而支援 Token 級的圖文互動和各種下游任務。
TokenVL 打通模態 GAP:進一步開放影像即文字的語義潛力,首次實現在大語言模型中進行 token 級的模態對齊,賦能密集型的多模態文件理解任務。

專案主頁:https://token-family.github.io/project_page/ 體驗地址:https://huggingface.co/spaces/TongkunGuan/Token-level_Text_Image_Foundation_Model GitHub:https://github.com/Token-family/TokenFD 論文地址: https://arxiv.org/pdf/2503.02304


包含 2000 萬張影像與 18 億 Token-Mask 對,覆蓋自然場景、文件、圖表、程式碼截圖、圖形使用者介面等全場景文字影像型別。
資料量遠超 CLIP(5 倍)、SAM(多 7 億),提供更豐富的語義資訊。
首創 BPE 分詞 + 畫素級掩碼標註:將文字分割為 BPE 子詞(如「un-」、「-able」),每個子詞(token)精確對應影像中的區域性區域。
支援「影像即文字」的語義對映,為多模態大模型理解字元、公式、表格等複雜結構奠定基礎。

文字分割(Zero-Shot 效能提升 18.78%)
文字理解(Zero-Shot 效能提升 1.48%)
文字檢索(Zero-Shot 效能提升 50.33%)
未來盼望他們支援可控文字生成/擦除等更多工
賦能多模態大模型(例如 TokenVL)細粒度文字感知能力,顯著提升 OCR、文件解析等任務表現。
影像安全審查
基於文字的影像檢索(適用於搜尋引擎、電商平臺、社交平臺)
知識檢索增強的大模型

基座適配度百分百
文件理解多模態大模型對齊新正規化
