最近,華中科技大學和金山的研究人員在多模態大模型 Monkey [1](Li et al., CVPR2024)工作的基礎上提出 TextMonkey。在多個場景文字和文件的測試基準中,TextMonkey 處於國際領先地位,有潛力帶來辦公自動化、智慧教育、智慧金融等行業應用領域的技術變革。
論文連結:https://arxiv.org/abs/2403.04473
程式碼地址:https://github.com/Yuliang-Liu/Monkey
TextMonkey 是一個專注於文字相關任務(包括文件問答和場景文字問答)的多模態大模型(LMM)。相比於 Monkey,TextMonkey 在多個方面進行改進:透過採用零初始化的 Shifted Window Attention,TextMonkey 實現了更高輸入解析度下的視窗間資訊互動;透過使用相似性來過濾出重要的影像特徵,TextMonkey 不僅能夠簡化輸入,還可以提高模型的效能。
此外,透過擴充套件多個文字相關任務並將位置資訊納入回答,TextMonkey 增強了可解釋性並減少了幻覺。與此同時,TextMonkey 在微調之後還可以具備 APP Agent 中理解使用者指令並點選相應位置的能力,展現了其下游應用的巨大潛力。
例如,TextMonkey 展現出強大的視覺定位與理解能力,不僅能夠定點陣圖像中的所有文字,還能在視覺問答時給出答案及其所在位置,增加了可解釋性並減少了幻覺。
即使在文字相當密集的情況下,TextMonkey 也可以讀取輸入圖片中的所有文字並且給出圖片中文字的座標。
TextMonkey 還能幫助我們結構化圖表,表格以及文件資料,透過將影像內容轉化為 Json 格式的資訊,方便記錄和提取。
實驗結果表明,TextMonkey 在各種基準資料集上的效能得到了顯著提升,在以場景文字為中心的視覺問答、文件 VQA 和關鍵資訊抽取任務中分別取得了 5.2%、6.9% 和 2.8% 的準確率增長,特別是在 OCRBench [2] 上獲得了 561 的得分,超越此前所有已開源的多模態大模型。
方法介紹
TextMonkey 的成功核心在於它模擬人類視覺認知的方法,這使它能自然而然地識別高畫質文件影像中各部分的相互關聯,並靈敏地鑑別出影像內的關鍵要素。更進一步,基於對使用者多樣化需求的深入理解,TextMonkey 透過文字定位技術強化了答案的準確性,提升了模型的解釋性,減少了幻覺,有效提高了在處理各類文件任務上的表現。
圖 1 TextMonkey 整體架構
1.Shifted Window Attention
現有的多模態大模型,如 Monkey 和 LLaVA1.6,透過將影像切分為小塊來提高輸入解析度。然而這種裁剪策略可能會無意中分割相關單詞,導致語義不連貫。此外,這種分裂造成的空間分離也使得處理與文字位置相關的任務(如文字檢測)變得具有挑戰性。TextMonkey 在繼承 Monkey 高效的影像解析度縮放功能的同時,採用滑動視窗注意力機制建立了塊與塊之間的上下文聯絡。
2.Token Resampler
目前的多模態大模型面臨著影像 token 數目隨著輸入解析度的增加而增加的挑戰。由於語言模型的輸入長度和訓練時間的限制,減少 token 的數量是很有必要的。
在自然語言中,語言元素會存在一些冗餘資訊。那麼可以自然的猜測在擴大影像解析度之後,視覺部分的 token 也會存在冗餘。本文根據以往確定語言元素相似性的方法,對已經對映到語言空間的影像 token 的相似性進行了度量:在影像 Resampler 之後隨機選取 20 個有序特徵,利用餘弦相似性成對比較這些特徵的相似性,得到的結果如圖 2 所示。顏色越深代表相似性越高,實驗發現每個圖片的 token 都有一個到幾個類似的 token,圖片特徵中存在冗餘。
同時,本文還觀察到某些 token 是高度獨特的,並且缺乏其他相似的 token,如圖中的第四個 token,這表明這個 token 是更為重要的。因此本文選用相似度來度量並識別獨特的視覺 token。並提出 Token Resampler 來壓縮冗餘視覺 token。透過計算每個 token 與其他 token 的相似度,過濾得到最重要(相似度最低)的 K 個 token。同時,為了避免直接丟棄其他 token 造成的資訊丟失,這裡還會利用過濾得到的 K 個 token 作為查詢,並採用交叉注意力機制進一步融合所有特徵。
圖 2 影像 token 相似性比較
3. 多工訓練
TextMonkey 支援讀出所有文字,文字檢測識別,輸出給定文字座標,文字問答,具有位置感知的文字問答,影像結構化等多個任務。TextMonkey 在進行問答時不僅看可以給出答案,還能給出答案所在位置,進一步增強了模型的可解釋性。與此同時,在經過微調之後,TextMonkey 還可以具備 APP Agent 中理解使用者指令並點選相應位置的能力。
實驗分析
1.TextMonkey 與現有的多模態大模型相比,表現出了優越的效能。
2. 為了進一步驗證 TextMonkey 的有效性,本文還在更多資料集上進行了測試。(其中 Deepform 和 KLC 使用 F1-score 作為評估指標,WTQ 使用 accuracy, ChartQA 使用 relaxed accuracy, DocVQA 使用 ANLS。)
3.TextMonkey 在 Text Spotting 資料集上相比於傳統 OCR 模型也取得了極具競爭力的效果。
4. 表 7 的消融實驗表明 Shifted Window Attention 和 Token Resampler 兩個模組的有效性。
5. 表 9 的消融實驗證明:由於解析度的提高導致冗餘 token 的顯著增加,使得找到關鍵資訊變得更加困難,在不壓縮 Token 的情況下直接增加解析度實際上會導致一致的效能損失,如在表中第一行和第四行,在不壓縮 Token 時,解析度由 896 增加到 1344 會導致模型在四個資料集上的指標均有所下降,這說明了沒有策略地一味增加模型的解析度反而會帶來負面影響,如何合理地增加解析度,將會是一個需要集中解決的問題。不僅如此,表 9 中還說明,當選取不同的壓縮 Token 數量時,對模型效能的影響也是顯著的,選取一個合適的值來作為壓縮 Token 的數量,可以使得模型的效能進一步提升。
視覺化結果展示
TextMonkey 在場景影像和文件影像中都能準確定位和識別文字。此外,(a) 中的自然影像、(b) 中的文件、(c) 中的圖表和 (d) 中的表格都展示了 TextMonkey 在多種場景下識別、理解和定位文字資訊的能力。
本文還探索了 TextMonkey 作為智慧手機應用程式的 Agent 代理方面的可行性。使用來自 Rico 資料集的 15k 使用者點選資料上進行微調之後,TextMonkey 能夠理解使用者意圖並點選相應的圖示,這表明了 TextMonkey 在微調之後作為 App Agent 的巨大潛力。
總結
TextMonkey 在 Monkey 的基礎上增強了其影像間的跨視窗互動,在擴大解析度的基礎上增強了視覺資訊的語義連續性,有效緩解了視覺資訊碎片化的問題;並透過提出過濾融合策略減少影像特徵長度,從而減少輸入到大語言模型中冗餘的視覺 token 數量。論文的實驗說明,解析度不是越大越好,不合理的提高模型解析度策略有時會給模型帶來負面影響,如何合理地擴大解析度才是一個更值得去思考的問題。
此外,透過在問答中引入位置資訊,TextMonkey 增強了可解釋性並減少了幻覺。TextMonkey 在多個文字相關的測試基準中處於國際領先,在 OCRBench 中超越其他開源多模態大模型。TextMonkey 的到來為通用文件理解帶來曙光,這有潛力促進辦公自動化、智慧教育、智慧金融等行業的技術變革。
參考文獻
[1] Li Z, Yang B, Liu Q, et al. Monkey: Image resolution and text label are important things for large multi-modal models [J]. arXiv preprint arXiv:2311.06607, 2023.
[2] Liu Y, Li Z, Li H, et al. On the hidden mystery of ocr in large multimodal models [J]. arXiv preprint arXiv:2305.07895, 2023.