跟我讀CVPR 2022論文:基於場景文字知識挖掘的細粒度影像識別演算法

華為雲開發者社群發表於2022-04-24
摘要:本文通過場景文字從人類知識庫(Wikipedia)中挖掘其背後豐富的上下文語義資訊,並結合視覺資訊來共同推理影像內容。

本文分享自華為雲社群《[CVPR 2022] 基於場景文字知識挖掘的細粒度影像識別演算法》,作者: 穀雨潤一麥。

本文簡要介紹CVPR 2022錄用的論文“Knowledge Mining with Scene Text for Fine-Grained Recognition”的主要工作。該論文旨在利用場景文字的線索來提升細粒度影像識別的效能。本文通過場景文字從人類知識庫(Wikipedia)中挖掘其背後豐富的上下文語義資訊,並結合視覺資訊來共同推理影像內容。資料集和程式碼已開源,下載地址見文末。

跟我讀CVPR 2022論文:基於場景文字知識挖掘的細粒度影像識別演算法

研究背景

文字是人類傳達資訊、知識和情感的重要載體,其蘊含了豐富的語義資訊。利用文字的語義資訊,可以更好地理解影像中的內容。和文件文字不同,場景文字具有稀疏性,通常以少許關鍵詞的形式存在於自然環境中,通過稀疏的關鍵詞,機器難以獲取精準的語義。然而,人類能夠較為充分地理解稀疏的場景文字,其原因在於,人類具有大量的外部知識庫,能夠通過知識庫來彌補稀疏的場景文字所帶來的語義損失。

如圖1所示:該資料集是關於細粒度影像分類任務,旨在區分影像中的瓶子屬於哪種飲品或酒類。圖中3張影像均屬於soda類飲品,儘管(a)(b)兩案例的瓶子具有不同的視覺屬性(不同材質、形狀),但是關鍵詞soda提供了極具區分力的線索來告知樣本屬於soda飲品。儘管案例(c)同樣屬於soda類飲品,但是其附屬的場景文字的表面資訊無法提供明顯的線索。表格(d)中列出了案例(c)中的場景文字在Wikipedia中的描述,Wikipedia告知我們,場景文字leninade代表某種品牌,其屬於soda類飲品。因此,挖掘場景文字背後豐富的語義資訊能夠進一步彌補場景文字的語義損失,從而更為準確地理解影像中的目標。

跟我讀CVPR 2022論文:基於場景文字知識挖掘的細粒度影像識別演算法
  • Bottle資料集中的案例,3張影像均屬於soda類別

方法簡述

演算法框架:如圖2所示,網路框架由視覺特徵分支、知識提取分支和知識增強分支、視覺-知識注意力模組和分類器構成。演算法輸入包括3部分:影像,影像中包含的場景文字例項,外部知識庫。其中場景文字例項通過已有的文字識別器從輸入影像中獲取,外部知識庫採用了Wikipedia。知識提取分支提取場景文字例項背後的語義資訊(知識特徵),知識增強分支融合場景文字例項和挖掘出的知識特徵。隨後,視覺-知識注意力模組融合視覺和知識特徵,並將其輸入給分類器進行分類。

跟我讀CVPR 2022論文:基於場景文字知識挖掘的細粒度影像識別演算法

演算法框架圖,由視覺特徵分支、知識提取分支和知識增強分支、視覺-知識注意力模組(VKAC)和分類器構成。

知識提取分支:該分支由實體候選選擇器和實體編碼器構成。在知識庫中,同一關鍵詞能夠表示多個實體,比如apple可表示fruit apple,也可表示company apple。實體候選選擇器預先在大量語料庫上統計單詞在所有可能實體上的概率分佈,根據概率分佈選取前10個候選實體,並將其輸入給實體編碼器進行特徵編碼。實體編碼器在Wikipedia的資料庫上進行預訓練,預訓練任務旨在通過Wikipedia上實體的描述來預測該頁面的標題(實體名稱)。通過此任務的學習,實體名稱對於的特徵編碼了該詞條的上下文資訊。

知識增強特徵分支:該分支主要由bert[1]構成,在bert的第10層後插入知識注意力模組(KARC),該模組融合了文字例項特徵和知識特徵後,接著輸入給bert剩餘的層。Bert第12層輸出的特徵給VKAC模組。KARC的網路結構如圖3所示。

視覺-知識注意力模組:並非所有的場景文字或知識對理解影像有積極作用,為選取和影像內容相關的場景文字和知識來加強對影像的理解。該模組以影像全域性特徵作為訪問特徵,從增強的知識特徵中選取相關的知識特徵來加強視覺特徵。其網路結構由注意力模型構成。

跟我讀CVPR 2022論文:基於場景文字知識挖掘的細粒度影像識別演算法

知識注意力模組(KARC),橙色和綠色模組是模組的兩種輸入

實驗結果

為研究場景文字背後的知識對影像識別的幫助,我們收集了一個關於人群活動的資料集。該資料集中的類別主要分為遊行示威和日常人群密集活動兩大類,細分為21類。資料集案例如圖4所示。

跟我讀CVPR 2022論文:基於場景文字知識挖掘的細粒度影像識別演算法

人群活動資料集樣例

和SOTA對比:在公開資料集Con-Text、Bottles以及我們收集的Activity資料集上,在使用resnet50[3]和E2E-MLT[4]作為視覺特徵提取器和文字提取器時,我們方法能在同等情況下取得最佳結果。當使用ViT和Google OCR時,其模型效能結果能進一步提升。

跟我讀CVPR 2022論文:基於場景文字知識挖掘的細粒度影像識別演算法

視覺、文字、知識特徵對識別的影響:可以看出,文字的表面語義(Glove,fastText)在視覺網路為Resne50[3]的時候,能對識別效能有較大提升。當視覺網路為ViT[2]時,提升極其有限。如圖5所示,Resnet50關注於主要於視覺目標具有區分力的區域,而ViT能同時關注在視覺目標和場景文字上。因此,再使用場景文字的表語含義難以對ViT有較大促進作用。而挖掘文字的背後語義後,能進一步提升ViT作為視覺backbone的模型的效能。

跟我讀CVPR 2022論文:基於場景文字知識挖掘的細粒度影像識別演算法

跟我讀CVPR 2022論文:基於場景文字知識挖掘的細粒度影像識別演算法

上下兩行分別為resnet50和ViT模型的注意力熱圖

總結與結論

本文提出了一種通過挖掘場景文字背後語義來增強分類模型理解影像內容的方法,該方法的核心是利用場景文字作為關鍵詞,到wikipedia知識庫中檢索出相關的知識,並獲取其特徵表達,和影像視覺特徵進行融合理解,而並非僅僅利用場景文字的表面語義資訊。得益於挖掘場景文字背後的知識,該方法能夠更好地理解文字語義並不非常直觀的內容。實驗表明,該方法在3個資料集上均取得了最佳結果。

相關資源

論文地址:https://arxiv.org/pdf/2203.14215.pdf

資料集和程式碼連結:https://github.com/lanfeng4659/KnowledgeMiningWithSceneText

參考文獻

[1] Devlin, Jacob, et al. "Bert: Pre-training of deep bidirectional transformers for language understanding." arXiv preprint arXiv:1810.04805 (2018).

[2] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv:2010.11929, 2020.

[3] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.

[4] Bušta M, Patel Y, Matas J. E2e-mlt-an unconstrained end-to-end method for multi-language scene text[C]//Asian Conference on Computer Vision. Springer, Cham, 2018: 127-143.

 

點選關注,第一時間瞭解華為雲新鮮技術~

相關文章