摘要:如何通過深度學習模型來從文件圖片中自動化地提取出關鍵資訊成為一項亟待解決的挑戰,受到學術界和工業界的廣泛關注。
深度學習模型已經在OCR領域,包括文字檢測和文字識別任務,獲得了巨大的成功。而從文件中提取關鍵資訊(如圖1所示),其作為OCR的下游任務,存在非常多的實際應用場景。使用人力來從這些文件中提取資訊是重複且費時費力的。如何通過深度學習模型來從文件圖片中自動化地提取出關鍵資訊成為一項亟待解決的挑戰,受到學術界和工業界的廣泛關注。下面將對近期幾篇相關文章進行簡要介紹,並將其分為三個類別:基於柵格(grid-based)、基於圖結構(graph-based)和端到端(end-to-end)。
(a)火車票
(b)購物收據
圖1 從文件圖片中提取關鍵資訊
1. 基於柵格的文件圖片關鍵資訊提取技術
該類方法基於圖片畫素點將圖片轉換為柵格表示向量,輸入到深度學習網路中以學習提取關鍵資訊。
1.1 Chargrid[1]
這篇文章指出文件中的文字間關係不僅受文字的序列順序影響,還與文件中各文字的版式分佈有關。為解決上述問題,作者提出chargrid方法,其將文件圖片對映為一個字元級別的2D柵格表示,如圖2所示。對於每一個字元柵格採用one-hot編碼表示,整個圖片的向量表示為\tilde{g} \in \mathbb{R}^{H×W×N_{c}}g~∈RH×W×Nc,其中HH和WW是圖片的長和寬,N_{c}Nc是字元類別數。
圖2 chargrid的文件表示
隨後該向量表示作為chargrid-net的輸入,基於encoder-decoder的CNN網路結構(如圖3所示)進行關鍵資訊的文字框檢測和語義分割。整個網路由分割損失、邊框分類和邊框座標迴歸三個部分組成的損失函式優化學習:{\mathcal{L}}_{total}={\mathcal{L}}_{seg}+{\mathcal{L}}_{boxmask}+{\mathcal{L}}_{boxcoord}Ltotal=Lseg+Lboxmask+Lboxcoord。關鍵資訊內容通過將分割類別屬於同一類別的字元整合得到。
圖3 chargrid模型架構
1.2 CUTIE[2]
這篇文章同樣指出僅利用NLP技術是無法處理文件中各文字間的佈局資訊。因此作者設計了CUTIE方法,如圖4所示,將文件圖片對映為保留各文字空間位置關係的柵格向量表示,然後設計了兩類CNN模型來進行關鍵資訊題:CUTIE-A,採用高解析度網路HRNet作為骨幹網路;CUTIE-B,採用空洞卷積的CNN網路。整個模型由每個box的預測類別和真實類別間的交叉熵損失優化學習。
圖4 CUTIE模型架構
2. 基於圖結構的文件圖片關鍵資訊提取技術
基於圖結構的方法是將文件圖片看作是由文字切片(text segment)組成的圖結構,並利用神經網路模型來學習出各文字切片間的關係來提取出文件的關鍵資訊內容。
2.1 GC-BiLSTM-CRF[3]
這篇文章指出傳統NER方法BiLSTM-CRF無法利用文件圖片中各文字切片間的佈局資訊。為解決上述問題,作者提出利用圖卷積神經網路來學習文字切片的語義資訊和佈局資訊。
圖5 圖卷積神經網路學習文字切片的圖向量表示
具體地,將文字切片看做點,將文字間關係看做邊,來構造一個全連線圖結構。利用圖卷積神經網路來學習得到每個文字切片的圖向量表示,如圖5所示。
圖6 引入圖向量表示的BiLSTM-CRF
在得到文字切片的圖向量表示後,將其與文字切片中每個文字token的Word2Vec向量拼接,輸入到BiLSTM-CRF網路中進行文件圖片的關鍵資訊提取。整個模型由文字切片分類任務和IOB序列分類任務聯合優化學習。
2.2 LayoutLM[4]
這篇文章指出預訓練模型已經在NLP領域獲得了巨大的成功,但是其缺乏對佈局和版式資訊的利用,從而不適用於文件圖片關鍵資訊提取任務。為解決上述問題,作者提出LayoutLM模型。
圖7 LayoutLM模型架構
該模型以BERT(NLP領域非常強大的預訓練模型)為骨幹網路,為了利用佈局和版式資訊,引入了2D位置向量表示,即各文字切片的兩點標註(左上角的橫縱座標和右下角的橫縱座標)分別通過橫縱兩個方向上的索引表得到的向量。同時可以選擇性地加入切片的視覺向量表示以補充更多的資訊。由於BERT本質上可被看做是一個全連線的圖網路,因此我們將LayoutLM也歸類於基於圖結構的技術。後續出現了類似於LayoutLM的預訓練模型如Lambert[5]等,在文件圖片關鍵資訊提取任務上都取得了SOTA結構,證明了深度學習模型基於大語料和大模型的強大能力。
3.端到端的文件圖片關鍵資訊提取技術
端到端的方法,顧名思義,就是直接以原始圖片作為輸入得到文件的關鍵資訊內容。
3.1 EATEN[6]
這篇文章指出,基於檢測識別流程的資訊提取技術會受到如輕微的位置偏移等帶來的影響。為解決上述問題,作者提出EATEN方法,其直接從原始圖片輸入中提取出文件關鍵資訊內容。
圖8 EATEN模型架構
具體地,如圖8的網路結構所示,EATAN採用CNN骨幹網路來提取得到文件圖片的高層視覺資訊,然後利用實體類別感知的注意力網路來學習實體佈局資訊,最後利用基於LSTM的解碼器解碼得到預設的實體內容。該模型由於直接從圖片中得到文件關鍵資訊,易於加速優化,便於邊緣部署。
3.2 TRIE[7]
這篇文章指出,現有方法對關鍵資訊提取都是將其作為多個獨立的任務進行,即文字檢測、文字識別和資訊提取,彼此之間無法進行相互監督學習,因此作者提出一個端到端的網路模型TRIE,同時對上述三個任務進行模型學習。
圖9 TRIE模型架構
具體地,利用ResNet+FPN作為骨幹網路,進行文字檢測,然後利用檢測網路+ROIAlign的結果進行attention+encoder-decoder的文字識別,最後將文字位置資訊、視覺資訊、語義資訊進行融合,通過BiLSTM來進行IOB標籤分類得到文件關鍵資訊。整個TRIE模型對三個任務(即文字檢測、文字識別和資訊提取)進行共同優化學習:
小結:
本文對OCR領域中文件圖片的關鍵資訊提取技術進行了簡要介紹,將近期技術按模型分為基於柵格、基於圖和端到端三種類別,對每個類別篩選了兩篇論文進行了闡述。總的來說,基於大語料的預訓練圖模型展現出了巨大的實力,而端到端模型也存在不小的潛力。
參考文獻:
[1] Katti, Anoop R., et al. “Chargrid: Towards Understanding 2D Documents.” EMNLP, 2018.
[2] Zhao, Xiaohui, et al. “Cutie: Learning to understand documents with convolutional universal text information extractor.” arXiv, 2019
[3] Liu, Xiaojing, et al. “Graph Convolution for Multimodal Information Extraction from Visually Rich Documents.” NAACL, 2019.
[4] Xu, Yiheng, et al. “Layoutlm: Pre-training of text and layout for document image understanding.” KDD, 2020.
[5] Garncarek, Łukasz, et al. “LAMBERT: Layout-Aware language Modeling using BERT for information extraction.” arXiv, 2020
[6] Guo, He, et al. “Eaten: Entity-aware attention for single shot visual text extraction.” ICDAR, 2019.
[7] Zhang, Peng, et al. “TRIE: End-to-End Text Reading and Information Extraction for Document Understanding.” ACM MM, 2020.
本文分享自華為雲社群《技術綜述十:文字識別之關鍵資訊提取》,原文作者:小菜鳥chg 。