文字識別：關鍵資訊提取的3種探索方法

華為雲開發者社群發表於2021-04-09

原文網址 : https://www.cnblogs.com/huaweiyun/p/14636065.html

摘要：如何通過深度學習模型來從文件圖片中自動化地提取出關鍵資訊成為一項亟待解決的挑戰，受到學術界和工業界的廣泛關注。

深度學習模型已經在OCR領域，包括文字檢測和文字識別任務，獲得了巨大的成功。而從文件中提取關鍵資訊（如圖1所示），其作為OCR的下游任務，存在非常多的實際應用場景。使用人力來從這些文件中提取資訊是重複且費時費力的。如何通過深度學習模型來從文件圖片中自動化地提取出關鍵資訊成為一項亟待解決的挑戰，受到學術界和工業界的廣泛關注。下面將對近期幾篇相關文章進行簡要介紹，並將其分為三個類別：基於柵格（grid-based）、基於圖結構（graph-based）和端到端（end-to-end）。

(a)火車票

（b）購物收據

圖1 從文件圖片中提取關鍵資訊

1. 基於柵格的文件圖片關鍵資訊提取技術

該類方法基於圖片畫素點將圖片轉換為柵格表示向量，輸入到深度學習網路中以學習提取關鍵資訊。

1.1 Chargrid[1]

這篇文章指出文件中的文字間關係不僅受文字的序列順序影響，還與文件中各文字的版式分佈有關。為解決上述問題，作者提出chargrid方法，其將文件圖片對映為一個字元級別的2D柵格表示，如圖2所示。對於每一個字元柵格採用one-hot編碼表示，整個圖片的向量表示為\tilde{g} \in \mathbb{R}^{H×W×N_{c}}g~∈RH×W×Nc，其中HH和WW是圖片的長和寬，N_{c}Nc是字元類別數。

圖2 chargrid的文件表示

隨後該向量表示作為chargrid-net的輸入，基於encoder-decoder的CNN網路結構（如圖3所示）進行關鍵資訊的文字框檢測和語義分割。整個網路由分割損失、邊框分類和邊框座標迴歸三個部分組成的損失函式優化學習：{\mathcal{L}}_{total}={\mathcal{L}}_{seg}+{\mathcal{L}}_{boxmask}+{\mathcal{L}}_{boxcoord}Ltotal=Lseg+Lboxmask+Lboxcoord。關鍵資訊內容通過將分割類別屬於同一類別的字元整合得到。

圖3 chargrid模型架構

1.2 CUTIE[2]

這篇文章同樣指出僅利用NLP技術是無法處理文件中各文字間的佈局資訊。因此作者設計了CUTIE方法，如圖4所示，將文件圖片對映為保留各文字空間位置關係的柵格向量表示，然後設計了兩類CNN模型來進行關鍵資訊題：CUTIE-A，採用高解析度網路HRNet作為骨幹網路；CUTIE-B，採用空洞卷積的CNN網路。整個模型由每個box的預測類別和真實類別間的交叉熵損失優化學習。

圖4 CUTIE模型架構

2. 基於圖結構的文件圖片關鍵資訊提取技術

基於圖結構的方法是將文件圖片看作是由文字切片（text segment）組成的圖結構，並利用神經網路模型來學習出各文字切片間的關係來提取出文件的關鍵資訊內容。

2.1 GC-BiLSTM-CRF[3]

這篇文章指出傳統NER方法BiLSTM-CRF無法利用文件圖片中各文字切片間的佈局資訊。為解決上述問題，作者提出利用圖卷積神經網路來學習文字切片的語義資訊和佈局資訊。

圖5 圖卷積神經網路學習文字切片的圖向量表示

具體地，將文字切片看做點，將文字間關係看做邊，來構造一個全連線圖結構。利用圖卷積神經網路來學習得到每個文字切片的圖向量表示，如圖5所示。

圖6 引入圖向量表示的BiLSTM-CRF

在得到文字切片的圖向量表示後，將其與文字切片中每個文字token的Word2Vec向量拼接，輸入到BiLSTM-CRF網路中進行文件圖片的關鍵資訊提取。整個模型由文字切片分類任務和IOB序列分類任務聯合優化學習。

2.2 LayoutLM[4]

這篇文章指出預訓練模型已經在NLP領域獲得了巨大的成功，但是其缺乏對佈局和版式資訊的利用，從而不適用於文件圖片關鍵資訊提取任務。為解決上述問題，作者提出LayoutLM模型。

圖7 LayoutLM模型架構

該模型以BERT（NLP領域非常強大的預訓練模型）為骨幹網路，為了利用佈局和版式資訊，引入了2D位置向量表示，即各文字切片的兩點標註（左上角的橫縱座標和右下角的橫縱座標）分別通過橫縱兩個方向上的索引表得到的向量。同時可以選擇性地加入切片的視覺向量表示以補充更多的資訊。由於BERT本質上可被看做是一個全連線的圖網路，因此我們將LayoutLM也歸類於基於圖結構的技術。後續出現了類似於LayoutLM的預訓練模型如Lambert[5]等，在文件圖片關鍵資訊提取任務上都取得了SOTA結構，證明了深度學習模型基於大語料和大模型的強大能力。

3.端到端的文件圖片關鍵資訊提取技術

端到端的方法，顧名思義，就是直接以原始圖片作為輸入得到文件的關鍵資訊內容。

3.1 EATEN[6]

這篇文章指出，基於檢測識別流程的資訊提取技術會受到如輕微的位置偏移等帶來的影響。為解決上述問題，作者提出EATEN方法，其直接從原始圖片輸入中提取出文件關鍵資訊內容。

圖8 EATEN模型架構

具體地，如圖8的網路結構所示，EATAN採用CNN骨幹網路來提取得到文件圖片的高層視覺資訊，然後利用實體類別感知的注意力網路來學習實體佈局資訊，最後利用基於LSTM的解碼器解碼得到預設的實體內容。該模型由於直接從圖片中得到文件關鍵資訊，易於加速優化，便於邊緣部署。

3.2 TRIE[7]

這篇文章指出，現有方法對關鍵資訊提取都是將其作為多個獨立的任務進行，即文字檢測、文字識別和資訊提取，彼此之間無法進行相互監督學習，因此作者提出一個端到端的網路模型TRIE，同時對上述三個任務進行模型學習。

圖9 TRIE模型架構

具體地，利用ResNet+FPN作為骨幹網路，進行文字檢測，然後利用檢測網路+ROIAlign的結果進行attention+encoder-decoder的文字識別，最後將文字位置資訊、視覺資訊、語義資訊進行融合，通過BiLSTM來進行IOB標籤分類得到文件關鍵資訊。整個TRIE模型對三個任務（即文字檢測、文字識別和資訊提取）進行共同優化學習：

文字識別：關鍵資訊提取的3種探索方法

小結：

本文對OCR領域中文件圖片的關鍵資訊提取技術進行了簡要介紹，將近期技術按模型分為基於柵格、基於圖和端到端三種類別，對每個類別篩選了兩篇論文進行了闡述。總的來說，基於大語料的預訓練圖模型展現出了巨大的實力，而端到端模型也存在不小的潛力。

參考文獻：

[1] Katti, Anoop R., et al. “Chargrid: Towards Understanding 2D Documents.” EMNLP, 2018.
[2] Zhao, Xiaohui, et al. “Cutie: Learning to understand documents with convolutional universal text information extractor.” arXiv, 2019
[3] Liu, Xiaojing, et al. “Graph Convolution for Multimodal Information Extraction from Visually Rich Documents.” NAACL, 2019.
[4] Xu, Yiheng, et al. “Layoutlm: Pre-training of text and layout for document image understanding.” KDD, 2020.
[5] Garncarek, Łukasz, et al. “LAMBERT: Layout-Aware language Modeling using BERT for information extraction.” arXiv, 2020
[6] Guo, He, et al. “Eaten: Entity-aware attention for single shot visual text extraction.” ICDAR, 2019.
[7] Zhang, Peng, et al. “TRIE: End-to-End Text Reading and Information Extraction for Document Understanding.” ACM MM, 2020.

本文分享自華為雲社群《技術綜述十：文字識別之關鍵資訊提取》，原文作者：小菜鳥chg 。

點選關注，第一時間瞭解華為雲新鮮技術~

從圖片提取文字的終極解決方法 ——【通用文字識別 API】
2023-03-29
API
手機如何提取圖片中的文字、拍照識別文字的操作
2018-09-17
中文NLP筆記：3. 關鍵詞提取的幾個方法
2019-01-21
筆記
excel表格文字識別-ocr表格文字提取api介面整合
2024-10-31
ExcelAPI
如何做好文字關鍵詞提取？從三種演算法說起
2018-11-15
演算法
Python提取文字檔案（.txt）資料的方法
2024-05-24
Python
表格轉文字如何實現-表格文字識別介面整合示例-快速提取表格中的文字
2024-10-30
關鍵字、資料型別、識別符號
2024-07-06
資料型別符號
關鍵詞提取
2024-04-05
分享：識別圖片文字方法
2021-12-14
hanlp中文智慧分詞自動識別文字提取例項
2018-11-30
HanLP分詞
應對網路攻擊減少資料丟失的3種關鍵方法
2021-12-03
錄音內容如何轉成文字？從音訊中提取文字的實用方法
2021-04-16
音訊
node js 批量處理pdf，提取關鍵資訊，並匯出excel
2018-07-05
JSExcel
NLPIR大資料平臺的文字資訊提取功能介紹
2019-09-16
大資料
Java獲取堆疊資訊的3種方法
2024-03-13
Java
mac上如何提取圖片上的文字？幾款不錯的OCR文字識別工具推薦
2021-02-02
Mac
一、Windows10平臺下Unity3d的語音識別——關鍵字識別
2018-12-18
WindowsUnity3D
Java中用正則從HTML標籤中提取文字2種方法
2024-05-19
JavaHTML
實現圖片文字識別的方法有哪些
2019-04-29
3種關鍵技術，助力化驗單自動識別，醫療行業資料處理效率提升50%
2024-12-07
行業
視訊通訊關鍵技術探索及實踐
2021-11-16
通用文字識別API-通用文字識別介面可以識別哪些場景文字
2024-10-21
API
潦草手寫體也能輕鬆識別，快速提取文字不用愁
2022-12-08
識別符號與關鍵字
2018-07-17
符號
NLPIR在文字資訊提取方面的優勢介紹
2019-09-12
C# 10分鐘完成百度圖片提取文字（文字識別）——入門篇
2019-08-01
C#
文字檢測與識別資源
2018-03-15
JavaSE 關鍵字和識別符號
2024-05-25
Java符號
流量中提取檔案的若干種方法
2021-12-27
ocr文字識別軟體怎麼識別手機上的照片文字？
2022-01-05
上司要我把宣傳欄的內容提取成文字，我拍照識別就搞定
2021-02-01
如何用Python提取中文關鍵詞？
2018-06-28
Python
警惕Apache 共享資源文字中的關鍵新漏洞
2022-10-18
Apache
百度識別例程-QT介面-識別列表-串列埠通訊-文字影像
2024-04-18
QT串列埠
Go語言的識別符號、關鍵字、字面量、型別
2019-02-16
Go符號型別
java:識別符號關鍵字變數
2020-12-17
Java符號變數
人臉識別之Python DLib庫進行人臉關鍵點識別
2019-06-16
Python