智慧文件處理IDP關鍵技術與實踐-高翔

什麼是智慧文件處理？針對文字資料處理尤其是純文字，大家通常會想到使用自然語言處理（Natural language processing，NLP）技術來解決語義理解及分析處理工作。關於自然語言處理技術的研究有很長曆史，針對不同層面文字處理和分析有很多技術點，常見技術例如分詞與詞性標註、命名實體識別、句法結構分析、文字分類、文字摘要等功能。

相較於純文字，文件的資訊表達更加複雜，除各種形式的文字資訊外，還包括表格、圖片等資訊。因此要正確理解文件中的所有內容，僅憑自然語言處理技術難度很大，需要結合其他技術。

智慧文件處理IDP關鍵技術與實踐-高翔

圖 1 常見文字資訊表達方式

智慧文件處理（Intelligence Document Processing, IDP）技術是針對文件內容自動處理分析的一攬子技術，除自然語言處理技術外，還包括計算機視覺、文件解析等相關底層技術，因此相較於NLP技術，IDP技術更加複雜。在IDP技術中，光學字元識別（Optical Character Recognition，OCR）技術，文件解析（Document Parsing，DP）技術和資訊提取（Information Extraction，IE）技術最為核心關鍵，使用最為廣泛。

光學字元識別技術主要解決文字以影像形式展現的問題。很多文字資訊在文件中以圖表形式展現，甚至很多文件也以影像形式儲存，因此需要OCR技術提取文件中的所有文字及其位置進行分析。另外有些PDF檔案對文字內容加密，無法直接拿到字元資訊，也需OCR技術拿到正確文字內容。

文件解析技術包括不同型別檔案協議解析、文件內容統一表示、版面分析技術、表格解析技術等，目的是把不同型別文件及其中各類元素資訊用同一套協議表示文件結構及內容，包含影像和語義資訊。

資訊提取技術指的是根據文件結構及內容資訊，使用不同演算法對不同文件元素進行資訊提取，合併抽取資訊結果，並根據業務需求進行輸出。

基於以上核心技術，智慧文件處理的通用流程如下圖所示：

智慧文件處理IDP關鍵技術與實踐-高翔

圖 2 通用智慧文件處理流程

光學字元識別技術

光學字元識別技術相對成熟，應用範圍廣，通常情況下，對於清晰的影像，字元識別準確率較高。但是特定的場景下，例如透視、模糊、光線不足、高密度文字等情況下，OCR系統的識別效果下降很大，給實際場景中圖片形式的文件處理帶來困難。

OCR技術路線通常有兩種：

端到端一階段的方法
檢測、識別二階段的方法

兩種技術路線各有優勢，沒有絕對的好壞。端到端的方法優勢在於特定場景效果擬合能力強，但缺點是訓練較為困難，效果不太可控。對於一階段方法，達觀常用於印章、車牌等特定場景的文字識別。二階段方法能夠分別在不同步驟達到最佳效果，並能透過業務干預不同階段輸出結果使用較為靈活，因此達觀常用於通用文件識別場景，缺點是需要維護兩個獨立模組，成本相對較高。

智慧文件處理IDP關鍵技術與實踐-高翔

圖 3 OCR主流技術路線

01 文字檢測演算法概覽

文字檢測演算法的目的是找出影像中文字所在位置，通常情況下是以文字片段組成的文字框為檢測目標，當然也有針對單個字元的文字檢測方式。針對文字檢測，目前分為基於迴歸的方法和基於分割的方法。

基於迴歸的方法代表演算法有CTPN、SegLink、EAST、CRAFT等，這些方法各有優劣，在不同情況下存在效果差異問題。基於迴歸的方法對規則形狀的文字檢測效果較好，但對於不規則文字以及長文字檢測效果不佳。

基於例項分割的代表演算法有PSENet、DBNet、FCENet，能夠針對各種形狀的文字都能夠取得較好的檢測效果，例如大量使用手機拍攝導致的文字扭曲變形等問題，因此在實際落地時使用較多。基於例項分割方法的缺點是後處理通常比較複雜，需要針對後處理部分程式碼進行特殊最佳化，才能在效果和速度上保證最優。
下表展示了常見文字檢測演算法及優缺點。

智慧文件處理IDP關鍵技術與實踐-高翔

表1 常見文字檢測演算法及優缺點

02 文字識別演算法概覽

文字識別技術路線主要經歷三個階段：

以CRNN為代表基於CNN-RNN結構的識別模型
基於Transformer的Encoder-Decoder識別模型
基於Vision-Language視覺語義融合的模型。

智慧文件處理IDP關鍵技術與實踐-高翔

圖 4 三種文字識別技術路線

CRNN為代表的模型主要包含兩個模組：Vision Model（視覺特徵提取）和Sequence Model（文字轉錄）兩個模組。視覺特徵提取利用經典CNN方式較容易理解，而文字轉錄模組利用Bi-LSTM和CTC解碼將視覺特徵轉換成文字序列特徵。CRNN模型比較經典，並且在大部分場合都能取得較好的效果，使用較廣。缺點是對於文字變形、遮擋等干擾很敏感，容易誤識別。

基於Transformer Encoder-Decoder結構的模型，由於能更好地利用上下文資訊而提升了準確率,但由於Transformer模型相對較重，在實際使用中需要考慮裁剪蒸餾等方式才能更好落地。

基於Vision-Language的模型，將視覺和語義進行融合，優點是能夠獲得更多更準確的語義資訊，有時會有較好的效果，但通常模型更大，影響識別效率。文字識別完整流程由影像矯正、視覺特徵提取、序列特徵提取和預測解碼組成。一般通用流程如下圖所示：

智慧文件處理IDP關鍵技術與實踐-高翔

圖 5 文字識別通用流程

對於上述流程涉及的代表性演算法介紹如下表格所示：

智慧文件處理IDP關鍵技術與實踐-高翔

表 2 文字識別主流演算法及比較

CTC解碼在文字識別中是非常經典的方法，但在複雜干擾場景下會有效果問題，而基於Attention的方法對於困難樣本往往能夠取得較好的效果。這兩種方法是達觀產品中的主流方法，可根據場景靈活適配。關於兩種方法的網路結構圖對比如下圖：

智慧文件處理IDP關鍵技術與實踐-高翔

圖 6 兩種文字識別網路結構對比

03 達觀對於OCR技術的實踐和最佳化

針對文件處理的複雜場景，沒有一個通用的技術框架和演算法能夠解決所有問題，需要針對具體問題進行多種模型最佳化、流程調整等工作。針對文件OCR識別，常見問題包括文字檢測遮蓋問題、密集小文字目標檢測問題等問題都需要針對性解決。

文字遮蓋導致的檢測問題比較常見，在實際場景中，例如印章、水印等遮擋導致底層文字檢測失效。對於印章，紅色印章可以透過通道過濾取得不錯的效果，但是對於黑章來說難度增加很多。下圖是直觀表述同時有紅黑兩種印章時，對於文字檢測的影響。可以看到右側黑色背景中間結果中，紅框範圍內文字檢測存在模糊判斷。

針對遮蓋問題，主要有三種方式最佳化：

文件預處理消除印章影響，例如紅章透過顏色通道淡化去除
資料層面增強印章遮蓋樣本
模型層面增加印章分割設計，強化特徵分離。

智慧文件處理IDP關鍵技術與實踐-高翔

圖 7 不同顏色印章遮蓋對於文字檢測的影響

小目標密集文字也是常見的場景，例如銀行流水、表單資料、工程圖紙等。由於單獨的文字區域佔整個影像面積較少，加上密度較大，不經最佳化會出現大面積的漏檢、誤檢現象。針對這種場景，達觀除增加資料層面的積累外，在模型層面進行多尺度的特徵設計，大大提升小目標的召回率和準確率。下圖展示對於流水結果的檢測結果，此最佳化已成功應用於實際產品專案中。

智慧文件處理IDP關鍵技術與實踐-高翔

圖 8 銀行流水密集型文字檢測最佳化

文件解析技術

文件解析技術是智慧文件處理中另外一項關鍵技術。

實際場景中不同型別的文件在處理中常會遇到以下問題：

電子版PDF或掃描件等檔案，會丟失段落、表格等結構化資訊；
版面與表格等文件結構資訊如何供演算法使用；
學術演算法常常面對結構簡單規範的文字形式，與工業真實場景存在鴻溝；
不同文件協議格式表達複雜，如何將不同型別的文件統一表示，才能夠滿足不同上下游任務的處理。

文件解析主要工作包括以下三個方面：

不同型別檔案協議解析，例如PDF、Word、OFD等，需要對映到統一抽象的文件格式；
版面還原，識別每頁各種元素，如頁首頁尾、標題、段落、表格、插圖、目錄等；
表格解析，將表格中的資訊準確還原為二維矩陣結構。

智慧文件處理IDP關鍵技術與實踐-高翔

圖 9 工業界和學術界文字處理物件差異巨大

01 文件格式解析技術

常見的文件格式包括Word、PDF（Portable Document Format）、OFD（Open Fixed-layout Document）等，大部分檔案協議的設計都以物件樹為主要結構。以PDF協議為例，下圖展示PDF檔案的實際內容以及文件元素物件的組織結構：

智慧文件處理IDP關鍵技術與實踐-高翔

圖 10 PDF協議文件元素物件組織結構

PDF格式在渲染展示上有很大優勢，能在不同裝置和系統環境下穩定保持渲染內容的一致性，對閱讀友好，但PDF解析編輯相對困難，因為PDF協議內建物件型別有限，一些類似表格、頁首頁尾等要素型別資訊缺失，文字、線條、形狀等要素也只包括內容、顏色、大小、位置座標等資訊，需要根據渲染的結果判斷元素型別並進一步處理。常見的優秀PDF開源庫包括PDFBox、MuPDF、PDFMiner等。OFD由工業和資訊化部軟體司牽頭中國電子技術標準化研究院成立的版式編寫組制定的版式文件國家標準，類似PDF，屬於我國的一種自主格式，例如OFD格式的發票目前已得到廣泛使用。而基於OpenXML的Word格式docx解析起來相對容易，能夠拿到包括樣式在內的豐富資訊，除微軟官方提供的SDK外，也有很多優秀的開源專案。

02 版面還原技術

版面還原技術就是分析文件中每個頁面有哪些型別的元素及的各元素大小位置形狀等影像資訊，通常情況下根據渲染後的頁面影像進行分析，因此主要使用到計算機視覺技術。版面還原技術的意義主要還是和影像、PDF等檔案格式缺乏高層次文件元素物件的問題相關，例如頁首頁尾在很多業務場景中需要被過濾掉，但在PDF檔案中，頁首頁尾只是一個單純的文字框，僅憑文字資訊不足以判斷此文字框是否是頁首頁尾。雖然可以利用有些規則的過濾掉頁首頁尾，但規則通用性較差。除此之外，還需要劃分段落、標題、目錄、表格、插圖等更多頁面區域，文件元素型別還可能根據業務場景發生改變。

基於計算機視覺的方式有較好的通用性，和人類觀察文件版面資訊過程一致，通常使用基於目標檢測方案和影像分割方案，兩種方案各有優缺點。對於版面還原這個任務，有明確的業務屬性，一個區域要麼屬於段落，要麼屬於表格或者其他型別，不會存在既是段落又是表格的情況，使用目標檢測的方案，就要額外梳理重框問題。而使用影像分割的方案則不存在這個問題，從輸入輸出的角度更適合，但影像分割資源要求相對較高，例如基於FasterRCNN的MaskRCNN，在原模型基礎上擴充套件了一個Mask分支，速度相對會慢一些。

智慧文件處理IDP關鍵技術與實踐-高翔

圖 11 基於FasterRCNN的版面還原效果

智慧文件處理IDP關鍵技術與實踐-高翔

圖 12 基於MaskRCNN的版面還原效果

03 表格解析技術

表格是資訊承載的重要方式，作為一種半結構化資料，被大量應用於文件中。對於表格資訊，通常有電子格式（excel、csv、html）和影像格式兩種形式，電子表格相對於影像表格，不僅能夠渲染供閱讀，還可以根據相關協議進行指定單元格內容的讀取、修改等。此處介紹的表格解析技術主要解決影像形式表格結構內容識別問題，而不是excel這類電子表格識別問題。特別地，電子版PDF檔案中的表格由於缺乏相關協議，也需要使用影像方式來解析。

表格的型別一般根據表格線是否完整也可以將表格劃分成3種型別：全線表格、少線表格、無線表格三種，針對以上三種表格的解析方法也有差異。

智慧文件處理IDP關鍵技術與實踐-高翔

圖 13 三種表格型別劃分

表格解析的目標是找到文件中的所有表格區域並將表格結構還原成二維矩陣。從技術框架上看，表格解析有端到端一階段的方式和區域檢測、結構解析兩階段的方式。在我們的測試中，整體準確性上來說端到端和二階段方法差別不大，但考慮到業務上的快速修復性，達觀選擇二階段方式。

端到端方式代表性的方法有TableNet、CascadeTabNet等。TableNet採用影像分割思路，將圖片送入骨幹網路，然後透過兩個分支分別生成表格區域和列的mask，然後透過規則生成行，最終得到具體單元格的內容。CascadeTabNet基於Cascade R-CNN，先檢測出表格區域同時對錶格型別劃分（有線、無線），然後檢測單元格區域，最後根據表格型別做後處理得到最終的表格結構。這些演算法在公開資料集效果不錯，但因端到端難以解決具體badcase，在實際業務使用上存在一定侷限性。

二階段方式主要是表格區域檢測和表格線條檢測兩大塊。表格區域檢測問題相對簡單，基於目標檢測或分割都可以實現，主要問題是實際業務定義差異會影響模型效果，需要在資料層面多下功夫。而表格線檢測是技術重點，因為表格解析演算法最終可以看作是表格線識別的問題，有了表格中所有表格線，就能還原整個表格結構，解決方法有基於傳統CV的演算法和深度學習演算法。

基於傳統CV的演算法，以經典的霍夫變換為代表，優點是不需要資料標註且不需GPU資源，演算法成熟穩定，對於電子版PDF表格效果很不錯，但拍照掃描等場景中扭曲、光照等因素導致泛化能力一般，需要在影像預處理和後處理下很大功夫。基於深度學習的演算法，如UNet，優點是對於上述扭曲、變形、光照等泛化能力強，缺點是需要大量的資料標註，計算資源也比較高。

透過使用基於深度學習的演算法，能夠較好解決傳統演算法對於影像質量要求高的問題，下面兩圖展示了利用分割的思想識別表格線的效果，可以看到雖然原圖質量不佳，要麼線條特別模糊要麼整體扭曲透視較為嚴重，但整體解析效果較好。

智慧文件處理IDP關鍵技術與實踐-高翔

圖 14 線條模糊影像表格線檢測效果

智慧文件處理IDP關鍵技術與實踐-高翔

圖 15 揉捏扭曲表格線檢測效果

資訊提取技術

不同於傳統純文字實體識別，實際場景中文件資訊提取挑戰更大，主要有以下困難：

文字表現形式複雜，文件內有頁首頁尾、表格、圖片等多種文字資訊表達方法，需要分別處理；
領域知識欠缺，實際文件使用詞彙和行業場景高度相關，例如產品、型號等專名，需要針對專有領域資料最佳化模型；
資訊點上下文長度跨度大，既有短文字實體資訊抽取也有長上下文抽取，例如招股書，需要抽取公司名稱、募集金額等短文字資訊，也需要公司概況、高管基本情況等長文字資訊，技術方案跨度很大；
軟硬體資源限制，除單純模型效果外，還要考慮推理時間、硬體成本這2種度量維度，需要根據實際情況靈活選擇平衡。

針對以上問題，不僅需要針對具體問題一一解決，同時需要設計一個優秀的資訊提取框架，在實際使用中能夠靈活配置實現一種或多種資訊提取工作。下文將介紹達觀在相關問題解決中的經驗。

01 純文字抽取vs文件抽取

相對純文字抽取，文件資訊抽取有以下區別：

文件格式眾多，實際場景文件型別除word等可編輯格式外，還存在PDF、jpg等不可編輯格式，從中拿到文字資訊並且符合閱讀順序就很困難。本文前面介紹的文件解析技術主要解決不同格式文件文字資訊提取的問題，為文字抽取打下基礎。
語義上下文跨度大，除傳統的資訊點附近上下文資訊外，還包括章節標題甚至文件型別等跨度更遠的上下文資訊。
高維文字問題，文字資訊不光和本身的語義資訊相關，也和其樣式、形式（例如表格、圖片）相關。
針對文件資訊抽取相關研究較少，目前大部分成熟技術還是基於純文字資料研究居多，雖然近幾年多模態資訊抽取、長文件資訊建模也有不錯的研究工作，但實際落地過程中少有系統化的成熟經驗供參考，需要廠商自己開發研究。

針對文件抽取，除各類演算法本身效果最佳化提升外，設計一個功能豐富且合理的抽取框架非常關鍵。為滿足以上需求，達觀資料設計了一套基於微服務架構的抽取框架，透過將一個複雜的抽取任務分解成多種抽取子任務單獨處理，最後再將結果合併返回最終抽取結果。

智慧文件處理IDP關鍵技術與實踐-高翔

圖 16 基於微服務的抽取框架

實際任務中，根據文件型別的不同，抽取中心透過推送不同抽取型別訊息進入佇列，下游相關抽取演算法模組進行獨立處理。簡單的抽取任務例如對於財務報表的資訊提取，抽取中心只需生成表格單元格抽取資訊，並提供表格相關上下文資訊。而複雜的例如招股書、債券募集說明書等長文件抽取，抽取中心需要按照欄位型別進行不同抽取資訊的訊息分發，並提供公有上下文和各演算法所需私有上下文，下游各型別抽取演算法模組同時工作。上述方案還有一個優點是針對特殊場景的抽取，可以靈活裁剪服務型別，或根據業務量針對性調整某類抽取演算法服務副本數達到資源和業務量的平衡。

在演算法設計上，除之前基於聯合標註的序列標註抽取實體關係的工作外，達觀也嘗試使用統一資訊抽取（UIE）框架。因為達觀IDPS平臺除實體抽取任務外，還支援關係抽取、元素抽取等任務，不同任務型別的網路結構差異導致資料和預訓練模型複用受限造成資源浪費，系統也更復雜。透過設定不同抽取型別的Schema，利用UIE端到端生成結構化結果的思想，可以完成單模型多工的抽取效果。

智慧文件處理IDP關鍵技術與實踐-高翔

表 3 不同任務在UIE下的schema設計及效果

02 通用模型vs領域模型

當前以大規模預訓練語言模型為基礎進行語義表示，下游再根據任務型別設計網路結構，已成為各類NLP任務的基本正規化，在很多場景任務下不僅整體效能更好，所需要的標註資料也更少。但公開的預訓練語言模型通常使用通用語料資料訓練，在遷移到特定領域下游任務時效果會打折扣。最主要的原因就是領域間資料分佈差異很大。

具體表現如下：

訓練資料不一致。例如金融場景的特定詞彙如股票、基金、利率、資產等詞彙機率遠高於其他領域語料；
預測標籤分佈不同，例如在金融危機相關資料，負面標籤遠多於正面標籤次數；
上下文資訊不一致，例如在表格資料中，上下文資訊不僅包括同一單元格內相鄰文字，也包含相同單元格、行表頭、列表頭等。

為解決領域自適應問題，研究方向主要分為以模型為中心的方法和以資料為中心的方法。從實現方式上來說，使用以資料為中心的方法更加靈活，應用面更廣，並可持續訓練迭代。在實踐中，達觀資料已服務眾多證券、銀行等金融機構，積累了大量的金融領域語料和相關下游任務訓練資料，在金融領域的繼續預訓練語言模型可以解決領域知識、資料分佈上存在的差異，提高金融文件相關的NLP下游任務的效果。

具體來講有以下兩方面工作：

資料處理層面，收集從公開網站上獲取的金融財經新聞公告等資料，結合達觀積累的金融領域文字資料，經資料清理後得到數百萬條預訓練文字資料
模型設計層面，選用中文 RoBERTa 作為基礎模型，採用 whole word masking 的掩碼方式，進行繼續預訓練。經過測試，使用迭代後調優後的預訓練語言模型在各個金融領域的下游任務中，效果普遍提升2～3%

另外從使用角度上來看，領域遷移需要大量的技術知識，對使用人員演算法技術要求高，而達觀IDPS產品的使用人員更多是業務老師、知識工程師等非技術人員，因此借鑑AutoML的思想，讓系統能夠在有限的迭代次數內探索最優模型和超參，並自動整合。具體來說，會考慮訓練文件的頁數分佈資料、標註資料的頁碼位置分佈、機器效能資源等多種資訊進行自動學習，在干預較少的情況下得到相對較優的模型效果。

03 短文字抽取vs長文字抽取

通用文字抽取技術研究所需處理的文字上下文較短，例如Bert可處理長度512個字元，能夠滿足大部分場景，如果超過此長度需要進行視窗滑動。在實際場景中，例如招股書抽取，上下文長度遠超512個字元。

通常長文字抽取有以下困難：

資料量少，正樣本過於稀疏；
資料分佈不均衡，負樣本遠比正樣本多，而且Easy Negative 資料遠比 Hard Negative 資料要多，導致在訓練過程中，經過少量迭代就會被模型充分學習並正確預測，導致資料中的“困難負樣本”和正樣本對模型訓練迭代的影響過低，無法被充分學習；
端到端方式缺乏靈活性，實際使用受限，SOTA 方法常使用端到端的方式，但工業場景常常需要精準監控各環節貢獻和精準最佳化各個模組。

為解決以上問題，除修改模型結構、引數讓傳統經典網路更好建模長文字外，也可以透過業務特徵進行流程最佳化，主要思想是根據關鍵詞或者相關標題上下文，將訓練或預測資料預處理，僅在有限的文件區域內建模，減少負樣本帶來的資料不均衡問題，同時能大大提升訓練、預測速度。例如達觀使用章節拆分定位技術，利用文件解析得到的文件目錄結構，根據標註資料縮小建模範圍，例如可以將實體抽取範圍定位到某章甚至某些段落中，將幾百頁的上下文資訊壓縮到最相關的幾個自然段，提升模型效能，在實踐中取得非常好的效果。

04 三維度量評價體系

一般學術研究最重要的最佳化目標是效果，對於資源、時間的考量權重相對較低，而工業落地往往相較於學術界更注重於時間、空間與效果的綜合結果，我們稱之為三維度量。在工業落地中，客戶軟硬體差距巨大，需要適配不同部署硬體方案，並可能會有硬體瓶頸導致方案大改，例如有些客戶沒有GPU或相關資源非常有限，導致基於深度學習的演算法方案受限。與此同時，專案目標考察點也不僅僅只關注效果，也需要關注使用時的響應時間、處理能力等多種因素，需要根據實際情況多方面權衡。另外由於實際場景資源有限，需要充分利用已有資源，不同任務合理使用資源、靈活支撐業務流量變化，對於系統的架構和排程能力提出很大要求。

為了能夠滿足三維度量評價體系，實際生產中對於具體模型需要使用裁剪、蒸餾、量化等方式進行模型體積、資源佔用最佳化的同時，也希望能夠儘量保證原有模型效果，挑戰比較大。在實踐中，達觀總結多套成熟的系統演算法配置，根據專案需求選擇最佳配置自動完成相關最佳化工作。例如Bert蒸餾，教師網路使用經典base Bert模型，共有12層網路及超過20M的引數保證資料擬合準確性，而學生網路根據實際場景資源限制使用小8倍的tiny Bert甚至Bi-LSTM保證預測精度。下圖展示達觀IDPS中使用的知識蒸餾流程。

智慧文件處理IDP關鍵技術與實踐-高翔

圖 17 知識蒸餾在達觀IDPS中的使用

另外在服務架構上，考慮到資源受限尤其是GPU資源受限問題，將模型網路拆分，將重計算且多工公用的語義編碼網路獨立出來作為服務並部署在有限的GPU資源上，透過遠端呼叫支撐各個下游任務。達觀基於此提出Transformer as a Service的方案，此方案的優勢是方便對 GPU 資源進行集中管理，使用 Redis等中介軟體實現分散式快取，最佳化整個大任務的耗時，並能很好支援跨環境、跨架構的不同服務（很多客戶CPU和GPU機器獨立部署運維），同時方便預訓練語言模型整體效果的迭代、最佳化。經過驗證，在損失1個點左右精度的效果情況下，整體資源要求大幅降低，並已使用在多個專案中。

智慧文件處理IDP關鍵技術與實踐-高翔

圖 18 Transformer As Service 的使用示例

問題與展望

前文介紹了智慧文件處理中的一些關鍵技術的原理及使用，雖受制於內容較多篇幅有限，但仍可以看到相對於純NLP或者CV，智慧文件處理系統更加複雜，且系統化研究工作較少，需要長期投入較多資源深入研發。又因為處理物件是文件，和實際工作結合緊密，因此往往實際落地時被要求和人工對比，效果要求很高。整體來看，智慧文件處理在實際場景中的落地工作主要有以下三方面問題：

01 場景選擇問題

場景選擇問題是很多專案落地的關鍵問題。隨著人工智慧技術的發展，之前很多困難的問題得到解決或者改善，例如語音識別、人臉識別等技術已經比較成熟並在多個場景中使用，給AI相關技術專案的落地增強了信心。對於智慧文件文件處理領域，很多專案場景中對於文件處理部分，希望能夠藉助IDP技術提高效率，通常情況合理的使用流程可以達到這個目標。

然而實際中，因為IDP系統對標是白領工作者，加上對於AI能力認知偏差，導致很多場景中對於IDP系統的使用方式和效果要求不合理，最常見的誤區就是希望系統完全代替人工整個流程百分百由機器執行，並且整體準確率超過人工。機器對於人工來說最大的優勢就是速度和細緻，但是對於文件處理這種智力密集型工作來說，一些複雜業務場景尤其是需要邏輯思考的文件處理，系統的處理效果還是比人工稍遜。因此在這種場景下，比較合適的方式是機器預處理，解決一些簡單的問題，再由人工複核，提升整體效率，例如債券募集說明書的稽核，目前很多券商已經成功使用機器預審人工複核的方式提升效率。而對於簡單的場景，或者有相關係統能夠進行業務校驗的場景，則可以完全使用機器，例如財務報銷、財務合同稽核等，只要關鍵資訊點和外部資料交叉驗證沒有問題，即可自動透過，而有問題的文件再透過人工處理。因此合理的場景選擇，人機互動的流程設計非常重要，能夠實現最終整體的專案目標。

02 業務知識問題

業務知識問題是另外一個常見問題。之前討論的IDP核心技術和業務知識聯絡較少，在實際場景中，系統對於業務知識的缺失甚至比模型資料匱乏更嚴重，例如相同的合同，法務和財務所關心的業務資訊點有很大差異，僅有財務知識不能完成法務稽核。業務知識本質上不是一個AI問題，是根據場景總結的工作要求或經驗，這種知識邏輯現階段AI系統很難準確學到，通常需要透過編碼方式表達，或透過知識圖譜進行一定的知識推理。因此實際落地過程中，業務分析師和知識工程師角色非常重要，需要梳理實際的業務流程和相關資訊點，並配合編碼人員進行程式編寫，模型訓練，最終業務知識和AI模型配合才能完成具體業務工作。對於IDP系統，業務知識沉澱的深度和廣度尤為關鍵，需要專案上不停積累。

03 產品化問題

產品化是關係到智慧文件處理具體落地的成本和範圍最關鍵的因素。不同於其他AI產品，IDP產品面向實際業務，因此使用人員的主體除技術人員外，業務人員佔大多數，如何設計產品互動，組合產品功能，讓業務人員更容易上手是關鍵問題，很多技術概念知識點需要經過產品包裝，不能技術思維為導向。於此同時，也要滿足不同場景中模型和業務的快速訂製工作，底層核心技術能力要容易被二次開發方便技術人員使用，例如模型調參、介面呼叫等技術功能的豐富性也很重要。好的產品設計應該要滿足上述兩點，根據使用者角設計產品功能和介面，該簡單時簡單，該複雜時複雜。

另外針對具體的業務場景，產品化對於專案複製幫助很大。當業務場景比較具體時，說明相關業務知識比較清晰，資料型別比較固定。如果此場景是行業通用，則可以花較多時間針對性最佳化模型效果，豐富業務知識，甚至進行產品介面改造升級。例如達觀在IDPS系統平臺基礎上，結合業務場景知識，開發出的智慧流水稽核、募集書稽核、財報稽核等產品，能夠做到開箱即用，大大方便專案交付降低成本，而且從本質上來講，上述產品是IDP核心技術基礎上，結合行業知識，進行模型最佳化改進的一個個產品外掛，可以不斷積累，讓IDP的產品能力越來越強，也能反推IDP相關技術不斷提升，解決更多的場景問題。

相信隨著技術和產品的發展，智慧文件處理IDP能夠應對更廣更深的文件處理工作，達觀資料也會持續投入相關產品技術研發，深耕行業場景應用，為眾多客戶持續創造更大的價值。

作者簡介

高翔，達觀資料聯合創始人，達觀智慧文件審閱IDP和OCR總負責人。自然語言處理技術專家，上海交通大學通訊專業碩士，上海交通大學校友會AI分會副秘書長，復旦大學校外研究生導師，2019年獲上海市“青年科技啟明星”人才稱號，首批上海市人工智慧高工職稱獲得者。

智慧文件處理IDP關鍵技術與實踐-高翔

光學字元識別技術

文件解析技術

資訊提取技術

問題與展望

作者簡介

相關文章