重新整理4項文件智慧任務紀錄,百度TextMind打造ERNIE-Layout登頂文件智慧權威榜單

機器之心發表於2021-09-24
百度提出跨模態文件理解模型 ERNIE-Layout,首次將佈局知識增強技術融入跨模態文件預訓練,在 4 項文件理解任務上重新整理世界最好效果,登頂 DocVQA 榜首。同時,ERNIE-Layout 已整合至百度智慧文件分析平臺 TextMind,助力企業數字化升級。

重新整理4項文件智慧任務紀錄,百度TextMind打造ERNIE-Layout登頂文件智慧權威榜單

ERNIE-Layout 登頂文件智慧國際權威榜單 DocVQA

文件視覺問答:檢驗文件理解能力的試金石

對多模態文件(如文件圖片、PDF 檔案、掃描件等)的深度理解和分析,是文件智慧的核心能力。文件智慧應用行業包括金融、保險、能源、物流、醫療等,常見的應用場景包括財務報銷、招聘簡歷、企業財報、合同文書、動產登記證、法律判決書、物流單據等。針對不同行業和應用場景的需求,文件智慧的技術方向囊括文件抽取、文件解析、文件比對等。

重新整理4項文件智慧任務紀錄,百度TextMind打造ERNIE-Layout登頂文件智慧權威榜單

文件理解應用場景舉例

文件視覺問答 DocVQA 是跨模態的文件抽取任務,要求文件智慧模型在文件中抽取能夠回答文件相關問題的答案,需要模型在抽取和理解文件中文字資訊的同時,還能充分利用文件的佈局、字型、顏色等視覺資訊,這比單一模態的資訊抽取任務更具挑戰性。

重新整理4項文件智慧任務紀錄,百度TextMind打造ERNIE-Layout登頂文件智慧權威榜單

DocVQA 文件視覺問答示例

上圖是 DocVQA 的一個示例,關於這個文件內容的問題是:「手掌中的卡片上寫了什麼?」,模型需要對問題的核心語義(「手掌」、「卡片」)在文件影像中進行跨模態的語義對齊,準確找到影像中的「手掌」並確定其中「卡片」的位置,進而結合文件中文字和佈局的資訊得到答案是「Trabon」。

正是由於文件視覺問答任務需要結合視覺解析、佈局分析、語義理解、資訊抽取等一系列 AI 技術,是綜合 AI 能力的集大成者,其技術挑戰與實用價值正得到越來越多的重視。

ERNIE-Layout 以世界領先的語義理解模型 ERNIE 為底座,創新提出佈局知識增強技術,對文字、影像、佈局等資訊進行聯合建模,取得該任務的世界最好水平,縮小了機器在文件理解能力上與人類的差距。

世界首創的佈局知識增強文件理解模型 ERNIE-Layout

對文件理解來說,文件中的文字閱讀順序至關重要,目前主流的基於 OCR(Optical Character Recognition,文字識別)技術的模型大多遵循「從左到右、從上到下」的原則,然而對於文件中分欄、文字圖片表格混雜的複雜佈局,根據 OCR 結果獲取的閱讀順序多數情況下都是錯誤的,從而導致模型無法準確地進行文件內容的理解。

重新整理4項文件智慧任務紀錄,百度TextMind打造ERNIE-Layout登頂文件智慧權威榜單

ERNIE-Layout 佈局知識增強效果

而人類通常會根據文件結構和佈局進行層次化分塊閱讀,受此啟發,百度研究者提出在文件預訓模型中對閱讀順序進行校正的佈局知識增強創新思路。TextMind 平臺上業界領先的文件解析工具(Document Parser)能夠準確識別文件中的分塊資訊,產出正確的文件閱讀順序,將閱讀順序訊號融合到模型的訓練中,從而增強對佈局資訊的有效利用,提升模型對於複雜文件的理解能力。

基於佈局知識增強技術,同時依託文心 ERNIE,百度研究者提出了融合文字、影像、佈局等資訊進行聯合建模的跨模態通用文件預訓練模型 ERNIE-Layout。如下圖所示,ERNIE-Layout 創新性地提出了閱讀順序預測和細粒度圖文匹配兩個自監督預訓練任務,有效提升模型在文件任務上跨模態語義對齊能力和佈局理解能力。
 重新整理4項文件智慧任務紀錄,百度TextMind打造ERNIE-Layout登頂文件智慧權威榜單
ERNIE-Layout 架構圖

在取得權威視覺問答榜單 DocVQA 第一的同時,ERNIE-Layout 還在文件資訊抽取權威榜單 SROIE 登頂榜首。

重新整理4項文件智慧任務紀錄,百度TextMind打造ERNIE-Layout登頂文件智慧權威榜單

ERNIE-Layout 登頂文件資訊抽取權威榜單 SROIE

此外,ERNIE-Layout 還在表單理解 FUNSD、票據理解 CORD 等多個公開資料集上取得了目前業界最好的效果,其中 FUNSD 資料集 F1 大幅提升 6.47%,進一步驗證了 ERNIE-Layout 佈局知識增強技術的有效性。
 

重新整理4項文件智慧任務紀錄,百度TextMind打造ERNIE-Layout登頂文件智慧權威榜單

ERNIE-Layout 在表單理解 FUNSD 資料集上的效果

重新整理4項文件智慧任務紀錄,百度TextMind打造ERNIE-Layout登頂文件智慧權威榜單

ERNIE-Layout 在票據理解 CORD 資料集上的效果

ERNIE-Layout 技術已整合至百度智慧文件分析平臺 TextMind!

2020 年 8 月百度大腦語言與知識十週年技術峰會上,百度釋出了智慧文件分析平臺 TextMind,提供一站式企業文件規範化解析方案,促進辦公智慧化升級和企業數字化轉型。一年多以來,TextMind 平臺不斷打磨功能、最佳化效果,基於百度領先的 OCR 和 NLP 技術,平臺支援格式解析、內容抽取、內容比對、內容審查、內容理解 5 大核心功能。

重新整理4項文件智慧任務紀錄,百度TextMind打造ERNIE-Layout登頂文件智慧權威榜單

TextMind 產品架構圖

截至目前,TextMind 合作伙伴達到上百家,遍佈銀行、券商、法律、能源、傳媒、通訊、物流等眾多行業,真正實現以 AI 助力企業的數字化轉型。本次 ERNIE-Layout 整合至 TextMind 更是助力企業提高文件資訊的提取效率和處理效率,顯著減少人工成本和時間投入,加快企業數字化轉型。

以財務報銷智慧稽核為例,報銷憑證資料量大、樣式多樣且複雜,依靠人工處理則稽核人力成本高、效率低並且稽核時間長。得益於 ERNIE-Layout 模型具備的多樣化的文件佈局理解能力和文字語義理解能力,TextMind 的票據內容抽取功能,能夠自動、快速、準確地提取不同樣式票據中的關鍵資訊。目前,該功能已為多家客戶提供全流程、智慧化的實時財務報銷稽核服務,提升企業稽核效率 5 倍以上。
 重新整理4項文件智慧任務紀錄,百度TextMind打造ERNIE-Layout登頂文件智慧權威榜單
基於ERNIE-Layout模型的票據內容抽取示例

結束語

國家「十四五」規劃提出數字中國戰略,戰略旨在啟用資料要素潛能,加快建設數字經濟、數字社會、數字政府,以數字化轉型整體驅動生產方式、生活方式和治理方式變革。企業 80% 以上資料都是非結構化資料(圖片、文件),且文件數量和佔比都在呈現指數級增長。因此,文件智慧技術已成為企業數字化轉型的關鍵技術。

百度提出的基於文件佈局知識增強的跨模態預訓練模型 ERNIE-Layout,在 4 項文件理解任務上重新整理世界最好效果,並在 DocVQA 上登頂榜首。透過引入層次化的文件佈局知識資訊,讓機器可以像人一樣閱讀複雜排版的文件,學習文件的佈局知識、語義知識以及視覺知識並相互增強,從而實現對文件的結構化、語義化理解。這項能力透過百度智慧文件分析平臺 TextMind,提供一站式企業文件規範化解析方案,促進辦公智慧化升級和企業數字化轉型。

瞭解 ERNIE-Layout,或者希望獲得 TextMind 的更多支援,可透過以下連結:

  • 百度智慧文件分析平臺 TextMind:https://cloud.baidu.com/product/textmind.html

  • 百度文心 ERNIE:https://wenxin.baidu.com/


相關文章