帶你看論文丨全域性資訊對於圖網路文件解析的影響

qianby發表於2021-09-11
摘要:文件理解著重於從非結構化文件中識別並提取鍵值對資訊,並將其輸出為結構化資料。在過往的資訊提取中,大多數工作僅僅只關注於提取文字的實體關係,因此並不適用於直接用於文件理解上。

本文分享自華為雲社群《》,作者:一笑傾城 。

帶你看論文丨全域性資訊對於圖網路文件解析的影響

1 背景介紹

文件理解著重於從非結構化文件中識別並提取鍵值對資訊,並將其輸出為結構化資料。在過往的資訊提取中,大多數工作僅僅只關注於提取文字的實體關係,並不適用於直接用於文件理解上。

在ICDAR2019的比賽上,參賽者被要求從發票收據等文件中提取鍵值對資訊。因此本文提出了一種包含了全域性資訊,並且結合了視覺資訊的圖網路結構,來完成從非結構化文件中提取關鍵資訊的任務。

2 網路結構

本文將文件理解任務轉化為圖節點分類任務。對於文字的全域性和區域性資訊獲取:

帶你看論文丨全域性資訊對於圖網路文件解析的影響

帶你看論文丨全域性資訊對於圖網路文件解析的影響

使用CLS抓取全域性文字序列的分類資訊,生成w0,並將其與每個單獨文字(w1,w2…,wn)放在同一輸入向量中。經過BERT模型,獨立地對每個元素進行編碼,這樣模型擁有了區域性和全域性資訊,同時也能對全域性和區域性文字進行embedding

對於圖片的全域性和區域性資訊獲取:使用的是相似的方法,不過是基於CNN網路來捕捉全域性和區域性的影像特徵

帶你看論文丨全域性資訊對於圖網路文件解析的影響

文字和影像特徵拼接:將影像特徵和文字特徵進行特徵融合(concat)

帶你看論文丨全域性資訊對於圖網路文件解析的影響

網路構建:

帶你看論文丨全域性資訊對於圖網路文件解析的影響

給定文件內的一組文字段,構建一個虛擬的全域性節點作為資訊溝通樞紐,這樣每兩個非相鄰節點之間也是two-hop neighbors, 減少資訊溝通損失的同時全域性資訊也能很直接輸出到區域性節點上。

帶你看論文丨全域性資訊對於圖網路文件解析的影響

聚合鄰居使得每一個節點與two-hop neighbors兩兩之間透過啟用函式(leaky-relu)進行模型引數更新,並且使用了K-attention來提高模型的能力(透過多個attention然後合併所有attention的機制)

帶你看論文丨全域性資訊對於圖網路文件解析的影響

資訊提取:

帶你看論文丨全域性資訊對於圖網路文件解析的影響

3 實驗結果

在阿里巴巴天池競賽的資料及上效果。

帶你看論文丨全域性資訊對於圖網路文件解析的影響

相關消融實驗:移除視覺特徵後,在天池資料以及SROIE上,能明顯看出視覺特徵可以在提取結構化資訊的問題上發揮重要的作用。同理,刪除全域性節點也降低了模型精度,也驗證了全域性連線在圖結構中的重要性。

帶你看論文丨全域性資訊對於圖網路文件解析的影響

 

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/3549/viewspace-2795917/,如需轉載,請註明出處,否則將追究法律責任。

相關文章