帶你看論文丨全域性資訊對於圖網路文件解析的影響
摘要:文件理解著重於從非結構化文件中識別並提取鍵值對資訊,並將其輸出為結構化資料。在過往的資訊提取中,大多數工作僅僅只關注於提取文字的實體關係,因此並不適用於直接用於文件理解上。
本文分享自華為雲社群《》,作者:一笑傾城 。
1 背景介紹
文件理解著重於從非結構化文件中識別並提取鍵值對資訊,並將其輸出為結構化資料。在過往的資訊提取中,大多數工作僅僅只關注於提取文字的實體關係,並不適用於直接用於文件理解上。
在ICDAR2019的比賽上,參賽者被要求從發票收據等文件中提取鍵值對資訊。因此本文提出了一種包含了全域性資訊,並且結合了視覺資訊的圖網路結構,來完成從非結構化文件中提取關鍵資訊的任務。
2 網路結構
本文將文件理解任務轉化為圖節點分類任務。對於文字的全域性和區域性資訊獲取:
使用CLS抓取全域性文字序列的分類資訊,生成w0,並將其與每個單獨文字(w1,w2…,wn)放在同一輸入向量中。經過BERT模型,獨立地對每個元素進行編碼,這樣模型擁有了區域性和全域性資訊,同時也能對全域性和區域性文字進行embedding
對於圖片的全域性和區域性資訊獲取:使用的是相似的方法,不過是基於CNN網路來捕捉全域性和區域性的影像特徵
文字和影像特徵拼接:將影像特徵和文字特徵進行特徵融合(concat)
網路構建:
給定文件內的一組文字段,構建一個虛擬的全域性節點作為資訊溝通樞紐,這樣每兩個非相鄰節點之間也是two-hop neighbors, 減少資訊溝通損失的同時全域性資訊也能很直接輸出到區域性節點上。
聚合鄰居使得每一個節點與two-hop neighbors兩兩之間透過啟用函式(leaky-relu)進行模型引數更新,並且使用了K-attention來提高模型的能力(透過多個attention然後合併所有attention的機制)
資訊提取:
3 實驗結果
在阿里巴巴天池競賽的資料及上效果。
相關消融實驗:移除視覺特徵後,在天池資料以及SROIE上,能明顯看出視覺特徵可以在提取結構化資訊的問題上發揮重要的作用。同理,刪除全域性節點也降低了模型精度,也驗證了全域性連線在圖結構中的重要性。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/3549/viewspace-2795917/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 資訊圖:網頁載入速度到底對你的品牌有多大影響?網頁
- 論資訊顯示對我生活的影響
- CSS3 transform 對HTML文件流帶來的影響CSSS3ORMHTML
- 認知研究論文:因果資訊如何影響決策
- 【分析方法論】屬性對行為的影響分析
- 論文解讀丨基於區域性特徵保留的圖卷積神經網路架構(LPD-GCN)特徵卷積神經網路架構GC
- 帶你讀論文丨基於視覺匹配的自適應文字識別視覺
- iPad對各行業的影響–資料資訊圖iPad行業
- 一文帶你入門圖論和網路分析(附Python程式碼)圖論Python
- Olapic:2015年網路營銷對電子商務影響(資訊圖)API
- 網路延遲對事務的影響
- 網際網路對業務轉型的安全影響
- 【Oracle】-【COMMIT對索引的影響】-從trace看COMMIT對索引的影響OracleMIT索引
- HTTP對網路速度是否有影響?HTTP
- 圖靈讀者群聖誕辯論賽(網路對青少年的利弊影響)賽後感圖靈
- 社交網路成癮會影響我們的心智嗎?–資料資訊圖
- 美國廢除“網路中立”對中國的影響
- 網路支付新規來了!一圖看懂對網購、發紅包的影響
- 生活資料圖解:人字拖對人體的影響——資訊圖圖解
- “影響者研究”系列(一):社會網路化時代影響者對營銷創新的影響
- 線上代理IP的使用對網際網路的影響
- 網路互看資訊圖:網際網路IT世界的角色扮演
- “網際網路+”的多維度解析——資訊圖
- 網際網路對美國傳媒業影響分析
- 中國式“錢荒”對網際網路企業的影響
- 新冠疫情對全球經濟以及網路安全的影響你瞭解哪些?
- 算力網路給測試領域帶來哪些影響,如何去應對
- [Android開源]:EasyImageGetter幫你實現帶網路圖片的html圖文混排!AndroidHTML
- namespace對axis解析xml請求的影響namespaceXML
- 帶你讀AI論文丨LaneNet基於實體分割的端到端車道線檢測AI
- 高匿代理ip對網路時代的影響有哪些
- 對我影響最大的圖靈書圖靈
- 移動網際網路對企業管理的三個影響
- 網友討論75萬臺亞馬遜機器人帶來影響亞馬遜機器人
- 遊戲暗示對於遊戲玩家的影響遊戲
- 關於OPcache對Swoole影響的理解opcache
- JAVA 異常對於效能的影響Java
- 關於drop操作對role的影響