RPA開發教程丨RPA+OCR如何提取電子合同資訊

weiyu05發表於2019-11-11

隨著公司產品UiBot的影響力在國內外不斷增強,與合作伙伴簽訂的合同也變得越來越多,故此導致業務人員對合同關鍵資訊的提取工作,變得日益繁重。

基於此,公司內部關於電子合同資訊提取的流程自動化需求應運而生。

以下是關於RPA+OCR提取電子合同資訊的流程檢視。


RPA+OCR提取電子合同資訊流程檢視


基於電子合同資訊的提取,根據檔案型別,分為兩大類:Word和PDF。

1、Word類。Word類的會直接用RPA機器人UiBot從資訊裡面根據字元規則提取出關鍵資訊,生成結構化資料,當然,也會遇見有些Word文件是補充協議等,沒有相關要提取的資訊,這類會根據業務規則直接在流程裡面,根據模板判斷劃分出來。

2、PDF類。PDF類的會根據裡面資訊分為兩類,一類是文字型,一類是圖片型。


文字的可以使用UiBot的視窗元素中的預製元件獲取元素文字或者文字中的獲取文字來提取關鍵資訊。(需要注意的是使用Acrobat的時候,需要在編輯中選擇輔助工具來做如下圖操作)


Acrobat更改當前文件的閱讀選項


圖片類的,就必須要使用OCR來進行識別,然後進行資訊提取,因為上面有蓋章等不同因素的影響,正確率並不能保證百分之百,甚至也沒有關鍵性可以迴流驗證的資訊,所以生成的結構化資料仍需要人工二次校驗,才可以錄入系統,所以基於圖片類的電子合同,並沒有為業務人員節省多少時間,無非是圖片類的電子合同佔比並不高,所以影響不大。


當然此類電子合同都是使用公司固定的統一模板,所以總體業務並不複雜,但如果合同模板不能統一,各有特色,可能就需要根據各個模板的型別來做歸類劃分和業務異常處理。


另一方面,就技術上來說,也可以直接用原始碼模式來引用Office(Word,PDF文字類)的物件直接後臺處理,相比較而言,處理速度會比較快一些。


原文地址:

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69940722/viewspace-2663551/,如需轉載,請註明出處,否則將追究法律責任。

相關文章