表單識別:準確快速實現紙質表格表單的電子化

yunmaiocrsdk發表於2020-11-06

表單識別是在OCR識別核心基礎上開發的基於固定表格識別的一種OCR識別工具,適用於具有表格特徵的表單、單證等。透過掃描、影像處理、自動分類、OCR(光學字元識別)技術,將表格影像中的資料資訊準確、快速、真實地提取並儲存。

應用背景

表格表單是一種高度精煉,集中的資訊表達手段,紙質表格被廣泛的應用於資料採集,將紙質表格資料轉換成電子資料是資訊化必然趨勢。然而,傳統的人工資料錄入方式需要由專門的資料錄入員將資料一條一條手動錄入到計算機儲存,這種方式耗費了大量的人力和時間,存在許多弊端:

錄單任務繁重、強度大、錄入員在高強度重複工作狀態下極易疲勞出錯;

增加錄單人手、增加計算機裝置都導致辦公成本增加;

業務劇增,表格表單檔案數量龐大,企業機構需要耗費更多的人力和時間去處理這些表格表單。

OCR表單識別應用

隨著OCR技術的出世與應用,表格表單資訊錄入管理模式也隨之發生了改變,透過OCR表單識別技術,實現表格影像中的資料資訊準確、快速、真實地提取,最大程度上減少企業員工的工作量。

廈門雲脈憑藉其十幾年的OCR研發經驗和技術積累,以及對市場的深入調查,全面推出表單識別技術,為客戶提供企業級的資料採集方案,大大提高計算機識別表單的準確率和速度,促進企業機構紙質表單資訊化。

雲脈表單識別包含國格核心處理技術,可根據各類紙質表格、單證等排版特點,按區域分別將不同的內容識別並提取成字元、影像等電子資料。這就意味著利用雲脈表單識別,可以針對自定義模板處理各種形式、格式的表單,無論大小、佈局和內容,可根據自定義欄目、文字進行框選後識別。

雲脈透過深度的OCR引擎識別和文字處理技術給予表格表單提供了無與倫比的文件分析和資料的提取功能,雲脈 表單識別包含了先進的模板學習和文字、影像分析提取技術,透過模板元素定義表單,將整個表單生命週期和生產資料以自動化形式產出資料資源,節省人工的處理時間。

雲脈表單識別的優勢:

識別表格種類多,各種銀行單據、測評表等固定性表格都能識別;

表格分類精確,可實現各種表格的自動分類

識別速度快,單張平均識別時間小於2秒;

識別率高,字元識別率>96%,欄目識別率>97%;

API開發支援Java、C++、C、object pascal及objective-C等多種語言。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69914504/viewspace-2732557/,如需轉載,請註明出處,否則將追究法律責任。

相關文章