表格識別

RUIxiansen發表於2019-12-30

表格系統介紹

表格表單自動識別系統是一款通用的資料批次採集軟體,適用於具有表格特徵的表單、問卷、單證,透過掃描、影像處理、自動分類、 OCR(光學字元識別)技術,將表格影像中的資料資訊準確、快速、真實地提取並儲存,資料結果可匯出為標準的資料格式,如 Excel表,與企事業單位的 ERP、 CRM等系統實現無縫結合。系統支援中英文、數字、符號等多型別字元的手寫體、印刷體識別。

應用背景

表格表單是一種高度精煉,集中的資訊表達手段,紙質表格被廣泛的應用於資料採集,將紙質表格資料轉換成電子資料是資訊化必然趨勢。

傳統的人工資料錄入方式,這是目前企業使用最多最直接的方式,由專門的資料錄入員將資料一條一條錄入計算機儲存,資料流向企業ERP系統、Excel記錄型表格。這種方式耗費了大量的人力和時間,計算機在此方案中只是資料載體,並未高效應用,弊端顯而易見:

  • 錄單任務繁重、強度大、錄入員在高強度重複工作狀態下極易疲勞出錯;
  • 增加錄單人手、增加計算機裝置都導致辦公成本增加;
  • 基礎資料採集效率低下導致綜合統計資料滯後,導致公司的其他業務資訊管理系統(如ERP、CRM)所發揮的效能大打折扣,從而影響企業正確決策。

使用OCR技術實現自動錄單,目前部分部分ERP軟體商整合了OCR(光學字元識別)技術,透過批次掃描識別的方式採集表單、訂單資料,大大提高資料採集的效率。OCR識別錄單方式是對傳統錄入方式的一個顛覆,基於先進的影像處理、OCR&ICR(智慧字元識別)技術,把繁重重複的工作交給計算機去處理,充分發揮了計算機處理技術的優勢,錄單主體的變更帶來的是錄單效率本質的提高,這也是OCR技術的初衷。簡單舉例,一張A4訂單中有15條資料,熟練錄入員錄單需要120秒,而OCR技術僅需要1.5秒,速率提高是120S/1.5S = 79倍,優勢極為明顯。

表格識別效能引數

  • 識別字元型別

n  印刷體:中文(簡繁體)、英文、數字

n  手寫體:中文(簡繁體)、英文、數字

n  符號類:標識碼、條碼、 CheckBox、╳、▇、○、●等,可定製符號

n  8種可定製字元:日、韓、蒙古、藏、維吾爾、哈薩克、柯爾克孜、阿拉伯文

  • 識別速度

n  單張表格的識別速度在  1 秒鐘左右;

  • 識別率

n  對於版面整潔的印刷字元的識別,正確率達 99.96%

n  對於規範手寫數字、英文的識別,正確率達 98.5%

n  對於規範手寫漢字的識別,正確率在 90%左右;


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69944133/viewspace-2671330/,如需轉載,請註明出處,否則將追究法律責任。

相關文章