OCR:精準、穩定、易用的文字識別

華為雲學院發表於2019-02-21

 

大家好,今天給大家介紹精準、穩定、易用的文字識別應用服務 OCR。

OCR是英文光學字元識別的縮寫,通常叫法為文字識別。它的工作原理是透過掃描器或數位相機等光學輸入裝置來獲取紙張上的文字圖片資訊,利用各種模式識別演算法,分析文字形態特徵,判斷出合適的標準編碼,然後按照通用的格式,儲存在文字檔案中。由此可見OCR實際上是讓計算機認字,實現文字的自動輸入,它是一種快捷、省力、高效的文字輸入方法。

文字識別的基本三要素就是 O、C、R。O代表光學,即識別的是光線給出的文字,而不是聲音,或者人體的觸感等等。那為什麼會有光呢?主要是因為光的反射和物理會吸收光線。其次還要求字的顏色和背景是不一樣的。那同樣它對於輸入的圖片的話,儘可能的要保證圖片的清晰度。第二個要素就是C,也就是字元的意思。大家需要注意的是,字元是資訊的一種編碼,不是字型。字元主要是實現資訊的編碼,比如說大家看到一張蘋果的圖片,那我們第一反應它可以代表中文的蘋果這兩個字元,或者對應到英文的apple這個字元。所謂的文字其實就是一種字元,比如說大家常用的漢字,那就是中國人的字元。計算機顯然也是需要對應到一個編碼字元。比如說我們常用的GBK、Unicode、UTF-8等等,那這時候就會產生一個問題,如果有的字的影像在計算機編碼裡面沒有對應的資訊,那是不是說這個文字就沒辦法被識別呢?答案是,的確如此。所以說我們所使用的文字編碼級,一定要儘可能的覆蓋我們所要識別的字元。文字識別第三個要素就是R,它代表了識別的意思。剛剛我們瞭解到了,O和C它分別代表了光學的圖片和對應的字元。那如何將光學的圖片對映到計算機編碼呢?目前關於如何將圖片字元轉換到光學字元,有兩種方法,一種是傳統方法,還有一種是基於深度學習的方法。在我們華為雲學院的課程中會給大家做一個詳細的介紹。需要注意的是OCR是指文字識別,但是OCR所採用的技術不僅僅是適用於文字識別。

那麼對於企業來說,為什麼要使用 OCR技術呢?舉個例子,大家出差之後需要進行報銷,報銷的時候需要填寫很多的資訊,同樣公司的財務人員需要花費一個較長的時間來進行INVOICE的一次次稽核,有可能一個報銷單需要經過三個或者說更多的財務人員進行一次次的稽核校對。那即便如此,在我們日常報銷中,也多多少少會出現一些人為的錯誤。那麼OCR技術可不可以幫助我們實現INVOICE的快速準確的讀取呢?答案是肯定的。由此可見,OCR技術可以對於企業來說,它可以減少相關人員稽核所產生的成本,以及減少稽核所需要的流程。總結一下企業為什麼需要使用OCR技術,第一,是為了降低重複性的勞動成本。第二,它可以提高業務效率,第三,它能夠提高文字識別的精確度。

OCR在企業中主要運用於哪些場景呢?這裡做了一個總結。第一文件場景,它主要用於印刷文件的識別,翻譯文字的識別,搜尋識別,塗抹識別。第二,電商場景,主要用於電商使用者身份的繫結,實名認證,商家身份認證。第三,圖片反作弊場景,它主要識別影像和影片中的一些違規文字,進行一些違規的處理和風險管控。第四,辦公場景,主要會用於企業證件、年報、財報、piao據識別。然後接著是金融場景,它主要會用於客戶的身份識別,身份繫結,個人資訊核實。最後一個就是影片場景,主要是會用於影片字幕的識別,影片標題的識別,影片反作弊,影像反作弊,評論反作弊等。

文字識別的技術難點主要存在以下幾個方面,第一就是影像質量差,很多場景待識別的文字圖片的質量往往都很差,它存在嚴重的一些干擾曲線,傾斜、暗光或者曝光扭曲。比如說我們常用的一些海關的報關的掃描單據。第二它對精確度要求特別高,在某些場景,使用者對於數值的精確度要求特別高。比如說文字中的一些稅率、金額、幣種等文字的精確度要求高達百分之百。第三就是識別內容較為複雜,文字內容的複雜多樣性,例如說一個文字中有可能存在不同的字型和顏色,小數點近似的英文數字,特殊的字元,特殊的符號連線詞以及數字的內容,它的識別難度會很大,很容易被漏識,或者誤識。第四就是語言的種類的繁多,隨著全球化現在越來越擴大,每家公司多多少少都會涉及到多個國家,這時候就要求 OCR技術能夠支援多語言多字元。

以上對文字識別進行了簡要的介紹,訪問華為雲學院( https://edu.huaweicloud.com/) ,報名學習《文字識別服務》課程,瞭解更多文字識別關鍵技術及應用實踐。華為雲學院現已釋出推出《智慧表單和證件文字識別》微認證,微認證結合OCR服務,讓您體驗智慧識別帶來的效率提升!


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31556022/viewspace-2636544/,如需轉載,請註明出處,否則將追究法律責任。

相關文章