Tesseract OCR的下載安裝和啟動

llnnmc發表於2018-11-04

Tesseract是一個OCR庫,目前由Google贊助。它是目前公認最優秀、最精確的開源OCR系統。除了極高的精確度,Tesseract也具有很高的靈活性。它可以透過訓練識別出任何字型(只要這些字型的風格保持不變就可以),也可以識別出任何Unicode字元。

Tesseract OCR下載地址:

選擇較新版本的for Windows安裝包,這裡選擇tesseract-ocr-w64-setup-v4.0.0-beta.1.20180608.exe安裝包。

安裝時最好勾選簡體中文語言包和常用數學公式包,以便能夠識別簡體中文和數學字元,預設安裝路徑為C:\Program Files (x86)\Tesseract-OCR。

新增環境變數:

path中新增路徑C:\Program Files (x86)\Tesseract-OCR

新增新的環境變數TESSDATA_PREFIX,值為C:\Program Files (x86)\Tesseract-OCR\tessdata

在cmd中輸入tesseract -v, 如顯示以下介面,則表示Tesseract安裝完成且新增到系統變數中。

Linux 使用者可以透過apt-get安裝:

$sudo apt-get tesseract-ocr

執行測試:

建立字元圖片p1.png

在Windows命令列中執行

tesseract p1.png p1 -l chi_sim+equ+eng

說明:

p1.png是當前目錄中的圖片

p1.txt是指定結果輸出檔案,預設為txt檔案,因此這裡副檔名不需輸入

-l是指定使用的包

chi_sim是中文識別包,equ是數學公式包,eng是英文包,不指定語言包時預設使用英文包

舉個例子,E:\下有一張圖片p1.jpg

開始識別

識別結果

只識別錯了一個字,識別率還是不錯的。說明一下,Tesseract對於彩色圖片的識別沒有黑白圖片的效果好,所以實際識別時最好能對圖片進行降噪預處理,去掉彩色和雜質,以提高識別的準確度。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/28974745/viewspace-2218658/,如需轉載,請註明出處,否則將追究法律責任。

相關文章