Tesseract是一個OCR庫，目前由Google贊助。它是目前公認最優秀、最精確的開源OCR系統。除了極高的精確度，Tesseract也具有很高的靈活性。它可以透過訓練識別出任何字型(只要這些字型的風格保持不變就可以)，也可以識別出任何Unicode字元。

Tesseract OCR下載地址：

選擇較新版本的for Windows安裝包，這裡選擇tesseract-ocr-w64-setup-v4.0.0-beta.1.20180608.exe安裝包。

安裝時最好勾選簡體中文語言包和常用數學公式包，以便能夠識別簡體中文和數學字元，預設安裝路徑為C:\Program Files (x86)\Tesseract-OCR。

新增環境變數：

path中新增路徑C:\Program Files (x86)\Tesseract-OCR

新增新的環境變數TESSDATA_PREFIX，值為C:\Program Files (x86)\Tesseract-OCR\tessdata

在cmd中輸入tesseract -v, 如顯示以下介面，則表示Tesseract安裝完成且新增到系統變數中。

Linux 使用者可以透過apt-get安裝：

$sudo apt-get tesseract-ocr

執行測試：

建立字元圖片p1.png

在Windows命令列中執行

tesseract p1.png p1 -l chi_sim+equ+eng

說明：

p1.png是當前目錄中的圖片

p1.txt是指定結果輸出檔案，預設為txt檔案，因此這裡副檔名不需輸入

-l是指定使用的包

chi_sim是中文識別包，equ是數學公式包，eng是英文包，不指定語言包時預設使用英文包

舉個例子，E:\下有一張圖片p1.jpg

開始識別

識別結果

只識別錯了一個字，識別率還是不錯的。說明一下，Tesseract對於彩色圖片的識別沒有黑白圖片的效果好，所以實際識別時最好能對圖片進行降噪預處理，去掉彩色和雜質，以提高識別的準確度。

Tesseract OCR的下載安裝和啟動

相關文章