Tesseract OCR的下載安裝和啟動
Tesseract是一個OCR庫,目前由Google贊助。它是目前公認最優秀、最精確的開源OCR系統。除了極高的精確度,Tesseract也具有很高的靈活性。它可以透過訓練識別出任何字型(只要這些字型的風格保持不變就可以),也可以識別出任何Unicode字元。
Tesseract OCR下載地址:
選擇較新版本的for Windows安裝包,這裡選擇tesseract-ocr-w64-setup-v4.0.0-beta.1.20180608.exe安裝包。
安裝時最好勾選簡體中文語言包和常用數學公式包,以便能夠識別簡體中文和數學字元,預設安裝路徑為C:\Program Files (x86)\Tesseract-OCR。
新增環境變數:
path中新增路徑C:\Program Files (x86)\Tesseract-OCR
新增新的環境變數TESSDATA_PREFIX,值為C:\Program Files (x86)\Tesseract-OCR\tessdata
在cmd中輸入tesseract -v, 如顯示以下介面,則表示Tesseract安裝完成且新增到系統變數中。
Linux 使用者可以透過apt-get安裝:
$sudo apt-get tesseract-ocr
執行測試:
建立字元圖片p1.png
在Windows命令列中執行
tesseract p1.png p1 -l chi_sim+equ+eng
說明:
p1.png是當前目錄中的圖片
p1.txt是指定結果輸出檔案,預設為txt檔案,因此這裡副檔名不需輸入
-l是指定使用的包
chi_sim是中文識別包,equ是數學公式包,eng是英文包,不指定語言包時預設使用英文包
舉個例子,E:\下有一張圖片p1.jpg
開始識別
識別結果
只識別錯了一個字,識別率還是不錯的。說明一下,Tesseract對於彩色圖片的識別沒有黑白圖片的效果好,所以實際識別時最好能對圖片進行降噪預處理,去掉彩色和雜質,以提高識別的準確度。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/28974745/viewspace-2218658/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Tesseract引擎的下載和安裝
- Tesseract-OCR-02-Tesseract-OCR 的安裝與 環境變數配置變數
- Python pyocr和Tesseract-OCR的安裝以及使用Python
- 【Windows】Apache的下載、安裝、啟動WindowsApache
- Tesseract OCR AndroidAndroid
- Android OCR之tesseractAndroid
- tesseract安裝說明
- Android OCR之tesseract章Android
- Charles的下載和安裝
- MySQL的下載和安裝MySql
- Linux下Mongodb安裝和啟動配置LinuxMongoDB
- maven下載和安裝Maven
- clickhouse下載和安裝
- tengine下載和安裝
- 下載和安裝PycharmPyCharm
- Nginx下載和安裝Nginx
- oracle下載和安裝Oracle
- MySQL的下載、安裝和配置MySql
- 下載安裝webstrom及啟用Web
- 【mycat】mycat在windows環境下的安裝和啟動Windows
- postgresql的安裝和啟動方法SQL
- mongodb的安裝和啟動方法MongoDB
- windows 下 MongoDB 的安裝與啟動WindowsMongoDB
- windows下mongodb的安裝及啟動WindowsMongoDB
- homebrew下載安裝及mysql的下載安裝MySql
- 下載和安裝最新OPatch
- 如何下載和安裝opatch
- K8S搭建自動化部署環境 Jenkins下載、安裝和啟動K8SJenkins
- matplotlib的下載和安裝方法
- Spring 的下載、安裝和使用Spring
- centos下安裝mysql不能啟動CentOSMySql
- Tesseract-OCR-05-主要API功能介紹API
- Python 下載安裝和配置Python
- nodejs下載、安裝和配置NodeJS
- redis的安裝和啟動和檢測和停止Redis
- Oracle 19C的下載和安裝部署(圖形安裝和靜默安裝)Oracle
- Centos 7下下載和安裝dockerCentOSDocker
- Linux下的MongoDB安裝&啟動&關閉LinuxMongoDB