Tesseract-OCR 字元識別---樣本訓練

鴨脖發表於2015-06-26

原文網址 : https://blog.csdn.net/yelbosh/article/details/46649349

轉自：http://blog.csdn.net/feihu521a/article/details/8433077

Tesseract是一個開源的OCR（Optical Character Recognition，光學字元識別）引擎，可以識別多種格式的影象檔案並將其轉換成文字，目前已支援60多種語言（包括中文）。 Tesseract最初由HP公司開發，後來由Google維護，目前釋出在Googel Project上。地址為http://code.google.com/p/tesseract-ocr/。

使用預設的語言庫識別

1.安裝Tesseract

從http://code.google.com/p/tesseract-ocr/downloads/list下載Tesseract，目前版本為Tesseract3.02。因為只是測試使用，這裡直接下載winodws下的安裝檔案tesseract-ocr-setup-3.02.02.exe。安裝成功後會在相應磁碟上生成一個Tesseract-OCR目錄。通過目錄下的tesseract.exe程式就可以對影象字元進行識別了。

2.準備一副待識別的影象，這裡用畫圖工具隨便寫了一串數字，儲存為number.jpg，如下圖所示：

3. 開啟命令列，定位到Tesseract-OCR目錄，輸入命令：

[plain]view
 plaincopy


tesseract.exe number.jpg result -l eng  

其中result表示輸出結果檔案txt名稱，eng表示用以識別的語言檔案為英文。

3. 開啟Tesseract-OCR目錄下的result.txt檔案，看到識別的結果為7542315857，有3個字元識別錯誤，識別率還不是很高，那有沒有什麼方法來提供識別率呢？Tesseract提供了一套訓練樣本的方法，用以生成自己所需的識別語言庫。下面介紹一下具體訓練樣本的方法。

訓練樣本

關於如何訓練樣本，Tesseract-OCR官網有詳細的介紹http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3。這裡通過一個簡單的例子來介紹一下如何進行樣本訓練。

1.下載工具jTessBoxEditor. http://sourceforge.net/projects/vietocr/files/jTessBoxEditor/，這個工具是用來訓練樣本用的，由於該工具是用JAVA開發的，需要安裝JAVA虛擬機器才能執行。

2. 獲取樣本影象。用畫圖工具繪製了5張0-9的文樣本影象（當然樣本越多越好），如下圖所示：

3.合併樣本影象。執行jTessBoxEditor工具，在點選選單欄中Tools--->Merge TIFF。在彈出的對話方塊中選擇樣本影象（按Shift選擇多張），合併成num.font.exp0.tif檔案。

4.生成Box File檔案。開啟命令列，執行命令：

[plain]view
 plaincopy


tesseract.exe num.font.exp0.tif num.font.exp0 batch.nochop makebox  

生成的BOX檔案為num.font.exp0.box，BOX檔案為Tessercat識別出的文字和其座標。

注：Make Box File 檔名有一定的格式，不能隨便亂取名字，命令格式為：

[plain]view
 plaincopy


tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] batch.nochop makebox  

其中lang為語言名稱，fontname為字型名稱，num為序號，可以隨便定義。

【Yasi】：先前自己定義了tessdata的環境變數 TESSDATA_PREFIX 值為 E:\tesseract\tessdata，但沒有從tesseract原始檔目錄中將tessdata子目錄中的內容copy到 E:\tesseract\tessdata 中，造成上面的命令報錯，說找不到batch.nochop 和 makebox。解決辦法：將 tesseract 原始檔目錄中所有檔案和子資料夾（可能充分但非必要，先不管這些啦）copy到 E:\tesseract\tessdata 中。

5.文字校正。執行jTessBoxEditor工具，開啟num.font.exp0.tif檔案（必須將上一步生成的.box和.tif樣本檔案放在同一目錄），如下圖所示。可以看出有些字元識別的不正確，可以通過該工具手動對每張圖片中識別錯誤的字元進行校正。校正完成後儲存即可。

【Yasi】這裡必須修改識別錯誤的字元，否則做出來的traineddata檔案也是錯的。可以在下面的介面中修改並儲存，也可以直接在traineddata檔案中修改。

6.定義字型特徵檔案。Tesseract-OCR3.01以上的版本在訓練之前需要建立一個名稱為font_properties的字型特徵檔案。

font_properties不含有BOM頭，檔案內容格式如下：

[plain]view
 plaincopy


<fontname> <italic> <bold> <fixed> <serif> <fraktur>  

其中fontname為字型名稱，必須與[lang].[fontname].exp[num].box中的名稱保持一致。<italic> 、<bold> 、<fixed> 、<serif>、 <fraktur>的取值為1或0，表示字型是否具有這些屬性。

這裡在樣本圖片所在目錄下建立一個名稱為font_properties的檔案，用記事本開啟，輸入以下下內容：

[plain]view
 plaincopy


font 0 0 0 0 0  

這裡全取值為0，表示字型不是粗體、斜體等等。

7.生成語言檔案。在樣本圖片所在目錄下建立一個批處理檔案，輸入如下內容。

[plain]view
 plaincopy

rem 執行改批處理前先要目錄下建立font_properties檔案  

echo Run Tesseract for Training..  

tesseract.exe num.font.exp0.tif num.font.exp0 nobatch box.train  

echo Compute the Character Set..  

unicharset_extractor.exe num.font.exp0.box  

mftraining -F font_properties -U unicharset -O num.unicharset num.font.exp0.tr  

echo Clustering..  

cntraining.exe num.font.exp0.tr  

echo Rename Files..  

rename normproto num.normproto  

rename inttemp num.inttemp  

rename pffmtable num.pffmtable  

rename shapetable num.shapetable   

echo Create Tessdata..  

combine_tessdata.exe num.

將批處理通過命令列執行。執行後的結果如下：

需確認列印結果中的Offset 1、3、4、5、13這些項不是-1。這樣，一個新的語言檔案就生成了。

num.traineddata便是最終生成的語言檔案，將生成的num.traineddata拷貝到Tesseract-OCR-->tessdata目錄下。可以用它來進行字元識別了。

使用訓練後的語言庫識別

用訓練後的語言庫識別number.jpg檔案，開啟命令列，定位到Tesseract-OCR目錄，輸入命令：

[plain]view
 plaincopy


tesseract.exe number.jpg result -l eng  

識別結果如如圖所示，可以看到識別率提高了不少。通過自定義訓練樣本，可以進行圖形驗證碼、車牌號碼識別等。感興趣的朋友可以研究研究。

【Yasi】試驗結果如下：

下面是num-yasi.png

將生成的num.traineddata拷貝到E:\tesseract\tessdata，即環境變數TESSDATA_PREFIX 設定的路徑下，執行下面的命令（注意第二條命令結尾是num，即新加的traineddata，而不是eng）

[plain]view
 plaincopy

E:\tesseract\tesseract-svn\vs2008\LIB_Debug\tesseractd.exe num-yasi.png result-eng -l eng  

E:\tesseract\tesseract-svn\vs2008\LIB_Debug\tesseractd.exe num-yasi.png result-num -l num  

下圖是兩次識別結果對比

使用eng traineddata的結果完全不靠譜；使用了自己的traineddata，識別出來的當然都是數字，但正確率實在糟糕。可能是我自己手寫的字型和用來做traineddata的手寫數字的字型差別太大了吧。

OCR訓練中文樣本庫和識別
2018-11-23
貓狗識別訓練
2020-12-01
Yolov8訓練識別模型
2024-03-29
YOLO模型
Tesseract-OCR如何得到更準確的中文識別
2021-10-25
海南話語音識別模型——模型訓練(一)
2024-11-02
模型
孟子小樣本和檢索式預訓練模型進展
2023-04-21
模型
Python爬蟲教程-29-驗證碼識別-Tesseract-OCR
2018-09-06
Python爬蟲
文字識別（四）--大批量生成文字訓練集
2019-02-18
使用DeepKE訓練命名實體識別模型DEMO（官方DEMO）
2024-10-10
模型
文字識別（二）--字元識別技術總覽
2019-02-18
字元
字元識別，口算題識別論文小梗概
2020-11-26
字元
PaddleOCR手寫文字識別模型訓練（摘抄所得，非原創）
2024-03-14
模型
車牌識別字元模板庫
2019-03-08
字元
COLING 2020 | CharBERT：字元敏感的預訓練語言模型
2020-11-20
字元模型
【人臉識別7】haar+CART+Adaboost+Cascade訓練過程分析
2018-06-09
實驗12-使用keras預訓練模型完成貓狗識別
2024-04-27
Keras模型
利用PyTorch訓練模型識別數字+英文圖片驗證碼
2024-04-15
PyTorch模型
tensorflow 訓練 think-captcha 圖片驗證碼自動識別
2022-07-14
APT
使用人工神經網路訓練手寫數字識別模型
2023-10-09
神經網路模型
包含近 20 萬本圖書，OpenAI 級別的訓練資料集上線
2020-11-03
OpenAI
python3使用Pillow、tesseract-ocr與pytesseract模組的圖片識別的方法
2020-03-13
Python
[題目記錄]一本通高手訓練-塔
2024-12-03
ImageAI實現完整的流程：資料集構建、模型訓練、識別預測
2019-08-28
AI模型
使用預先訓練好的單詞向量識別影評的正負能量
2021-09-09
知識增強的預訓練語言模型系列之ERNIE：如何為預訓練語言模型注入知識
2021-12-30
模型
知識增廣的預訓練語言模型K-BERT：將知識圖譜作為訓練語料
2022-03-04
模型
[題目記錄]一本通高手訓練-數列
2024-10-12
[題目記錄]一本通高手訓練-石環
2024-12-07
OCR名片識別除噪美化加深字元對比
2020-11-18
字元
1分鐘訓練百萬級別節點嵌入，Mila開源圖嵌入訓練系統GraphVite
2019-08-23
MILAVite
僅用200個樣本就能得到當前最佳結果：手寫字元識別新模型TextCaps
2019-05-02
字元模型
DeepMind丟掉了歸一化，讓影像識別訓練速度提升了8.7倍 | 已開源
2021-02-18
C/C++高階訓練之指標初識
2020-11-04
C++指標
20240622訓練
2024-06-22
20240610訓練
2024-06-14
像訓練Dota2一樣訓練真實機器人？Gibson Environment環境瞭解一下
2018-09-13
機器人
聯盟訓練在遊戲AI多樣化的探索
2021-10-21
遊戲AI
知識增強的預訓練語言模型系列之KEPLER：如何針對上下文和知識圖譜聯合訓練
2022-01-24
模型
【實戰】基於OpenCV的水錶字元識別（OCR）
2020-06-13
OpenCV字元

Tesseract-OCR 字元識別---樣本訓練

使用預設的語言庫識別

訓練樣本

使用訓練後的語言庫識別

【Yasi】試驗結果如下：

相關文章