mac bookpro m1 安裝 tesseract5.x,遇到的問題及處理記錄
需要使用 tesseract 訓練字型,brew install tesseract
安裝方式不帶訓練工具
訓練工具遇到的問題
unicharset_extractor: command not found
原因 brew install tesseract 安裝 ,不會安裝訓練工具brew install --with-training-tools tesseract
安裝提示Error: invalid option: --with-training-tools
- 編譯安裝,參考(tesseract-ocr.github.io/tessdoc/Co... ),執行到
make -j
會卡住,無法成功
安裝
cd tesseract-5.0.1
./autogen.sh
brew install cairo pango icu4c autoconf libffi libarchive libpng
export PKG_CONFIG_PATH=\
$(brew --prefix)/lib/pkgconfig:\
$(brew --prefix)/opt/libarchive/lib/pkgconfig:\
$(brew --prefix)/opt/icu4c/lib/pkgconfig:\
$(brew --prefix)/opt/libffi/lib/pkgconfig:\
$(brew --prefix)/opt/libpng/lib/pkgconfig
./configure
make # make -j m1 無法執行成功
sudo make install
make training
sudo make training-install
訓練
cd /Users/zhaojunqiang/jTessBoxEditorFX/train_image
# 1.生成 tif對應的 .box 檔案
tesseract t1.my.exp0.tif t1.my.exp0 -l eng --dpi 300 --psm 7 batch.nochop makebox
# 2.jTessBoxEditor 標註
# 3. 生成 box
tesseract t1.my.exp0.tif t1.my.exp0 --dpi 300 --psm 7 nobatch box.train
# 4.字型檔案
touch font_properties
#<fontname> <italic> <bold> <fixed> <serif> <fraktur> 如: t1 0 0 0 0 0
echo 'font 0 0 0 0 0' > font_properties
# 5.生成字符集
unicharset_extractor t1.my.exp0.box
# 6. 形狀分類器
shapeclustering -F font_properties -U unicharset t1.my.exp0.tr
# 7.生成字型特徵檔案
mftraining -F font_properties -U unicharset -O unicharset t1.my.exp0.tr
# 8. 聚集 tesseract 識別訓練檔案
cntraining t1.my.exp0.tr
# 9. 給 unicharset, inttemp, normproto,pfftable,shapetable檔案加上字型名字首(如 t1.my.exp0.)
# 10.合併生成字典
combine_tessdata t1.my.exp0.
# 11.將生成的 traineddata 複製到 tesseract tessdata 目錄中
sudo cp t1.my.exp0.traineddata /usr/local/share/tessdata/t1.my.exp0.traineddata
# 12.修改名稱
sudo mv t1.my.exp0.traineddata t1.traineddata
# 13.測試
tesseract img_2.jpg stdout
注意(否則可能不會成功):
1、嚴格按照 t1.my.exp0.
2 、訓練圖片要保持工整
本作品採用《CC 協議》,轉載必須註明作者和本文連結