mac bookpro m1 安裝tesseract5.x 並訓練新字型

社會主義接班人發表於2022-04-12

mac bookpro m1 安裝 tesseract5.x,遇到的問題及處理記錄

需要使用 tesseract 訓練字型,brew install tesseract安裝方式不帶訓練工具

訓練工具遇到的問題

  1. unicharset_extractor: command not found 原因 brew install tesseract 安裝 ,不會安裝訓練工具
  2. brew install --with-training-tools tesseract 安裝提示
    Error: invalid option: --with-training-tools
  3. 編譯安裝,參考(tesseract-ocr.github.io/tessdoc/Co... ),執行到 make -j 會卡住,無法成功

安裝

cd tesseract-5.0.1
./autogen.sh

brew install cairo pango icu4c autoconf libffi libarchive libpng
export PKG_CONFIG_PATH=\
$(brew --prefix)/lib/pkgconfig:\
$(brew --prefix)/opt/libarchive/lib/pkgconfig:\
$(brew --prefix)/opt/icu4c/lib/pkgconfig:\
$(brew --prefix)/opt/libffi/lib/pkgconfig:\
$(brew --prefix)/opt/libpng/lib/pkgconfig
./configure

make  # make -j m1 無法執行成功
sudo make install
make training
sudo make training-install

訓練

cd /Users/zhaojunqiang/jTessBoxEditorFX/train_image

# 1.生成 tif對應的 .box 檔案
tesseract t1.my.exp0.tif t1.my.exp0 -l eng --dpi 300 --psm 7 batch.nochop makebox

# 2.jTessBoxEditor 標註
# 3. 生成 box
tesseract t1.my.exp0.tif t1.my.exp0 --dpi 300 --psm 7 nobatch box.train
# 4.字型檔案
touch font_properties
#<fontname> <italic> <bold> <fixed> <serif> <fraktur>  如: t1 0 0 0 0 0
echo 'font 0 0 0 0 0' > font_properties
# 5.生成字符集
unicharset_extractor t1.my.exp0.box
# 6. 形狀分類器
shapeclustering -F font_properties -U unicharset t1.my.exp0.tr
# 7.生成字型特徵檔案
mftraining -F font_properties -U unicharset -O unicharset t1.my.exp0.tr
# 8. 聚集 tesseract 識別訓練檔案
cntraining t1.my.exp0.tr
# 9. 給 unicharset, inttemp, normproto,pfftable,shapetable檔案加上字型名字首(如 t1.my.exp0.)
# 10.合併生成字典
combine_tessdata t1.my.exp0.

# 11.將生成的 traineddata 複製到 tesseract tessdata 目錄中
sudo cp t1.my.exp0.traineddata /usr/local/share/tessdata/t1.my.exp0.traineddata
# 12.修改名稱
sudo mv t1.my.exp0.traineddata t1.traineddata
# 13.測試
tesseract img_2.jpg stdout

注意(否則可能不會成功):
1、嚴格按照 t1.my.exp0.
2 、訓練圖片要保持工整

本作品採用《CC 協議》,轉載必須註明作者和本文連結

相關文章