OCR訓練中文樣本庫和識別

ICH發表於2018-11-23

原文網址 : https://juejin.im/post/5bf7ac4fe51d4549ab391e1e

簡述

光學字元識別（英語：Optical Character Recognition，OCR）是指對文字資料的影象檔案進行分析識別處理，獲取文字及版面資訊的過程。關於中文的識別最好的開源庫應該就是Tesseract OCR了。本文則重點介紹訓練出一份自己需要的樣本庫並識別（本文預設你已經會直接匯入官方訓練庫識別）

準備工作

1）安裝tesseract ocr引擎

以Mac為例，直接選擇homebrew命令安裝 brew install --with-training-tools tesseract

2）下載chi_sim.traindata（中文識別庫，直接放在tesseract安裝目錄的tessdata目錄下，例如/usr/local/Cellar/tesseract/4.0.0/share/tessdata））

3）下載jTessBoxEditor2.2.0

訓練步驟

1）把樣本圖片或者文字轉換成tif格式（圖片轉tif 可以直接網上搜）這裡講文字轉tif

雙擊解壓後的jTessBoxEditor.jar檔案，選擇工具欄TIFF/Box Generator，把需要轉換的文字直接拷貝到下面空白處

Output為tif檔案輸出目錄，其他基本無需修改，然後點選Generate稍等片刻即可生成生成tif檔案。

2）生成box檔案

把第二步生成的tif檔案改名 sll.normal.exp0.tif ，官網的寫法~ 然後進入tif檔案目錄下執行命令

tesseract sll.normal.exp0.tif sll.normal.exp0 -l chi_sim batch.nochop makebox1

3）選擇工具欄Box Editor，點選Open匯入第一步生成的tif檔案（會自動繫結第二步生成的box檔案）

點選文字之後可以修改識別區域寬高，x，y座標等，修改完成點選save儲存

4）執行指令碼

Mac執行 sh 指令碼檔名.sh，然後回車依次輸入sll（語言）normal（字型）

!/bin/sh

read -p "輸入你語言:" lang
echo {lang}
read -p "輸入你的字型:" font
echo {font}
echo "所以完整檔名為："
echo {lang}.{font}.exp0.tif
echo "開始。。。"
echo {font} 0 0 0 0 0 >font_properties
tesseract  {lang}.{font}.exp0.tif {lang}.{font}.exp0  nobatch box.train
unicharset_extractor {lang}.{font}.exp0.box
shapeclustering -F font_properties -U unicharset {lang}.{font}.exp0.tr
mftraining -F font_properties -U unicharset -O unicharset {lang}.{font}.exp0.tr
cntraining {lang}.{font}.exp0.tr
echo "開始重新命名檔案"
mv inttemp {font}.inttemp
mv normproto {font}.normproto
mv pffmtable {font}.pffmtable
mv shapetable {font}.shapetable
mv unicharset {font}.unicharset
echo "生成最終檔案"
combine_tessdata ${font}.

echo "完成"
複製程式碼

執行成功之後就會生成.traineddata檔案，這個檔案即只能識別我們訓練的“識別”倆字，所以說在大小，識別速度上會大大優於官網的中文包，當然本文只是例子，實踐專案中不可能只是“識別”兩個字那麼簡單，比如中文簡體3500字，那在修改box檔案的時候確實是需要花費很久的時間的

OCR文字識別工具：OCRKit Pro中文
2022-10-20
貓狗識別訓練
2020-12-01
孟子小樣本和檢索式預訓練模型進展
2023-04-21
模型
Yolov8訓練識別模型
2024-03-29
YOLO模型
Tesseract-OCR如何得到更準確的中文識別
2021-10-25
OCR識別技術
2019-11-04
Tesseract Ocr文字識別
2018-04-20
【LLM訓練系列】NanoGPT原始碼詳解和中文GPT訓練實踐
2024-08-25
NaNGPT原始碼
?白piao？iText 1.7.4 中文版 (OCR圖片文字識別工具)
2020-12-09
Tesseract-OCR-04-使用 jTessBoxEditor 進行訓練
2018-09-07
ocr文字識別技術
2019-12-30
手寫的文字圖片怎樣使用OCR軟體識別？
2021-09-09
OCR識別技術—財務報表識別
2019-11-14
OCR識別技術—增值稅發票識別
2019-11-05
ocr文字識別軟體ABBYY FineReader PDF 15 mac中文啟用版
2023-10-12
Mac
海南話語音識別模型——模型訓練(一)
2024-11-02
模型
OCR識別圖中文字工具：iText for mac v1.7.7中文啟用版
2023-11-28
Mac
OCR表單識別/雲脈通用表單識別/表格識別
2020-03-04
手機OCR證件識別
2020-01-19
OCR技術-文字影像識別
2019-11-05
OCR身份證識別技術
2020-06-29
Tesseract OCR 圖片文字識別
2021-10-24
OCR識別技術—財務報表識別（2）
2019-11-26
掃描王 mac中文版 - mac超強OCR文字識別軟體
2021-10-18
Mac
EasyNLP釋出融合語言學和事實知識的中文預訓練模型CKBERT
2022-10-19
模型
【OCR技術】大批量生成文字訓練集
2019-03-12
OCR檢測與識別技術
2018-06-05
文通科技OCR證件識別|
2020-02-07
中安OCR文字識別系統
2020-02-06
最好用的OCR識別軟體
2019-12-24
TH-OCR文字識別技術
2019-11-19
Text Scanner for Mac ocr文字識別工具
2021-08-22
Mac
OCRKit Pro for mac (OCR文字識別工具)
2021-11-12
Mac
OCR文字識別工具:OCRKit Pro mac
2022-03-09
Mac
golang 通過docker 搭建 ocr識別
2021-07-08
GolangDocker
文件掃描OCR識別-1（python）
2021-06-17
Python
「OCR文字識別工具」Readiris Pro 17 for Mac中文啟用版支援M1
2023-11-28
Mac
基於PyTesseract與PyQt5 的中文OCR識別應用程式設計
2020-11-13
QT程式設計

OCR訓練中文樣本庫和識別

相關文章