Tesseract OCR 圖片文字識別

H東邪發表於2021-10-24

原文網址 : https://www.cnblogs.com/takechiyo/p/15450449.html

Tesseract 介紹

Tesseract是一個開源的文字識別引擎，支援多種語言。4.0.0版本增加了LSTM神經網路。Tesseract最初是由惠普公司研發，2005年開源。

Tesseract安裝

下載Tesseract的安裝包，地址

安裝過程：

選擇常用的數學公式包，其他的語言包可以先不勾選，後續需要時再下載。如果勾選了安裝過程可能極慢甚至中斷。

設定環境變數

設定TESSDATA_PREFIX環境變數到tesseract的data目錄。

選擇語言包：

使用Tesseract進行文字識別時，需要下載相應的語言包，如本文需要對中文進行識別在data下載chi_sim.traineddata放到TESSDATA_PREFIX目錄下。

Tesseract中文識別

Tesseract沒有提供圖形介面，只能通過命令列或者程式語言來呼叫。

需要注意的是，在使用Tessearct對中文進行識別的時候需要指定使用的語言模型，否則會識別失敗出現一堆亂碼。

命令列呼叫Tesseract

tesseract 1.png result -l chi_sim   # -l 引數指定語言模型

python呼叫Tessearct

使用python呼叫Tessearct需要首先安裝兩個python lib

pip install pillow
pip install pytesseract

使用python呼叫Tessearct進行圖片中文識別

# coding = utf-8
from PIL import Image
import pytesseract
image = Image.open("1.png")
# 這裡lang='chi_sim'引數很重要，意思是對中文進行識別，如果加這個引數預設應該是英文的，中文識別出來的是亂碼
text = pytesseract.image_to_string(image, lang='chi_sim')
print(text)

'''
類似於
919@400 ROK
1X
< Aah @ Fix
arta
ExT, 2%
Med Ea
BAAR ALFRE RIE tS
| Be Be
cai | = LRT +R
'''

Reference

Python:文字識別拋棄pytesser，直接使用Tesseract - Penguin (polarxiong.com)

tesseract官方文件：Tesseract User Manual | tessdoc (tesseract-ocr.github.io)

Tesseract Ocr文字識別
2018-04-20
使用Tesseract進行圖片文字識別
2024-12-06
Tesseract 圖片識別
2019-08-05
Java 實現OCR掃描/識別圖片文字
2024-04-01
Java
OCR圖片文字識別軟體：Initiater Pro for Mac
2024-01-11
Mac
Java如何使用Tessdata做OCR圖片文字識別
2021-07-28
Java
文字識別OCR開源框架的對比--Tesseract vs EasyOCR
2021-06-27
框架
有道自然語言翻譯和文字識別OCR(圖片文字識別)介面呼叫
2019-04-04
JavaScript圖片文字識別（OCR）外掛Ocrad.js教程
2018-12-05
JavaScriptJS
Python呼叫百度OCR介面圖片識別轉文字
2022-04-23
Python
python3使用Pillow、tesseract-ocr與pytesseract模組的圖片識別的方法
2020-03-13
Python
Python3呼叫百度OCR圖片文字識別API
2020-08-20
PythonAPI
手寫的文字圖片怎樣使用OCR軟體識別？
2021-09-09
?白piao？iText 1.7.4 中文版 (OCR圖片文字識別工具)
2020-12-09
paddleocr圖片文字識別
2024-04-17
圖片裁剪-文字識別-文字新增
2024-07-23
怎麼把圖片掃描成文字？轉易俠OCR文字識別軟體
2021-12-28
opencv圖片處理與OCR識別
2018-10-17
OpenCV
如何免費識別圖片文字？圖片文字識別軟體怎麼用
2021-12-27
分享：識別圖片文字方法
2021-12-14
圖片文字識別工具怎樣進行批次識別圖片？
2019-06-17
ocr文字識別技術
2019-12-30
AI大模型實現圖片OCR識別
2024-11-11
AI大模型
Tesseract-OCR如何得到更準確的中文識別
2021-10-25
迅捷OCR文字識別軟體教你如何快速將圖片轉換成Word
2018-09-29
Java也能做OCR！SpringBoot 整合 Tess4J 實現圖片文字識別
2023-10-13
JavaSpring Boot
利用百度AI OCR圖片識別，Java實現PDF中的圖片轉換成文字
2019-07-22
AIJava
mac上OCR截圖文字識別工具:iText for mac
2021-12-07
Mac
如何將圖片識別成文字？
2024-03-14
圖片識別文字具體操作
2021-11-03
圖片識別文字，分享給你！
2022-03-15
mac上如何提取圖片上的文字？幾款不錯的OCR文字識別工具推薦
2021-02-02
Mac
OCR技術-文字影像識別
2019-11-05
Tesseract OCR Android
2020-04-05
Android
哪個圖片識別文字app能快速轉換圖片成文字？
2021-04-13
APP
圖片文字識別怎麼實現
2018-09-30
可識別影像中100種人類語言文字的純Javascript OCR庫包：Tesseract.js
2019-12-21
JavaScriptJS
可識別影象中100種人類語言文字的純Javascript OCR庫包：Tesseract.js
2019-12-21
JavaScriptJS

Tesseract OCR 圖片文字識別

Tesseract 介紹

Tesseract安裝

Tesseract中文識別

Reference

相關文章