Tesseract Ocr文字識別

王磊的部落格發表於2018-04-20

Tesseract的OCR引擎最先由HP實驗室於1985年開始研發，至1995年時已經成為OCR業內最準確的三款識別引擎之一。2005年，Tesseract由美國內華達州資訊科技研究所獲得，並求諸於Google對Tesseract進行改進、消除Bug、優化工作。Tesseract目前已作為開源專案釋出在Google Project.

執行環境：

windows10 + python 3.6 + tesseract 4.0.0-beta.1

先看效果：

一、安裝python模組

pip3 install pytesseract

二、安裝tesseract orc

下載地址：https://github.com/UB-Mannheim/tesseract/wiki 點選“tesseract-ocr-w64-setup-v4.0.0-beta.1.20180414.exe”下載安裝。

注意：安裝的時候選中中文包。

本人安裝目錄：C:\Users\Administrator\AppData\Local\Tesseract-OCR

使用命令，檢視版本號和支援語言：

cd C:\Users\Administrator\AppData\Local\Tesseract-OCR tesseract -v tesseract --list-langs　　#檢視Tesseract-OCR支援語言

三、配置tesseract執行檔案

C:\Python36\Lib\site-packages\pytesseract\pytesseract.py 找到檔案：

tesseract_cmd = 'tesseract'

修改為：

tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'

四、程式碼識別

from PIL import Image
import pytesseract

path = "img\\text-img.png"

text = pytesseract.image_to_string(Image.open(path), lang='chi_sim')
print(text)

作為非常優秀的Ocr識別庫，tesseract當然可以訓練自己的資料模型，從而達到為我所用目的，後續文字會介紹如果訓練自己的文字識別庫。

Tesseract OCR 圖片文字識別
2021-10-24
文字識別OCR開源框架的對比--Tesseract vs EasyOCR
2021-06-27
框架
ocr文字識別技術
2019-12-30
使用Tesseract進行圖片文字識別
2024-12-06
Tesseract-OCR如何得到更準確的中文識別
2021-10-25
OCR技術-文字影像識別
2019-11-05
Tesseract OCR Android
2020-04-05
Android
可識別影像中100種人類語言文字的純Javascript OCR庫包：Tesseract.js
2019-12-21
JavaScriptJS
可識別影象中100種人類語言文字的純Javascript OCR庫包：Tesseract.js
2019-12-21
JavaScriptJS
Python爬蟲教程-29-驗證碼識別-Tesseract-OCR
2018-09-06
Python爬蟲
中安OCR文字識別系統
2020-02-06
TH-OCR文字識別技術
2019-11-19
Text Scanner for Mac ocr文字識別工具
2021-08-22
Mac
OCRKit Pro for mac (OCR文字識別工具)
2021-11-12
Mac
OCR文字識別工具：OCRKit Pro中文
2022-10-20
OCR文字識別工具:OCRKit Pro mac
2022-03-09
Mac
Tesseract-OCR -01-Tesseract 介紹
2018-09-07
ocr文字識別軟體怎麼識別手機上的照片文字？
2022-01-05
如何精準實現OCR文字識別？
2018-10-25
Tesseract 圖片識別
2019-08-05
excel表格文字識別-ocr表格文字提取api介面整合
2024-10-31
ExcelAPI
文字識別解決方案-OCR識別應用場景解析
2024-10-15
Tesseract-OCR-02-Tesseract-OCR 的安裝與環境變數配置
2018-09-07
變數
有道自然語言翻譯和文字識別OCR(圖片文字識別)介面呼叫
2019-04-04
OCR：精準、穩定、易用的文字識別
2019-02-21
OCR文字識別軟體線上如何操作？
2019-07-23
通用辦公文件識別-免費通用文字識別API-OCR
2024-10-14
API
Java 實現OCR掃描/識別圖片文字
2024-04-01
Java
OCR圖片文字識別軟體：Initiater Pro for Mac
2024-01-11
Mac
mac上OCR截圖文字識別工具:iText for mac
2021-12-07
Mac
一文帶你看透通用文字識別 OCR
2023-03-07
Java如何使用Tessdata做OCR圖片文字識別
2021-07-28
Java
CTPN/CRNN的OCR自然場景文字識別理解（一）
2018-03-15
RNN
python3使用Pillow、tesseract-ocr與pytesseract模組的圖片識別的方法
2020-03-13
Python
python利用Tesseract識別驗證碼
2019-01-21
Python
JavaScript圖片文字識別（OCR）外掛Ocrad.js教程
2018-12-05
JavaScriptJS
你要的全拿走-ocr文字識別智慧化解決方案
2020-02-21
使用 Go 語言實現簡單的文字識別（OCR）
2024-12-06
Go

Tesseract Ocr文字識別

相關文章