Python pyocr和Tesseract-OCR的安裝以及使用

HuangZhang_123發表於2017-03-13

歡迎加入學習交流QQ群：657341423

PyOCR是一個用於python的光學字元識別（OCR）工具包裝器。也就是說，它有助於使用Python程式中的OCR工具。
安裝：pip install pyocr
還需安裝PIL：pip install Pillow
PIL主要用於開啟圖片以及一些處理
此外最重要需要安裝OCR引擎，官網原文：PyOCR可以用作google的Tesseract-OCR或Cuneiform 的包裝器。它可以讀取Pillow支援的所有影象型別，包括jpeg，png，gif，bmp，tiff和其他。它還支援邊界框資料。
下載Tesseract-OCR引擎，注意要3.0以上才支援中文哦，按照提示安裝就行（window下安裝）
Tesseract直接網上搜EXE安裝包直接安裝即可。
這裡寫圖片描述
注意在 “Language data” 那個選項裡，預設是隻勾選了英文的，如果需要進行其他語言的識別，記得勾選對應的語言。

再一個是，如果需要進行相應的開發工作，建立把 “Tesseract development files” 這個選項也勾選。不過這個需要連結谷歌網址下載檔案的。需跳牆。

識別中文，下載chi_sim.traineddata，然後直接放到C:\Program Files (x86)\Tesseract-OCR\tessdata資料夾下。

然後在chi_sim.traineddata(注意版本)檔案目錄下(…/Tesseract-OCR/tessdata),使用命令列執行：

combine_tessdata -e chi_sim.traineddata chi_sim.config

執行完後，在目錄下出現chi_sim.config的檔案，開啟該檔案；
在allow_blob_division F這一行的前面加#，註釋掉
即：# allow_blob_division F
然後，在執行命令列：

combine_tessdata -o chi_sim.traineddata chi_sim.config

Python程式碼：

# coding=utf-8
import sys


import os
os.environ['NLS_LANG'] = 'SIMPLIFIED CHINESE_CHINA.UTF8'
try:
    from pyocr import pyocr
    from PIL import Image
except ImportError:
    raise SystemExit
#匯入庫
tools = pyocr.get_available_tools()[:]
if len(tools) == 0:
    print("No OCR tool found")
    sys.exit(1)
#查詢OCR引擎
print ("Using '%s'" % (tools[0].get_name()))
print (tools[0].image_to_string(Image.open('E:\\bb.png'),lang='chi_sim'))
#lang='chi_sim'為OCR的識別語言庫。C:\Program Files (x86)\Tesseract-OCR\tessdata

由於中文識別效果不太理想，可以通過中文訓練，具體參考：
http://www.cnblogs.com/wzben/p/5930538.html

參考資料：pyocr：https://github.com/jflesch/pyocr

歡迎加入學習交流QQ群：657341423

Python的安裝和使用
2021-12-20
Python
mongodb的安裝以及使用
2019-02-16
MongoDB
github的安裝以及使用
2018-04-15
Github
Genymotion的安裝以及使用
2018-05-04
CentOSmysql安裝以及使用
2016-05-19
CentOSMySql
python中的pip的安裝以及通過pip命令對selenium進行解除安裝和安裝
2018-06-07
Python
python下redis安裝和使用
2012-12-20
PythonRedis
SublimeText3 安裝和配置，以及配置 Python 環境
2015-12-30
Python
二、python安裝和基礎使用
2020-09-25
Python
python3安裝和使用virtualenv
2017-11-27
Python
webStorm安裝以及整合git使用！
2018-09-12
WebORMGit
linuxwget安裝以及使用
2018-04-25
Linuxwget
為什麼學習Python以及Python的安裝
2017-12-20
Python
Python的安裝與使用
2012-02-11
Python
Python 庫/模組的pip安裝和IPython的使用
2018-12-16
Python
git 的安裝使用以及協作流程
2016-01-02
Git
RabbitMQ Centos7 安裝以及使用
2018-05-27
MQCentOS
Sublime的安裝、新增外掛以及其的使用
2017-09-08
Go的安裝和使用
2020-07-23
Go
yarn的安裝和使用
2020-02-16
Yarn
CMake的安裝和使用
2019-06-14
azkaban的安裝和使用
2018-09-09
FTP的安裝和使用
2024-03-17
FTP
jdk安裝以及JAVA_HOME和CLASSPATH以及Path的含義
2018-09-06
JDKJava
python Mqtt 的安裝及使用
2023-02-24
PythonMQQT
安裝pygame和pip的問題以及過程
2019-06-25
GAM
MySQL的安裝以及基本的管理命令和設定
2021-09-09
MySql
伺服器安裝docker 以及使用docker安裝mysql及svn
2020-11-28
伺服器DockerMySql
安裝python並使用
2020-11-03
Python
kaldi上使用gpu以及如何安裝cuda
2014-11-17
GPU
GitLab 的安裝和使用
2019-08-12
Gitlab
webpack的安裝和基本使用
2020-12-29
Web
geoserver PostGIS的安裝和使用
2017-03-21
Server
VMware Workstation 的安裝和使用
2018-04-04
Jetty的安裝、配置和使用
2017-05-04
Jetty
oswatch的安裝和使用
2015-08-17
LOGMNR的安裝和使用
2011-08-01
LogMiner的安裝和使用
2010-01-08

Python pyocr和Tesseract-OCR的安裝以及使用

相關文章