識別英文數字驗證碼的程式（Python示例）

ttocr、com發表於2024-11-30

原文網址 : https://www.cnblogs.com/ocr12/p/18578299

Python

在本篇文章中，我們將使用 Python 來實現一個英文數字驗證碼識別的程式。我們會使用 Tesseract OCR（Optical Character Recognition，光學字元識別）來識別驗證碼中的文字內容。

環境準備
首先，需要安裝以下 Python 庫：

Pillow：用於影像處理。
pytesseract：Tesseract 的 Python 包，用於文字識別。
Tesseract OCR：一個開源的 OCR 引擎。
安裝 Python 庫：

bash

pip install Pillow pytesseract
同時，您需要安裝 Tesseract OCR 引擎。可以從 Tesseract GitHub頁面下載並安裝，或者使用包管理工具安裝：

Windows：下載並安裝 tesseract-ocr-w32-x64.exe。
Linux：可以使用以下命令安裝：
bash

sudo apt-get install tesseract-ocr
MacOS：可以透過 Homebrew 安裝：
bash
brew install tesseract
2. 驗證碼識別程式
建立一個 Python 指令碼 captcha_recognition.py，並將以下程式碼寫入其中：

python

import pytesseract
from PIL import Image
import matplotlib.pyplot as plt

設定 Tesseract 可執行檔案路徑（僅在 Windows 上需要）

pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

讀取驗證碼影像

image = Image.open('captcha_image.png')

顯示原始影像

plt.imshow(image)
plt.axis('off') # 不顯示座標軸
plt.show()

進行 OCR 識別

captcha_text = pytesseract.image_to_string(image, config='--psm 6')

輸出識別的驗證碼內容

print(f"識別的驗證碼是：{captcha_text.strip()}")
3. 程式碼解析
影像載入：使用 PIL 庫的 Image.open() 方法載入驗證碼影像。
OCR 識別：使用 pytesseract.image_to_string() 方法來識別影像中的文字。config='--psm 6' 配置告訴 Tesseract 我們預計影像包含的是一行文字（即驗證碼的常見格式）。
視覺化：用 matplotlib.pyplot 庫顯示原始影像，方便檢視輸入的驗證碼影像。
4. 如何執行
將驗證碼影像儲存為 captcha_image.png（您可以使用任何實際的驗證碼影像）。

執行 Python 指令碼：

bash

python captcha_recognition.py
程式將會顯示驗證碼影像，並輸出識別的驗證碼內容。

樣例影像及輸出
假設輸入的驗證碼影像如下：

captcha_image.png：

(這裡您可以將任何實際驗證碼影像替換)

執行後的輸出會類似於：

識別的驗證碼是：4k3d7
6. 改進方案
影像預處理：如果驗證碼影像包含噪聲或干擾，您可以使用 Pillow 庫來進行影像預處理，例如二值化、去噪等，增強識別率。

示例：更多內容訪問ttocr.com或聯絡1436423940

轉為灰度圖

gray_image = image.convert('L')

二值化處理

bw_image = gray_image.point(lambda x: 0 if x < 128 else 255, '1')
調整 Tesseract 配置：Tesseract 提供了許多配置選項，可以根據驗證碼的具體情況進行最佳化。

識別英文數字驗證碼的程式（C# 示例）
2024-11-30
C#
使用 Ruby 識別英文數字驗證碼
2024-10-21
使用 Swift 識別英文數字驗證碼
2024-10-21
Swift
使用 OCaml 識別英文數字驗證碼
2024-10-22
使用 C# 識別英文數字驗證碼
2024-10-21
C#
使用 Fantom 程式語言實現英文數字驗證碼識別
2024-11-30
python 驗證碼識別示例（一）某個網站驗證碼識別
2018-08-03
Python網站
Python識別字母數字組合驗證碼
2021-09-11
Python
利用PyTorch訓練模型識別數字+英文圖片驗證碼
2024-04-15
PyTorch模型
python利用Tesseract識別驗證碼
2019-01-21
Python
Python識別網站驗證碼
2020-08-19
Python網站
驗證碼識別
2024-06-20
Python 英文的月份轉數字及數字轉英文
2019-01-24
Python
神器！使用Python 輕鬆識別驗證碼
2024-05-12
Python
初探驗證碼識別
2020-08-19
常見驗證碼的弱點與驗證碼識別
2020-08-19
驗證碼的識別和運用
2024-06-21
某滑塊驗證碼識別思路(附完整程式碼)
2024-12-10
影片直播app原始碼，傳送驗證碼驗證碼識別
2023-10-11
APP原始碼
簡單的數字驗證碼破解
2020-12-19
每次登入驗證都用Python來識別驗證碼，真的是太方便了！
2018-09-12
Python
Tensorflow2.0-mnist手寫數字識別示例
2020-12-29
Python中存放10000個6位隨機數字的驗證碼
2018-07-03
Python隨機
Python爬蟲教程-29-驗證碼識別-Tesseract-OCR
2018-09-06
Python爬蟲
Python高效深度學習機器識別驗證碼教程分享
2021-09-19
Python深度學習
驗證碼的前世今生：從圖文識別到無感驗證
2020-05-13
【全網最高識別率】國稅局驗證碼識別
2020-12-05
【爬蟲系列】1. 無事，Python驗證碼識別入門
2021-08-07
爬蟲Python
有了這個Python庫，免費實現驗證碼識別！
2023-03-31
Python
機器視覺以及驗證碼識別
2019-02-16
視覺
爬蟲遇到頭疼的驗證碼？教你彈窗處理和驗證碼識別
2020-12-30
爬蟲
python示例呼叫影象識別服務識別影象
2018-09-26
Python
js驗證數字
2018-08-14
JS
playwright--自動化（二）：過滑塊驗證碼驗證碼缺口識別
2022-01-04
【驗證碼識別專欄】今天不煉丹，用 cv 來秒驗證碼
2024-12-10
實時驗證碼技術可改進生物識別身份驗證
2018-04-18
校驗英文和數字正規表示式
2020-04-12
使用 Chapel 實現滑動驗證碼識別
2024-11-16