python 驗證碼識別示例（一）某個網站驗證碼識別

weixin_33686714發表於2018-08-03

原文網址 : https://blog.csdn.net/weixin_33686714/article/details/86006686

Python網站

某個招聘網站的驗證碼識別，過程如下

一：原始驗證碼：

二：首先對驗證碼進行分析，該驗證碼的數字顏色有變化，這個就是識別這個驗證碼遇到的比較難的問題，解決方法是使用PIL 中的 getpixel 方法進行變色處理，統一把非黑色的畫素點變成黑色

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　變色後的圖片

三：通過觀察，發現該驗證碼有折線，需要對圖片進行降噪處理。

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　降噪後的圖片

四：識別：

　　這裡只是簡單的使用 pytesseract 模組進行識別

　　識別結果如下：

　　　　總共十一個驗證碼，識別出來了9個，綜合識別率是百分之八十。

總結：驗證碼識別只是簡單呼叫了一下Python的第三方庫，本驗證碼的識別難點如果給帶顏色的數字變色。

下面是程式碼：

二值化變色：

#-*-coding:utf-8-*-
from PIL import Image

def test(path):
    img=Image.open(path)
    w,h=img.size
    for x in range(w):
        for y in range(h):
            r,g,b=img.getpixel((x,y))
            if 190<=r<=255 and 170<=g<=255 and 0<=b<=140:
                img.putpixel((x,y),(0,0,0))
            if 0<=r<=90 and 210<=g<=255 and 0<=b<=90:
                img.putpixel((x,y),(0,0,0))
    img=img.convert('L').point([0]*150+[1]*(256-150),'1')
    return img

for i in range(1,13):
    path = str(i) + '.jpg'
    im = test(path)
    path = path.replace('jpg','png')
    im.save(path)

二：降噪

#-*-coding:utf-8-*-


# coding:utf-8
import sys, os
from PIL import Image, ImageDraw

# 二值陣列
t2val = {}


def twoValue(image, G):
    for y in xrange(0, image.size[1]):
        for x in xrange(0, image.size[0]):
            g = image.getpixel((x, y))
            if g > G:
                t2val[(x, y)] = 1
            else:
                t2val[(x, y)] = 0


# 根據一個點A的RGB值，與周圍的8個點的RBG值比較，設定一個值N（0 <N <8），當A的RGB值與周圍8個點的RGB相等數小於N時，此點為噪點
# G: Integer 影象二值化閥值
# N: Integer 降噪率 0 <N <8
# Z: Integer 降噪次數
# 輸出
#  0：降噪成功
#  1：降噪失敗
def clearNoise(image, N, Z):
    for i in xrange(0, Z):
        t2val[(0, 0)] = 1
        t2val[(image.size[0] - 1, image.size[1] - 1)] = 1

        for x in xrange(1, image.size[0] - 1):
            for y in xrange(1, image.size[1] - 1):
                nearDots = 0
                L = t2val[(x, y)]
                if L == t2val[(x - 1, y - 1)]:
                    nearDots += 1
                if L == t2val[(x - 1, y)]:
                    nearDots += 1
                if L == t2val[(x - 1, y + 1)]:
                    nearDots += 1
                if L == t2val[(x, y - 1)]:
                    nearDots += 1
                if L == t2val[(x, y + 1)]:
                    nearDots += 1
                if L == t2val[(x + 1, y - 1)]:
                    nearDots += 1
                if L == t2val[(x + 1, y)]:
                    nearDots += 1
                if L == t2val[(x + 1, y + 1)]:
                    nearDots += 1

                if nearDots < N:
                    t2val[(x, y)] = 1


def saveImage(filename, size):
    image = Image.new("1", size)
    draw = ImageDraw.Draw(image)

    for x in xrange(0, size[0]):
        for y in xrange(0, size[1]):
            draw.point((x, y), t2val[(x, y)])

    image.save(filename)
for i in range(1,12):
    path =  str(i) + ".png"
    image = Image.open(path).convert("L")
    twoValue(image, 100)
    clearNoise(image, 3, 2)
    path1 = str(i) + ".jpeg"
    saveImage(path1, image.size)

三：識別

#-*-coding:utf-8-*-

from PIL import Image
import pytesseract

def recognize_captcha(img_path):
    im = Image.open(img_path)
    # threshold = 140
    # table = []
    # for i in range(256):
    #     if i < threshold:
    #         table.append(0)
    #     else:
    #         table.append(1)
    #
    # out = im.point(table, '1')
    num = pytesseract.image_to_string(im)
    return num


if __name__ == '__main__':
    for i in range(1, 12):
        img_path = str(i) + ".jpeg"
        res = recognize_captcha(img_path)
        strs = res.split("\n")
        if len(strs) >=1:
            print (strs[0])

Python識別網站驗證碼
2020-08-19
Python網站
驗證碼識別
2024-06-20
python利用Tesseract識別驗證碼
2019-01-21
Python
識別英文數字驗證碼的程式（Python示例）
2024-11-30
Python
初探驗證碼識別
2020-08-19
某滑塊驗證碼識別思路(附完整程式碼)
2024-12-10
神器！使用Python 輕鬆識別驗證碼
2024-05-12
Python
【全網最高識別率】國稅局驗證碼識別
2020-12-05
影片直播app原始碼，傳送驗證碼驗證碼識別
2023-10-11
APP原始碼
常見驗證碼的弱點與驗證碼識別
2020-08-19
Python識別字母數字組合驗證碼
2021-09-11
Python
網站模擬登陸的滑塊驗證碼識別
2024-05-09
網站
識別英文數字驗證碼的程式（C# 示例）
2024-11-30
C#
驗證碼的識別和運用
2024-06-21
每次登入驗證都用Python來識別驗證碼，真的是太方便了！
2018-09-12
Python
機器視覺以及驗證碼識別
2019-02-16
視覺
使用 Ruby 識別英文數字驗證碼
2024-10-21
使用 Swift 識別英文數字驗證碼
2024-10-21
Swift
使用 OCaml 識別英文數字驗證碼
2024-10-22
有了這個Python庫，免費實現驗證碼識別！
2023-03-31
Python
playwright--自動化（二）：過滑塊驗證碼驗證碼缺口識別
2022-01-04
【驗證碼識別專欄】今天不煉丹，用 cv 來秒驗證碼
2024-12-10
驗證碼的前世今生：從圖文識別到無感驗證
2020-05-13
實時驗證碼技術可改進生物識別身份驗證
2018-04-18
使用 Chapel 實現滑動驗證碼識別
2024-11-16
使用 C# 識別英文數字驗證碼
2024-10-21
C#
瀧羽sec----burp驗證碼識別爆破
2024-12-11
Python識別驗證碼！學會這步，百分之60的網站你基本都能識別了！
2018-09-13
Python網站
Python爬蟲教程-29-驗證碼識別-Tesseract-OCR
2018-09-06
Python爬蟲
Python高效深度學習機器識別驗證碼教程分享
2021-09-19
Python深度學習
爬蟲遇到頭疼的驗證碼？教你彈窗處理和驗證碼識別
2020-12-30
爬蟲
簡單驗證碼識別及工具編寫思路
2020-08-19
【爬蟲系列】1. 無事，Python驗證碼識別入門
2021-08-07
爬蟲Python
為網站實現一個驗證碼
2021-06-27
網站
使用TensorFlow 來實現一個簡單的驗證碼識別過程
2019-05-27
使用 Seed7 實現滑動驗證碼識別
2024-11-19
使用 ActionScript 實現簡單滑動驗證碼識別
2024-11-19
【驗證碼逆向專欄】某多多驗證碼逆向分析
2024-11-29

python 驗證碼識別示例（一） 某個網站驗證碼識別

相關文章

python 驗證碼識別示例（一）某個網站驗證碼識別