JB的Python之旅-爬蟲篇-圖形驗證碼(1)-- tesserocr

jb發表於2018-06-09

原文網址 : https://juejin.im/post/5b1b3cd26fb9a01e700ffe5b

前言

寫爬蟲有一個繞不過去的問題，那就是驗證碼，比如像某乎，如果不先登陸，連裡面的內容資料都爬不到，而驗證碼就是網站進行發爬蟲的一種措施，隨著技術的發展，驗證碼越來越複雜，爬蟲的工作越來越艱苦，所以這次就來講解，怎麼來識別驗證碼；（聽上去口氣很大的感覺）

先來看看，目前遇到的驗證碼種類有哪些？

1）圖形驗證碼
圖形驗證碼應該是最簡單的一種驗證碼，這種驗證碼是最早出現，也是目前最常見的，一般組成規則是4個字母或數字或混合組成;

2）滑動驗證碼

3）點觸驗證碼

Ok,上面這3種驗證碼方式，應該是目前PC上比較常見的驗證碼種類的，當然手機app上還會有手勢驗證，宮格驗證，語音驗證等等，這裡就不介紹，主要針對上面常見的3種介紹；

1 圖形驗證碼

某乎的驗證碼有2種，一種是圖形驗證碼，一種是點觸驗證碼，經過測試發現，一開始是顯示圖形驗證碼，但當登陸退出次數逐漸增多，就會變成點觸驗證碼，這種驗證碼的切換機制，也算是防爬蟲的一種手段，閒話不多說，先喵喵：

某乎連結:https://www.zhihu.com/signup?next=%2F
開啟後預設是在註冊頁面，點選下登陸按鈕，如果還是沒有驗證碼，重新整理幾次網頁就行了；

下面這種，下2篇文章會介紹；

2 資訊介紹

識別圖形驗證碼需要安裝tesserocr這個庫，下面介紹下tesserocr；
tesserocr是Python的一個OCR識別庫，但其實是對tesseract做了一層Python Api的封裝，
核心還是tesseract，所以在安裝tesserocr之前，需要先安裝tesseract;

等下，懵逼中，tesserocr這個能看明白，是一個庫，但OCR是什麼？tesseract又是什麼？

OCR
OCR,全稱叫 Optical Character Recognition，中文翻譯叫光學字元識別，是指通過掃描字元，通過其形狀將其翻譯成電子文字的過程；

舉例:
當有一個圖形驗證碼，先使用OCR技術將其轉化成電子文字，然後爬蟲將識別的結果提交到伺服器，便達到自動識別驗證碼的過程；

tesseract
tesseract是google開源的OCR

OK,貌似對概念有所理解了，還有個疑問，之前有在圖形識別領域，還有個opencv的玩意，那這兩者有什麼區別？
opencv專注機器視覺
tesseract專注字元識別

所以從領域來說，opencv更廣，而圖形驗證碼，opencv也可以做，但殺雞焉用牛刀~

3 環境準備

windows下的安裝

在Windows下，要先下載tesseract，它為tesserocr提供了支援；
tesseract下載地址：https://digi.bib.uni-mannheim.de/tesseract/
開啟後，可以看到各種exe的列表，可以隨便挑選;
其中檔名中帶有dev的為開發版本，不帶dev則為穩定版本，例如jb是下載 tesseract-ocr-setup-3.05.01.exe；

下載後雙擊，一路點選，直到出現下面這個頁面

這裡需要勾選紅框裡的Additional language data(download)，這個選項是安裝OCR識別支援的語言包，這樣OCR就可以識別多國語言，然後再一路點選NEXT即可，因為要下載語言包，所以需要點時間，大概10-20分鐘左右，跟網速有關，如果不需要支援多國語言的話，也可以不勾選，自由選擇
需要說明：預設包含英文字型檔
如果，覺得一次下載那麼多語言佔空間，又或者覺得網速慢，也可以選擇單獨安裝中文字型檔;
字型檔下載地址：https://github.com/tesseract-ocr/tessdata
開啟後，直接搜尋chi_sim.traineddata，這個代表的就是中文，下載下來;
然後找到剛剛tesseract安裝目錄，裡面會有一個叫tessdata的目錄，直接把剛下載的語言包放到這個目錄下即可；

如何驗證tesseract是否安裝成功？直接cmd下輸入tesseract即可；
成功會直接顯示資訊;

如果提示'tesseract' 不是內部或外部命令，則是因為沒有配置環境變數，手動把tesseract根目錄配置到path引數下即可，這塊不詳細說明；

到此為止，tesseract安裝成功啦~

接下來就安裝tesserocr，直接pip命令即可：

pip3 install tesserocr install
複製程式碼

但jb在安裝的時候，直接報錯：

試過很多種方式，就算使用conda install tesserocr,也一樣報錯。

經歷千辛萬苦，終於找到一條可行的命令：

conda install -c simonflueckiger tesserocr
複製程式碼

最終就安裝上tesserocr啦~

如何驗證是否真的安裝了？很簡單，直接import tesserocr，不報錯就說明安裝好了；

對了，如果有同學不知道conda這條命令的話，請訪問下面的連結，直接搜尋scrapy安裝，會有介紹conda：
https://juejin.im/post/5afcb91251882565bd257097|

OK，windows下的tesserocr跟tesseract的環境已經安裝好了；

彆著急，順便介紹下Linux跟Mac，但以下方式均未經過jb驗證，資訊來源於網上，僅供參考：

Linux下的安裝
對於Liunx來說，不同系統已經有了不同的發行包了，它可能叫做tesseract-ocr或者tesseract，直接用對應的命令安裝即可;

Ubuntu、Debian和Deepin
在Ubuntu、Debian和Deepin系統下，安裝命令如下：

  sudo apt-get install-y tesseract-ocr libtesseract-dev libleptioica-dev
複製程式碼

CentOS、Red Hat 在CentOS和Red Hat系統下，安裝命令如下：
```
  yum install -y tesseract
複製程式碼
```

在不同發行版本執行如上命令，即可完成tesseract的安裝；
安裝完成後，便可以呼叫tesseract命令；
預設也是指安裝英文語言，如果需要安裝其他語言，請看下上面Windows的介紹，一樣的處理方案，這裡不重複說明;

接下來就是安裝tesserocr，直接使用pip安裝：

pip3 install tesserocr pillow
複製程式碼

Mac下的安裝
在Mac下，首先使用Homebrew 安裝ImageMagick 和tesseract庫：

brew install imagemagick
brew install tesseract --all-languages
複製程式碼

接下來再安裝tesserocr即可：

brew install tesserocr pillow
複製程式碼

4 識別測試

為了方便測試，需要把驗證碼的圖片儲存到本地；
開啟weibo.com，隨便輸入賬號密碼，會提示輸入驗證碼，開啟開發者工具，找到驗證碼元素，它的src屬性就是一個連結，copy出來直接開啟，會看到一個驗證碼，而且重新整理的驗證碼會變化，由此推斷這是個驗證碼的介面，右鍵儲存驗證碼即可，就得到一張驗證碼；
驗證碼連結：
https://login.sina.com.cn/cgi/pin.php?r=9967937&s=0&p=gz-d0dc363f6a4523cbd602a5a10f00c59b4784

ok,完事具備，那就開始吧，新建專案，把驗證碼放到專案根目錄下；
用tesserocr庫來識別驗證碼：

import tesserocr
from PIL import Image

#新建Image物件
image = Image.open("3.jpg")
#呼叫tesserocr的image_to_text()方法，傳入image物件完成識別
result = tesserocr.image_to_text(image)
print(result)
複製程式碼

結果，執行後，啥都沒有？？？
接下來jb陷入了困擾，包括除錯，找各種文件，最終，把上面除錯的驗證碼換了一個：

替換下圖片，再執行一次程式碼：

OK，看到是有資料了，不過輸出的是MEEE，跟驗證碼的ME8E還是有點不一樣；

目前兩個問題：
1）微博的驗證碼識別失敗，輸出空
2）第二章驗證碼部分詞識別有誤

心想，這庫是網上都推薦用的，是Google開源的，理論上沒問題，而且人家也都這麼用，為什麼這裡就有問題？難道還需要額外的處理？

懷著疑問跟夢想，繼續學習；

題外話： tesserocr還有一個更加簡單的方法，這個方法可直接將圖片檔案轉換成字串，程式碼如下：

import tesserocr
print(tesserocr.file_to_text("1.jpg"))
複製程式碼

結果也跟上面的一樣，但網上不建議這麼用，原因是據說這種識別效果不如上一種的好；

關於微博驗證碼為空，使用tesseract輸出下原因：

tesseract 圖片路徑 output 
複製程式碼

leptonica 在解析時沒有檢測到任何dpi；

5 驗證碼處理

網上找了下資訊，比如這張驗證碼：

可能是驗證碼內的多餘線條干擾了圖片的識別；

又比如微博這張：

可能是字型位置，跟圖案等因素干擾了圖示的識別；

解決方案還是有的，需要對圖片進行額外的處理，如轉灰度，二值化等操作；

轉灰度處理：利用Image物件的convert()方法引數傳入L，即可將圖片轉成為灰度影象：

from PIL import Image

image = Image.open("1.jpg")
image = image.convert('L')
image.show()
複製程式碼

圖片成功轉灰了；此時我們再校驗一下，發現校驗還是MEEE，失敗；

傳入1的後，即可將圖片進行二值化處理：
（二值化是指將影象上的畫素點的灰度值設定為0或255，也就是將整個圖片呈現出明顯的只有黑和百的視覺效果）

import tesserocr
from PIL import Image

image = Image.open("1.jpg")
image = image.convert('1')
image.show()
複製程式碼

這個一看，比上面更模糊了，理所當然的，校驗結果會錯的更加離譜：

二值化的閾值是可以指定的，上面的方法採用的是預設閾值127；但一般很少直接轉換原圖，原因如上可看到，錯誤的更加離譜了；

一般是先將原圖轉為灰度影象，然後再指定二值化的閾值，程式碼如下：

import tesserocr
from PIL import Image

#新建Image物件
image = Image.open("1.jpg")
#進行置灰處理
image = image.convert('L')
#這個是二值化閾值
threshold = 150   
table = []

for i in  range(256):
    if i < threshold:
        table.append(0)
    else:
        table.append(1)
#通過表格轉換成二進位制圖片，1的作用是白色，不然就全部黑色了
image = image.point(table,"1")
image.show()
result = tesserocr.image_to_text(image)
print(result)
複製程式碼

這裡說明下，可能有同學對256不明白，這是什麼？
首先，我們是把圖片置灰處理，灰度影象是一種具有從黑到白256級灰度色階或等級的單色影象；
對於灰度影象利用閾值得到二值化的影象，也就是說，我們設定了一個閾值，從0到256，如果灰度影象少於閾值則設定0，大於閾值則設定1，0是黑色，1是白色，這樣做，就可以把一個灰度圖完全轉換二值化圖；
可能還是懵逼，直接貼圖：
原圖

灰度圖：

二值圖：

在灰度圖上，部分色彩是介於白色跟黑色之間，所以通過設定閾值的方法，把這些中間色彩全部轉換成黑色跟白色；

ok,扯遠了，上面把驗證碼二值圖後是長這樣的：

而校驗結果：

good，有所變化，至少不是MEEE了，那我們繼續調，調到一個合適的值;
調了半天，jb放棄了，原因是這個8，不管怎麼調都調不到一個合適的值，一直在S、R、B之間徘徊；

JB換了個驗證碼：

上面同樣的程式碼，無修改，二值圖如下：

校驗結果：

oh year，這個能校驗出來了~

還記得我們一開始那個微博驗證碼嗎？我們也來試試，處理後的驗證碼是這樣的~

結果校驗的時候，基本上都空，只有在138的時候會有一點點識別效果，但是壓根不搭邊；

對比了下，微博驗證碼跟上面能識別的驗證碼：

能別識別的，是實心，而不能被識別的，是空心；
實心的好處在於，影象處理後，黑白分明，但是空心在影象處理後，由於線條本來就很細，處理後可能都識別不出來了；

6 中文情況如何？

更新於18.6.11
突然想起，上面安裝的時候有提及到安裝不同語言包，那如果要看看其他語言，怎麼搞？因此就補充這點了~

先上圖~

直接上程式碼：

import tesserocr
from PIL import Image

image = Image.open("juejin.jpg")
result = tesserocr.image_to_text(image, lang='chi_sim')
print(result)
複製程式碼

因為預設是英文，所以英文不需要指定lang，但中文就需要啦，chi_sim就是簡體中文了；

從輸出的結果來看，小冊那估計有個sale，不然估計開源庫也能匹配出來~
但依然可以看出，中文也不是很精準~

這裡說明下，中午不需要置灰跟二值哈，不然顏色加深了，估計更難辨別了~

7 小結

本章學習了tesserocr及tesseract的環境搭建，以及如何對圖形驗證碼進行噪音處理，並且講解灰色圖跟二值圖的概念；

8 疑難雜症

實際發現，tesserocr僅能解決實心的驗證碼，對於空心的驗證碼，依然束手無策，那怎麼辦呢？
既然影象識別存在誤差，那我們就放棄這條路，而是通過其他的方式來獲取這個驗證碼；

比如直接找到生成這驗證碼的程式碼二次轉化獲取驗證碼，深度學習訓練機器識別；

下章預告：
如何獲取驗證碼的生成程式碼二次處理獲取驗證碼

18.6.11更新上面的話題，留到下下章處理，下章介紹下收費的OCR~

謝謝大家~

JB的Python之旅-爬蟲篇-圖形驗證碼(3)-- 驗證碼的生成了解下
2018-06-14
Python爬蟲
JB的Python之旅-爬蟲篇-圖形驗證碼(2)-- 收費OCR瞭解下
2018-06-11
Python爬蟲
JB的Python之旅-爬蟲篇--requests&Scrapy
2018-06-08
Python爬蟲
JB的Python之旅-爬蟲篇--urllib和Beautiful Soup
2018-05-15
Python爬蟲
JB的Python之旅-爬蟲篇-新浪微博內容爬取
2018-06-30
Python爬蟲
JB的Python之旅-爬取phizhub網站（原始碼）
2019-03-01
Python網站原始碼
JB的Python之旅-爬取phizhub網站
2019-02-21
Python網站
python爬蟲之處理驗證碼
2019-03-01
Python爬蟲
Python爬蟲入門教程 55-100 python爬蟲高階技術之驗證碼篇
2019-04-02
Python爬蟲
Python爬蟲入門教程 57-100 python爬蟲高階技術之驗證碼篇3-滑動驗證碼識別技術
2019-04-11
Python爬蟲
【爬蟲系列】1. 無事，Python驗證碼識別入門
2021-08-07
爬蟲Python
圖形驗證碼
2023-03-10
Python爬蟲入門教程 58-100 python爬蟲高階技術之驗證碼篇4-極驗證識別技術之一
2019-04-12
Python爬蟲
JB的Python之旅-人工智慧篇-TensorFlow-“Hello world”
2018-06-19
Python人工智慧
JB的Python之旅-人工智慧篇-TensorFlow基礎概念
2018-06-15
Python人工智慧
Django之圖形驗證碼
2024-03-28
Django
Flutter 生成圖形驗證碼
2020-07-23
Flutter
JB的Python之旅-yaml介紹
2018-06-25
PythonYAML
Python爬蟲教程-29-驗證碼識別-Tesseract-OCR
2018-09-06
Python爬蟲
Python web自動化爬蟲-selenium/處理驗證碼/Xpath
2024-07-18
PythonWeb爬蟲
JB的Python之旅-資料分析篇-jieba&wordcloud(詞雲)
2018-06-12
PythonJiebaCloud
Python爬蟲入門教程 56-100 python爬蟲高階技術之驗證碼篇2-開放平臺OCR技術
2019-04-09
Python爬蟲
.Net WebAPI 生成圖形驗證碼
2024-06-26
WebAPI
gofiber: 使用圖形驗證碼d
2024-12-07
Go
java圖形驗證碼實現
2021-09-09
Java
【Python篇】scrapy爬蟲
2020-11-29
Python爬蟲
爬蟲模擬登入破解無原圖滑動驗證碼
2019-06-19
爬蟲
Python爬蟲（1.爬蟲的基本概念）
2018-04-20
Python爬蟲
Python 萬能程式碼模版：爬蟲程式碼篇
2022-08-25
Python爬蟲
爬蟲進階教程：極驗(GEETEST)驗證碼破解教程
2018-12-24
爬蟲
數美驗證碼-空間推測-爬蟲
2024-04-26
爬蟲
騰訊雲圖形驗證碼接入
2020-10-16
圖形驗證碼設計實現
2018-04-04
爬蟲遇到頭疼的驗證碼？教你彈窗處理和驗證碼識別
2020-12-30
爬蟲
puppeteer爬蟲的奇妙之旅
2018-11-16
爬蟲
圖形驗證碼圖片樣式設定
2023-04-21
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
爬蟲（1） - 爬蟲基礎入門理論篇
2022-06-30
爬蟲