一次簡單的驗證碼識別以及思考

Tony沈哲發表於2018-02-15

驗證碼

驗證碼（CAPTCHA）是“Completely Automated Public Turing test to tell Computers and Humans Apart”（全自動區分計算機和人類的圖靈測試）的縮寫，是一種區分使用者是計算機還是人的公共全自動程式。可以防止：惡意破解密碼、刷票、論壇灌水，有效防止某個黑客對某一個特定註冊使用者用特定程式暴力破解方式進行不斷的登陸嘗試，實際上用驗證碼是現在很多網站通行的方式，我們利用比較簡易的方式實現了這個功能。這個問題可以由計算機生成並評判，但是必須只有人類才能解答。由於計算機無法解答CAPTCHA的問題，所以回答出問題的使用者就可以被認為是人類。

驗證碼通常用於網站的登入，以區分是否是人類的行為還是機器的行為。啟用驗證碼是反爬蟲、反黑客的常用手段之一。然而，隨著技術的不斷進步，特別是machine learning的發展，普通的驗證碼識別也不是很複雜的事情。

識別驗證碼的架構

在搭建識別驗證碼服務之前需要完成兩件事情。 1）使用現有的爬蟲採集好圖片驗證碼，並標註好這些圖片。這裡，我使用自己開發的圖片爬蟲程式PicCrawler。所謂標註，就是用肉眼去正確地識別出圖片中的數字和字母，然後用這些數字和字母作為圖片的名字。

2）使用tensorflow來訓練這些驗證碼生成模型，每一批的驗證碼至少幾千起。這樣，訓練好的模型可以通過tensorflow的api來載入。

做完這些事情之後，需要考慮使用怎樣的方式整合到現有的框架中。

最初的架構
最初考慮使用OpenCV來載入模型，因為OpenCV有Java的API。然後Vert.x跟OpenCV進行互動。在這個架構中有線上的模型和離線的模型，線上的模型是生產環境中使用的模型。每次訓練好的離線模型可以替換線上的模型。但是OpenCV載入模型時遇到了問題，於是嘗試另一種辦法。
後來的嘗試

用tensorflow java api替換OpenCV來載入模型，這種方式也遇到了問題，不得不使用最後的方式。

最終的架構

使用python的web框架flask以及tensorflow python api來載入模型。在這個架構中，需要Vert.x呼叫flask暴露的介面，最後將識別的結果返回。

目標驗證碼.jpeg

驗證碼識別的演示.jpeg

最終，介面返回的資料跟圖片中驗證碼的內容一致。算是完成了一次驗證碼的識別。

思考

目前，只能識別1、2種驗證碼，未來會將多種驗證碼進行打標籤，然後訓練到一個模型中。

驗證碼的功能打算整合到爬蟲框架NetDiscovery中，成為它的一個元件。由於爬蟲框架是開源的，所以大家都可以免費使用這個模組。

驗證碼模組的架構，也爭取使用熟悉的Java來替換python。

相關文章

超簡單的PHP驗證碼識別
2017-03-17
PHP
Python驗證碼識別：利用pytesser識別簡單圖形驗證碼
2016-03-29
Python
簡單驗證碼識別及工具編寫思路
2020-08-19
機器視覺以及驗證碼識別
2019-02-16
視覺
使用 ActionScript 實現簡單滑動驗證碼識別
2024-11-19
驗證碼識別
2024-06-20
初探驗證碼識別
2020-08-19
java識別驗證碼
2015-01-20
Java
使用TensorFlow 來實現一個簡單的驗證碼識別過程
2019-05-27
python 驗證碼識別示例（一）某個網站驗證碼識別
2018-08-03
Python網站
驗證碼的識別和運用
2024-06-21
影片直播app原始碼，傳送驗證碼驗證碼識別
2023-10-11
APP原始碼
簡單的數字驗證碼破解
2020-12-19
一個簡單的驗證碼工具
2017-11-23
使用tensorflow2識別4位驗證碼及思考總結
2020-08-29
Python識別網站驗證碼
2020-08-19
Python網站
python利用Tesseract識別驗證碼
2019-01-21
Python
Python驗證碼自動識別
2017-11-20
Python
jQuery表單驗證簡單程式碼例項
2017-02-28
jQuery
jquery登陸表單簡單驗證程式碼
2017-02-22
jQuery
使用 Ruby 識別英文數字驗證碼
2024-10-21
使用 Swift 識別英文數字驗證碼
2024-10-21
Swift
使用 OCaml 識別英文數字驗證碼
2024-10-22
爬蟲遇到頭疼的驗證碼？教你彈窗處理和驗證碼識別
2020-12-30
爬蟲
簡單幾步實現滑動驗證碼（後端驗證）
2022-04-04
後端
短影片app原始碼，圖形和簡訊驗證碼的自動識別獲取
2023-11-17
APP原始碼
實時驗證碼技術可改進生物識別身份驗證
2018-04-18
jwt驗證的思考
2020-10-20
JWT
Python實現簡單驗證碼的轉文字
2018-10-26
Python
網路驗證碼的進化：從簡單圖文到無感驗證
2020-07-24
javascript實現的簡單驗證碼效果程式碼例項
2017-03-28
JavaScript
Python OCR識別圖片驗證碼（一）
2017-03-27
Python
Python OCR識別圖片驗證碼（二）
2017-05-31
Python
Python驗證碼識別處理例項
2015-12-30
Python
C#實現驗證碼識別例項
2010-03-19
C#
使用 C# 識別英文數字驗證碼
2024-10-21
C#
神器！使用Python 輕鬆識別驗證碼
2024-05-12
Python
jquery驗證簡單示例
2013-12-23
jQuery