selenium自動爬取網易易盾的驗證碼

二餅二餅發表於2020-07-20

原文網址 : https://www.cnblogs.com/lichli/p/13347952.html

我們在爬蟲過程中難免會遇到一些攔路虎，比如各種各樣的驗證碼，時不時蹦出來，這時候我們需要去識別它來繼續我們的工作，接下來我將爬取網一些滑動驗證碼，然後通過百度的EasyDL平臺進行資料標註，建立模型，訓練模型，測試模型，看看是否能返回目標框的相應座標，然後我們再使用selenium進行滑動到相應位置，這樣就破解了驗證碼。後面我將用幾個系列來闡述一下我們的內容。

首先，我們先看下爬取的效果，詳情點選公眾號地址，有視訊。

思路：一開始我去檢視能不能直接呼叫介面獲取圖片，發現看看不是那麼容易，找到了相應的介面，但是模擬介面卻很困難，裡面有token,jsonp之類的。後來直接擷取圖片好了，簡單粗暴。

步驟如下：

前提是有python環境，先把python安裝好。

1.pip install selenium

2.下載chrome_driver.exe,利用它來啟動谷歌瀏覽器，以下是網址，我們需要下載電腦谷歌對應的版本，我下載的是chromedriver_win32.zip，版本號是84.0.4147.89，解壓內有一個exe檔案，放到谷歌的安裝目錄。

https://sites.google.com/a/chromium.org/chromedriver/downloads

3.新增環境變數，將谷歌的安裝目錄加入環境變數。

4.測試

1 from selenium import webdriver
2 browser = webdriver.Chrome()
3 browser.get('https://dun.163.com/trial/jigsaw')

5.測試成功之後，我們就可以開始爬取滑動驗證碼圖片，上程式碼

 1 driver = webdriver.Chrome()
 2 driver.implicitly_wait(3)
 3 driver.maximize_window()
 4 driver.get('https://dun.163.com/trial/jigsaw')
 5 # 滑鼠移動到此元素
 6 yidun_tips = driver.find_element_by_class_name('yidun_tips')
 7 action = ActionChains(driver)
 8 for i in range(1000):
 9     action.move_to_element(yidun_tips).perform()
10     driver.implicitly_wait(5)
11     driver.save_screenshot('webpages/'+str(int(time.time()))+".png")
12     driver.find_element_by_class_name("yidun_refresh").click()
13     driver.implicitly_wait(5)
14 
15 sleep(2)
16 driver.quit()

這段程式碼會開啟網頁，找到相應元素，觸發hover事件，自動點選refresh按鈕，重新整理圖片，然後我們進行擷取儲存。

6.擷取驗證碼區域

 1 import cv2 as cv
 2 import  os
 3 
 4 # 獲取檔名
 5 file_names = os.listdir("webpages/")
 6 print(file_names)
 7 # 檔名拼接路徑
 8 file_list = [os.path.join("./webpages/",file) for file in file_names]
 9 
10 #裁剪座標為[y0:y1, x0:x1]
11 for i in range(len(file_list)):
12     src=cv.imread(file_list[i])
13     dst=src[651:851,945:1345]
14     cv.imwrite('dist/'+(str(i+1))+'.png',dst)
15 cv.waitKey()

selenium自動爬取網易易盾的驗證碼

後面我們就打包資料集上傳到EasyDL平臺，進行資料標註，訓練。

【網易易盾】網易易盾效能測試自動化建設
2023-03-15
網易易盾驗證碼移動端迎來新版本開始支援智慧無感知驗證
2019-02-26
Python web自動化爬蟲-selenium/處理驗證碼/Xpath
2024-07-18
PythonWeb爬蟲
行為式驗證碼家族再添一員網易易盾推出推理拼圖驗證碼
2019-11-26
網易易盾推出號碼驗證服務助推產品提高轉化留存率
2019-06-28
如何使用Selenium自動化測試工具獲取動態圖片驗證碼？
2022-04-25
第一時間更新！網易易盾驗證碼服務支援微信PC端小程式無跳轉驗證
2019-08-23
網易易盾行為式驗證碼家族添新成員：圖示點選驗證碼上線尤適出海企業
2019-03-05
對抗效果提高5倍，網易易盾在推理拼圖驗證碼上都做了哪些打磨？
2019-11-26
Scrapy 爬取不同網站及自動執行的經驗分享
2020-11-16
網站
python爬蟲（四）——selenium校園網自動填報
2020-10-25
Python爬蟲
爬蟲Selenium+PhantomJS爬取動態網站圖片資訊（Python）
2018-03-24
爬蟲JS網站Python
python3 使用 Selenium 自動化測試或爬取資料
2023-09-27
Python
JAVA爬蟲使用Selenium自動翻頁
2024-05-15
Java爬蟲
Java + Selenium + OpenCV解決自動化測試中的滑塊驗證
2022-07-18
JavaOpenCV
網易易盾推出政企網站安全方案主打主動治理、防篡改
2019-06-13
網站
【爬蟲】專案篇-使用selenium爬取大魚潮汐網
2024-04-05
爬蟲
WWDC 2018：自動強密碼與驗證碼自動輸入
2019-03-04
密碼
網易易盾入選中國網路安全100強
2019-07-03
短影片app原始碼，圖形和簡訊驗證碼的自動識別獲取
2023-11-17
APP原始碼
網易易盾獲資料中心聯盟（DCA）頒發“網路治理能力評測證書”
2019-08-29
zf_利用feapder中的selenium網頁爬取資料
2024-06-03
網頁
動態網站的爬取
2018-08-29
網站
ESIM模型的“全能版”！網易易盾實驗室研究員解讀HIM混合推理模型
2020-03-13
模型
自動化測試中的驗證碼處理
2024-11-01
playwright--自動化（二）：過滑塊驗證碼驗證碼缺口識別
2022-01-04
[python爬蟲] selenium爬取區域性動態重新整理網站（URL始終固定）
2018-04-26
Python爬蟲網站
前端獲取驗證碼
2020-12-20
前端
網易易盾正式開工，穩定提供品質的服務
2020-02-03
為物聯網程式碼安全而生網易易盾公測IoT安全編譯器Maze
2019-05-06
編譯
網易易盾深度學習模型工程化實踐
2019-12-14
深度學習模型
12306自動搶票及自動識別驗證碼功能（二）
2019-01-10
python+selenium實現動態爬取及selenuim的常用操作
2018-11-22
PythonUI
直播app開發搭建，圖形和簡訊驗證碼的自動識別獲取
2023-05-04
APP
自動化測試時對驗證碼的處理
2018-05-29
自動化驗證碼登入如何實現？
2024-07-10
Selenium自動化測試網頁
2019-02-16
網頁
直播app原始碼，驗證方式選擇郵箱驗證時，自動給輸入好的郵箱傳送驗證碼
2022-02-15
APP原始碼

selenium自動爬取網易易盾的驗證碼

相關文章