Python爬蟲入門教程 58-100 python爬蟲高階技術之驗證碼篇4-極驗證識別技術之一

夢想橡皮擦發表於2019-04-12

原文網址 : https://juejin.im/post/5cb03954f265da03867e4006

Python爬蟲

@[toc]

驗證碼型別

今天要搞定的驗證碼屬於現在使用非常多的驗證碼的一種型別---極驗證滑動驗證碼，關於這個驗證碼的詳細說明查閱他的官網，www.geetest.com/ 把驗證碼做到這個地步，必須點讚了。

官網最新效果

官方DEMO最新的效果如下，按照驗證碼的更新頻率，基本部落格看完，驗證碼也更新了，不過套路依舊是相同的，反爬只能增加爬蟲編寫的成本，並不能完全杜絕爬蟲。

這類驗證碼，常規解決辦法，模擬人為操作，影象比對，查詢缺口，移動覆蓋缺口。

找個用極驗證的網站

今天看新聞，隨意找了一下，虎嗅使用的是直接拖拽，沒有用最新的點選+拖拽方式，可以直接看一下如何操作。

這種驗證碼除了打碼平臺以外，直接selenium搞起

拼接驗證碼圖片

當你在谷歌瀏覽器使用F12進行查詢元素的時候，隨意的去缺口圖片上面點選一下，在控制檯DOM結構中出現如下程式碼，有前端經驗的童鞋知道，這個使用的是背景區域性顯示技術，是可以通過這個拼接成一個。

注意兩個地方：

static.geetest.com/pictures/gt… 圖片地址
background-position:後面的座標
查閱圖片之後，發現是一張碎掉的圖片，你要做的第一步是將這個圖片進行還原，我們通過selenium進行實現。這個地方需要先備註一下圖片的尺寸，後面用size = 312x116

編寫自動化程式碼

使用selenium執行的操作，模擬人的點選行為即可

最初，我們匯入一些selenium的基本模組與方法

import time
import re

from selenium import webdriver
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.by import By
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.action_chains import ActionChains

複製程式碼

基本模組的作用如下 webdriver 核心驅動 selenium.common.exceptions 異常類 TimeoutException 超時異常 selenium.webdriver.common.by 按照什麼方式進行元素的查詢例如 By.ID,By.ClassName,By.XPATH selenium.webdriver.support.wait 等待頁面載入某些元素
from selenium.webdriver.support import expected_conditions 場景判斷用的，一般和上面的等待載入元素一起使用 selenium.webdriver.common.action_chains 滑鼠執行的動作鏈

主方法測試入口

if __name__ == '__main__':
    h = Geek_Huxiu()
    h.run()
複製程式碼

構造方法，實現對部分引數的初始化操作

    def __init__(self):
        self.driver = webdriver.Chrome()  
        self.driver.set_window_size(1366,768)
複製程式碼

webdriver.Chrome() 啟動谷歌瀏覽器，這個地方需要你提前配置好chromedriver.exe set_window_size(1366,768) 初始化瀏覽器大小

核心run方法

    def run(self):
        self.driver.get("https://www.huxiu.com/")  # 開啟瀏覽器
	
        WebDriverWait(self.driver,10).until(EC.element_to_be_clickable((By.XPATH,'//*[@class="js-register"]')))

        reg_element = self.driver.find_element_by_xpath('//*[@class="js-register"]')
        reg_element.click()

        WebDriverWait(self.driver,10).until(EC.element_to_be_clickable((By.XPATH,'//div[@class="gt_slider_knob gt_show"]')))

        # 模擬拖動
        self.analog_drag()
複製程式碼

WebDriverWait 方法

說明

driver: 傳入WebDriver例項，即我們上例中的driver
timeout: 超時時間，等待的最長時間（同時要考慮隱性等待時間）
poll_frequency: 呼叫until或until_not中的方法的間隔時間，預設是0.5秒
ignored_exceptions: 忽略的異常，如果在呼叫until或until_not的過程中丟擲這個元組中的異常, 則不中斷程式碼，繼續等待；
如果丟擲的是這個元組外的異常，則中斷程式碼，丟擲異常。預設只有NoSuchElementException。
複製程式碼

基本使用方法

WebDriverWait(driver, 超時時長, 呼叫頻率, 忽略異常).until(可執行方法, 超時時返回的資訊)
複製程式碼

模擬拖動方法

    def analog_drag(self):
        # 滑鼠移動到拖動按鈕，顯示出拖動圖片
        element = self.driver.find_element_by_xpath('//div[@class="gt_slider_knob gt_show"]')
        ActionChains(self.driver).move_to_element(element).perform()
        time.sleep(3)


        # 重新整理一下極驗證圖片
        element = self.driver.find_element_by_xpath('//a[@class="gt_refresh_button"]')
        element.click()
        time.sleep(1)

        # 獲取圖片地址和位置座標列表
        cut_image_url,cut_location = self.get_image_url('//div[@class="gt_cut_bg_slice"]')

        print(cut_image_url)
        print(cut_location)

複製程式碼

行為鏈

ActionChains(self.driver).move_to_element(element).perform()

模擬人移動滑鼠到指定DOM元素

圖片處理方法

    def get_image_url(self,xpath):
        link = re.compile('background-image: url\("(.*?)"\); background-position: (.*?)px (.*?)px;')
        elements = self.driver.find_elements_by_xpath(xpath)
        image_url = None

        location = list()

        for element in elements:
            style = element.get_attribute('style')
            groups = link.search(style)

            url = groups[1]
            x_pos = groups[2]
            y_pos = groups[3]
            location.append((int(x_pos), int(y_pos)))
            if not image_url:
                image_url = url
        return image_url, location

複製程式碼

使用正規表示式進行匹配的時候，需要將所有的DIV匹配出來，採用find_elements_by_xpath 方法，尤其注意elements

WebElement 具備一些常用的方法和屬性

size：返回元素尺寸
text ：返回元素文字
get_attribute(name)：獲得屬性值
is_dispalyed() ：該元素是否使用者可見

初步執行結果

拼接圖

看下圖，注意一些基本元素，拼接的圖片由N個小矩形構成，分為上下兩個部分，小矩形的寬度和高度為10x58

核心由上下兩部分構成，每部分都是26個小矩形

因為，整體寬度為2610 = 260px ，整體高度為582=116px

但是，還記得部落格開始的時候，你記錄的那個寬度和高度麼？ 312x116 高度一致，但是寬度出現偏差

312-260 = 52px
52個畫素去除以26個矩形，發現每個矩形差2px，這兩個畫素也就是下面我們拼接圖片的重點了

    def splicing_image(self,image_url,location):
        res = requests.get(image_url)
        file = BytesIO(res.content)
        img = Image.open(file)
        image_upper = []
        image_down = []
        for pos in location:
            if pos[1] == 0:
                # y值為0的座標  屬於圖片上半部分，高度58
                image_upper.append(img.crop((abs(pos[0]), 0, abs(pos[0]) + 10, 58)))
            else:
                # y值為58的座標 屬於圖片上半部分，高度58
                image_down.append(img.crop((abs(pos[0]), 58, abs(pos[0]) + 10, img.height)))
		# 畫布的x軸偏移量
        x_offset = 0 
        # 建立一張畫布
        new_img = Image.new("RGB", (260, img.height))
        for img in image_upper:
            new_img.paste(img, (x_offset, 58))
            x_offset += img.width

        x_offset = 0
        for img in image_down:
            new_img.paste(img, (x_offset, 0))
            x_offset += img.width

        return new_img
複製程式碼

說明

requests.get(image_url) 下載圖片到本地
BytesIO(res.content) 將位元組轉換成二進位制檔案流
Image.open(file) 獲取圖片
img.crop 裁切圖片 left, upper, right, lower
Image.new("RGB", (260, img.height)) 建立一個空白的圖片，將圖片序列中的元素，依次的拼接到裡面

最終實現效果

圖片儲存到本地

        # 將圖片儲存到本地
        cut_image.save("cut.jpg")
        full_image.save("full.jpg")
複製程式碼

好了，今天部落格就先把圖片處理到位，明天著手拼接部分。

歡迎關注「非本科程式設計師」回覆【0412】獲取本篇部落格原始碼

Python爬蟲入門教程 57-100 python爬蟲高階技術之驗證碼篇3-滑動驗證碼識別技術
2019-04-11
Python爬蟲
Python爬蟲入門教程 55-100 python爬蟲高階技術之驗證碼篇
2019-04-02
Python爬蟲
Python爬蟲入門教程 56-100 python爬蟲高階技術之驗證碼篇2-開放平臺OCR技術
2019-04-09
Python爬蟲
爬蟲進階教程：極驗(GEETEST)驗證碼破解教程
2018-12-24
爬蟲
【爬蟲系列】1. 無事，Python驗證碼識別入門
2021-08-07
爬蟲Python
python爬蟲之處理驗證碼
2019-03-01
Python爬蟲
Python爬蟲教程-29-驗證碼識別-Tesseract-OCR
2018-09-06
Python爬蟲
Python爬蟲抓取技術的門道
2019-09-21
Python爬蟲
如何高效的學習Python爬蟲技術？Python入門
2021-05-18
Python爬蟲
python爬蟲庫技術分享
2022-01-19
Python爬蟲
「docker實戰篇」python的docker爬蟲技術-python
2021-09-09
DockerPython爬蟲
JB的Python之旅-爬蟲篇-圖形驗證碼(1)-- tesserocr
2018-06-09
Python爬蟲
Python 從入門到爬蟲極簡教程
2019-02-16
Python爬蟲
JB的Python之旅-爬蟲篇-圖形驗證碼(3)-- 驗證碼的生成了解下
2018-06-14
Python爬蟲
那些年，我爬過的北科(八)——反反爬蟲之驗證碼識別
2018-12-08
爬蟲
python入門與進階篇(七)之原生爬蟲
2018-10-07
Python爬蟲
為什麼學習python及爬蟲，Python爬蟲[入門篇]？
2018-11-21
Python爬蟲
爬蟲遇到頭疼的驗證碼？教你彈窗處理和驗證碼識別
2020-12-30
爬蟲
Python爬蟲進階之JS逆向入門
2019-05-29
Python爬蟲JS
Python爬蟲入門教程 50-100 Python3爬蟲爬取VIP視訊-Python爬蟲6操作
2019-02-14
Python爬蟲
爬蟲與反爬蟲技術簡介
2022-09-20
爬蟲
Python爬蟲入門
2020-11-30
Python爬蟲
Python web自動化爬蟲-selenium/處理驗證碼/Xpath
2024-07-18
PythonWeb爬蟲
什麼是Python爬蟲？python爬蟲入門難嗎？
2021-12-27
Python爬蟲
python爬蟲之 BeautifulSoup庫入門
2019-12-09
Python爬蟲
爬蟲技術淺析
2020-08-19
爬蟲
爬蟲技術實戰
2020-08-19
爬蟲
【爬蟲】python爬蟲從入門到放棄
2018-12-20
爬蟲Python
JB的Python之旅-爬蟲篇-圖形驗證碼(2)-- 收費OCR瞭解下
2018-06-11
Python爬蟲
python-爬蟲入門
2024-09-22
Python爬蟲
Python爬蟲入門教程導航帖
2019-01-08
Python爬蟲
實時驗證碼技術可改進生物識別身份驗證
2018-04-18
Python爬蟲入門教程 60-100 python識別驗證碼，阿里、騰訊、百度、聚合資料等大公司都這麼幹
2019-04-17
Python爬蟲阿里
python入門之爬蟲工具有哪些？
2021-09-11
Python爬蟲
個人利用Python爬蟲技術怎麼掙錢
2019-04-01
Python爬蟲
數美驗證碼-空間推測-爬蟲
2024-04-26
爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
Python爬蟲怎麼入門-初級篇
2018-12-10
Python爬蟲