宣告
本文章中所有內容僅供學習交流,抓包內容、敏感網址、資料介面均已做脫敏處理,嚴禁用於商業用途和非法用途,否則由此產生的一切後果均與作者無關,若有侵權,請聯絡我立即刪除!
本文章未經許可禁止轉載,禁止任何修改後二次傳播,擅自使用本文講解的技術而導致的任何意外,作者均不負責,若有侵權,請在公眾號【K哥爬蟲】聯絡作者立即刪除!
逆向目標
- 目標:某驗四代滑塊驗證碼,w 引數逆向
- 主頁:
aHR0cHM6Ly9ndDQuZ2VldGVzdC5jb20v
- 加密演算法:RSA、AES
通訊流程
驗證碼流程分析
進入網頁後,開啟開發者人員工具進行抓包,點選滑動拼圖驗證,此時還未點選按鈕開始驗證,抓到了一個名為 load?captcha_id=xxx
的包,Query String Parameters
包含了一些引數:
captcha_id
:驗證碼 id,固定值,由adaptive-captcha-demo.js
檔案生成,後文分析;challenge
:動態變化,由gtc4.js
檔案生成,後文分析;client_type
:表示 web 端;risk_type
:驗證碼型別,例如滑塊為 slide,無感為 ai;lang
:語言;callback
:geetest_ + 時間戳,主要作用是防止快取。
響應預覽中返回的關鍵內容如下,相較於三代,底圖未做混淆:
bg
:背景圖片地址;captcha_type
:驗證碼型別;gct_path
:gct4 檔案路徑;lot_number
:後續生成 pow_msg、w 的關鍵引數;payload
:後續 verify 請求介面需要的引數;datetime
:ISO 8601擴充套件格式的日期,後續生成 pow_msg 的關鍵引數;process_token
:後續 verify 請求介面需要的引數;slice
:滑塊圖片地址。
點選按鈕開始驗證,彈出滑塊驗證碼,滑動滑塊,抓包到 verify?captcha_id=xxx
,Query String Parameters
同樣包含了一些引數:
captcha_id
:與 load 介面請求頭中的 captcha_id 一致;client_type
:表示 web 端;lot_number
:load 介面返回的;risk_type
:與 load 介面中的一致,表示驗證碼型別;payload
:load 介面返回的;process_token
:load 介面返回的;w
:加密引數,由軌跡、滑動時間、滑動距離、userresponse、device_id、pow_msg 等引數加密得到;callback
:geetest_ + 時間戳,主要作用是防止快取。
響應預覽中返回的內容如下,result 值為 fail 即校驗失敗,success 為校驗透過,透過後攜帶 seccode 下的引數進行後續業務請求:
逆向分析
captcha_id 引數
全域性搜尋 captcha_id
,跟進到 gt4.js 檔案中:
進去後在第 307 行打上斷點,重新整理頁面即會斷住,此時 captcha_id
引數的值已經生成,同時 challenge 引數定義在下一行:
向上跟棧到 value,即 adaptive-captcha-demo.js
檔案中,會發現其是個固定值,實際上這個值是每個網站不一樣,是管理員在極驗後臺申請得到的:
challenge 引數
前面提到,challenge
引數定義在 captcha_id
引數的下一行,在 gt4.js 檔案的第 309 行打下斷點:
可以看到,challenge 引數的值由 uuid
函式生成,扣出即可。
w 引數
從 verify?captcha_id=xxx
介面的堆疊處跟棧進去:
打下斷點滑動滑塊斷住後,向上跟棧到 s 處,如果做過某驗三代滑塊的話,第 6249 行有個很熟悉的東西,"\u0077": r
,"\u0077"
即字母 w 的 Unicode 值,r 即 w 引數的值:
r 引數定義在第 6237 行,e 也是跟三代類似的引數,r 是將 i 引數和轉為字串的 e 引數加密得到的:
向上跟棧,找到 e 引數中各部分定義生成的位置,跟到 $_BHIH
中,_ 中先生成了四個鍵值對:
passtime
和 track
是熟悉的滑動時間和軌跡,setLeft
為識別出來的缺口距離,userresponse
定義在 19593 行, a 為 setLeft
引數的值,t[$_GDFCG(1909)]
為定值 1.0059466666666665:
a / t[$_GDFCG(1909)] + 2
接著跟到 $_BCFj
中,e 定義在第 6201 行,下面幾行定義了 e 中的 device_id
、lot_number
、pow_msg
、pow_sign
:
device_id
同一個網站是固定值,lot_number
是 load 響應返回的,控制檯列印一下 pow_msg
、pow_sign
的結果:
pow_msg
很明顯是由幾部分組成的,pow_sign
經過加密,向上跟棧到 init 中,分別定義在第 5837 行和第 5838 行,為 d 字典的鍵,根據鍵名取值:
d 定義在第 5835 行,這部分還原一下就很明顯了:
var c = t["toDataURL"]()["replace"]("data:image/png;base64,", "")
, _ = new w["default"]["MD5"]()["hex"](c);
a["options"]["deviceId"] = _;
var h = a["options"]
, l = h["powDetail"]
, p = h["lotNumber"]
, f = h["captchaId"]
, d = v["default"](p, f, l["hashfunc"], l["version"], l["bits"], l["datetime"], "")
跟進到 v["default"]
中,函式定義在第 6945 行,於 6978 行打下斷點:
pow_msg
由 _ + h
得到,_
定義在第 6960 行:
_ = i + "|" + r + "|" + n + "|" + s + "|" + t + "|" + e + "|" + o + "|";
- i:
l["version"]
- r:
l["bits"]
- n:
l["hashfunc"]
- s:
l["datetime"]
- t:
f, h["captchaId"]
- e:
p, h["lotNumber"]
- o:
""
h 定義在第 6269 行,跟進去是 16 位隨機數字符串,pow_sign
為 p,就是 pow_msg
經過 MD5 加密得到的:
至此這四個也分析完了,還差以下這部分:
em 等定值就不分析了,注意 kqg5:"1557244628"
,這個引數值和三代滑塊中一樣,每隔幾個小時會改變,向上跟棧到 $_BCFj
中,在第 6207 行打下斷點,此時 e 中這個值還未生成:
下一行打下斷點,下步斷點,即執行完 n[$_CBHIE(791)](e);
後,這個引數值就生成了,證明是 n[$_CBHIE(791)]
方法生成的,跟進去:
跳轉到第 5766 行,在第 5779 行打下斷點,此時的 n 中還未生成此引數:
執行了 _gct(n)
後即生成:
可見其生成位置在 _gct
方法中,跟進去後到 gct4.js 檔案,和三代大差不差:
可以將值匯出,至此 e 就分析完了,接著回到第 6238 行,跟進到加密函式 d[$_CBHHO(84)]
中,定義在第 11669 行,d[$_DIEHS(177)](c) + u
即 r 引數的值,c 為一個大陣列,u 明顯也經過加密了,所以 r 引數的值就是陣列 c 加密後再加上 u 得到的:
先跟進到 u,其定義在第 11705 行,解混淆後如下:
u = new l["default"]()["encrypt"](i);
所以 u 是 i 經過加密後得到的,i 定義在第 11702 行:
i = (0,d[$_DIEIq(103)])()
跟進到 d[$_DIEIq(103)]
中,定義在第 852 行,又是熟悉的 16 位隨機數:
i 是隨機數,跟進到加密函式 l[($_DIEHS(84))]
中,在第 12725 行,於 12741 行打下斷點,可以看到這裡就是個 RSA 加密,扣程式碼或者直接引庫即可:
回到 c 引數,c 引數的值為一個大陣列,其定義在第 11705 行,解混淆後內容如下:
var c = s[a]["symmetrical"]["encrypt"](e, i);
e 之前分析完了,i 為隨機數,兩個引數已經分析完了,跟進到加密方法中,在第 12174 行,於 12186 行打下斷點,控制檯列印一下混淆部分內容,很熟悉的東西,這裡就是 AES 加密,iv 為初始向量,加密模式為 CBC,對各類加密演算法不熟悉的,可以閱讀 K 哥文章 【爬蟲知識】爬蟲常見加密解密演算法:
c 引數最後又被 d[$_DIEHS(177)]
函式加密,跟進後,定義在第 547 行,直接扣下來改改即可: