網路爬蟲之記一次js逆向解密經歷

奧辰發表於2019-05-29

原文網址 : https://www.cnblogs.com/chenhuabin/p/10946085.html

1 引言

數月前寫過某網站（請原諒我的掩耳盜鈴）的爬蟲，這兩天需要重新採集一次，用的是scrapy-redis框架，本以為二次爬取可以輕鬆完成的，可沒想到爬蟲啟動沒幾秒，出現了大堆的重試提示，心裡頓時就咯噔一下，悠閒時光估計要結束了。

仔細分析後，發現是獲取店鋪列表的請求出現問題，通過瀏覽器抓包，發現請求頭引數中相比之前多了一個X-Shard和x-uab引數，如下圖所示：

X-Shard倒是沒什麼問題，一看就是興趣點的經緯度，但x-uab看過之後就讓人心裡苦了，js加密啊，只能去逆向解密了。

2 js逆向求解

最直接的思路是根據“x-uab”關鍵字在所有關鍵中查詢（chrome瀏覽器-source中按ctrl + shift + F快捷鍵），結果如下所示：

接下來，打個斷點除錯一下：在數字那裡點一下，數字位置出現藍點，表示新增斷點成功，然後重新整理獲取店鋪列表的頁面，程式會在斷點處停下。如下所示：

在控制檯除錯o.getUA()函式，看一下輸出：

果然是，證明猜測沒錯，就是這個o.getUA()函式負責生成請求頭中的x-uab引數。

繼續向下檢視這個getUA()函式的引用（把游標放在要檢視的函式上，就可以檢視這個函式的引用），就是下圖這個函式：

圖中的s就是我們要的x-uab引數，下圖在控制檯輸出可以證明：

所以，u-xab是這裡的e生成的，而函式e傳入的引數中，第一個是常量2，第二個引數a是undefined，呵，看起來沒有傳其它引數。繼續向下找這個e(2,a)函式：

就是這個function e(r, i, n, h, p) 方法，直接執行可以獲取加密後的引數。把這個function e(r, i, n, h, p) 方法全部程式碼取出來，另存為一個js檔案。

3 擼程式碼

3.1 方案一

你以為上面找出生成x-uab的js程式碼，就大功告成了嗎？少年，you are too young too simple！

怎麼把這段js指令碼執行起來，才是關（nan）鍵（dian）。

這個function e(r, i, n, h, p) 函式有近4萬行程式碼，重新用Python實現難（jiu）度（shi）有（bu）點（ke）大（neng）。所以，我選擇直接用Python來執行這段js指令碼。

怎麼用python執行js指令碼，度娘會給你一堆資料，自己查吧。我這裡選擇的是execjs。

因為在上面複製出來的指令碼中，只單單定義了一個e(r, i, n, h, p)方法，並沒有呼叫這個方法，所以，我要要在js檔案的末尾新增一些程式碼來呼叫：

function getParam() {
    var a;
    var  param = e(2,a);
    return param
};

然後，開始擼Python程式碼吧：

import execjs
 
node = execjs.get()
file = 'eleme.js'
ctx = node.compile(open(file).read())
js_encode = 'getParam()'
params = ctx.eval(js_encode)
print(params)

嘗試執行，心涼，程式碼異常：

execjs._exceptions.ProgramError: TypeError: 'window' 未定義

window物件估計是瀏覽器開啟是建立的，蘊含瀏覽器的資訊，所以用Python來執行這段程式碼時，沒有這個對西鄉。本來想嘗試偽造window物件，但查詢之後發現js指令碼中上百個地方用到window，這還沒完，程式碼經過混淆，在下水平不夠，沒法追根溯源（這地方困擾了我許久，哪位前輩如果知道方法，請告知）。

後來，從一個前輩那裡（感謝前輩）獲知一個方法繞過去。這個前輩的方法是將execjs的引擎換成PhantomJS這個無頭瀏覽器（之前用的引擎是node.js），換句話說就是用PhantomJS來執行js指令碼，PhantomJS是一個瀏覽器，自然就會建立window物件。

使用PhantomJS之前，需要下載它的驅動，然後放下Python程式碼統一目錄下。對之前的Python程式碼也進行修改：

import execjs
 
import os
os.environ["EXECJS_RUNTIME"] = "PhantomJS"
node = execjs.get()
file = 'eleme.js'
ctx = node.compile(open(file).read())
js_encode = 'getParam()'
params = ctx.eval(js_encode)
print(params)

果然，按照這個方法，成功獲取加密字串。

3.2 方案二

事實上，這個方案二才是我在出現未定義window物件異常後首先嚐試的方法，不過因為往js程式碼中新增的js指令碼有問題，以為行不通，所以請教前輩，得到了方案一。

方案二的思路和方案一類似，不過更加粗暴一些。不是因為沒在瀏覽器執行，造成沒有window物件嗎？那我就模擬瀏覽器來執行。

在執行之前，同樣要修改js指令碼，在js檔案末尾呼叫e方法，新增如下程式碼：

var a;
var  param = e(2,a);
return param;

切記：不要放在任何函式裡面，我之前就是因為將這段程式碼放在函式裡頭強制執行，導致的結果就是在瀏覽器裡可以獲取加密字串，但是在Python中獲取到的卻是None。

模擬瀏覽器用的selenium和chrome的webDriver，程式碼如下：

from selenium import webdriver
 
browser = webdriver.Chrome(executable_path='chromedriver.exe')
with open('eleme.js', 'r') as f:
    js = f.read()
print(browser.execute_script(js))

這個方法也是可以獲得加密之後的字串。

最後，有必要說一下的是，如果需要獲取大量的x-uab，採用方案二效率會高一下，因為採用方案二的話，可以自開啟一個瀏覽器（都呼叫一個webdriver物件），然後快速執行js，返回加密字串。

4 總結

一次js逆向解密，算是完成了吧。但是也留下了一些問題：

（1）使用chrome斷點除錯時，js指令碼都是壓縮混淆之後的，通過chrome的pretty print功能（也就是說那對花括號）可以格式美化，但是，有的時候卻會失敗，就像下圖，格式化後，還是一團糟：

這個問題耽擱了我很長時間，沒法除錯啊！

（2）在下js基礎不行，很困惑為什麼執行時，先通過o.getUA()呼叫e函式內的巢狀函式，然後e函式內部巢狀函式中呼叫e方法本身，這是什麼操作？函式呼叫不都應該先外層函式，然後再呼叫巢狀函式嗎？

（3）如果不適用瀏覽器執行js的方法，就只能替換window物件，這該如何操作？

（4）這個e函式有近4萬行，一個加密函式這麼多程式碼，我可不信，裡面肯定很多事混淆視聽用的，但我嘗試除錯追蹤過，只能說混淆之後讓我無從追蹤，頭暈。怎麼才能簡化這段指令碼呢？

如果哪位前輩可以解惑，請一定告知，不勝感激！拜謝！

python爬蟲之JS逆向
2022-06-11
Python爬蟲JS
python爬蟲簡單實現逆向JS解密
2019-08-29
Python爬蟲JS解密
python爬蟲之js逆向（三）
2020-01-06
Python爬蟲JS
python爬蟲之js逆向（二）
2019-11-05
Python爬蟲JS
Python爬蟲之JS逆向分析技巧
2020-04-17
Python爬蟲JS
Python爬蟲進階之JS逆向土地市場網！
2019-08-17
Python爬蟲JS
python爬蟲js逆向
2019-09-22
Python爬蟲JS
Python爬蟲進階之JS逆向入門
2019-05-29
Python爬蟲JS
python爬蟲之JS逆向某易雲音樂
2022-06-11
Python爬蟲JS
python爬蟲js逆向學習（二）
2020-07-03
Python爬蟲JS
[Python] 網路爬蟲與資訊提取（1）網路爬蟲之規則
2020-11-06
Python爬蟲
C#網路爬蟲之TianyaCrawler實戰經驗分享
2024-01-31
C#爬蟲
Python爬蟲，JS逆向之 webpack 打包站點原理與實戰
2022-05-23
Python爬蟲JSWeb
網路爬蟲之抓取郵箱
2018-06-18
爬蟲
python網路爬蟲筆記（一）
2020-10-25
Python爬蟲筆記
網路爬蟲
2018-12-07
爬蟲
Python爬蟲進階之APP逆向(三)
2019-06-01
Python爬蟲APP
JB的測試之旅-記一次百度爬蟲耗時問題經歷
2018-08-14
爬蟲
網路爬蟲——爬蟲實戰（一）
2022-01-29
爬蟲
Python爬蟲 - 記一次字型反爬
2019-04-21
Python爬蟲
網路爬蟲示例
2018-10-30
爬蟲
網路爬蟲精要
2019-04-27
爬蟲
記一次逆向分析解密還原Class檔案
2023-12-05
解密
網路爬蟲之關於爬蟲 http 代理的常見使用方式
2020-04-28
爬蟲HTTP
js逆向實戰之企名片返回資料解密
2024-04-28
JS解密
python網路爬蟲_Python爬蟲：30個小時搞定Python網路爬蟲視訊教程
2020-10-21
Python爬蟲
收藏的爬蟲逆向工程
2018-10-17
爬蟲
記一次官網被黑的經歷
2019-01-27
記一次網站被攻擊經歷
2021-07-29
網站
python網路爬蟲應用_python網路爬蟲應用實戰
2020-12-29
Python爬蟲
記一次nginx攔截爬蟲
2023-03-30
Nginx爬蟲
反爬蟲的四種常見方式-JS逆向方法論
2019-08-19
爬蟲JS
網路爬蟲的原理
2018-12-02
爬蟲
python DHT網路爬蟲
2019-02-14
Python爬蟲
網路爬蟲專案
2022-01-29
爬蟲
爬蟲必看，每日JS逆向之愛奇藝密碼加密，今天你練了嗎？
2020-09-22
爬蟲JS密碼加密
記使用 Laravel-s 抵禦百度爬蟲的經歷
2020-08-16
Laravel爬蟲
《網路爬蟲開發實戰案例》筆記
2020-08-10
爬蟲筆記

網路爬蟲之記一次js逆向解密經歷

1 引言

2 js逆向求解

3 擼程式碼

3.1 方案一

3.2 方案二

4 總結

相關文章