網路爬蟲之記一次js逆向解密經歷

奧辰發表於2019-05-29

1 引言

數月前寫過某網站(請原諒我的掩耳盜鈴)的爬蟲,這兩天需要重新採集一次,用的是scrapy-redis框架,本以為二次爬取可以輕鬆完成的,可沒想到爬蟲啟動沒幾秒,出現了大堆的重試提示,心裡頓時就咯噔一下,悠閒時光估計要結束了。
仔細分析後,發現是獲取店鋪列表的請求出現問題,通過瀏覽器抓包,發現請求頭引數中相比之前多了一個X-Shard和x-uab引數,如下圖所示:
X-Shard倒是沒什麼問題,一看就是興趣點的經緯度,但x-uab看過之後就讓人心裡苦了,js加密啊,只能去逆向解密了。

2 js逆向求解

最直接的思路是根據“x-uab”關鍵字在所有關鍵中查詢(chrome瀏覽器-source中按ctrl + shift + F快捷鍵),結果如下所示:
接下來,打個斷點除錯一下:在數字那裡點一下,數字位置出現藍點,表示新增斷點成功,然後重新整理獲取店鋪列表的頁面,程式會在斷點處停下。如下所示:
在控制檯除錯o.getUA()函式,看一下輸出:
果然是,證明猜測沒錯,就是這個o.getUA()函式負責生成請求頭中的x-uab引數。
繼續向下檢視這個getUA()函式的引用(把游標放在要檢視的函式上,就可以檢視這個函式的引用),就是下圖這個函式:
圖中的s就是我們要的x-uab引數,下圖在控制檯輸出可以證明:
所以,u-xab是這裡的e生成的,而函式e傳入的引數中,第一個是常量2,第二個引數a是undefined,呵,看起來沒有傳其它引數。繼續向下找這個e(2,a)函式:
就是這個function e(r, i, n, h, p) 方法,直接執行可以獲取加密後的引數。把這個function e(r, i, n, h, p) 方法全部程式碼取出來,另存為一個js檔案。

3 擼程式碼

3.1 方案一

你以為上面找出生成x-uab的js程式碼,就大功告成了嗎?少年,you are too young too simple
怎麼把這段js指令碼執行起來,才是關(nan)鍵(dian)。
這個function e(r, i, n, h, p) 函式有近4萬行程式碼,重新用Python實現難(jiu)度(shi)有(bu)點(ke)大(neng)。所以,我選擇直接用Python來執行這段js指令碼。
怎麼用python執行js指令碼,度娘會給你一堆資料,自己查吧。我這裡選擇的是execjs
因為在上面複製出來的指令碼中,只單單定義了一個e(r, i, n, h, p)方法,並沒有呼叫這個方法,所以,我要要在js檔案的末尾新增一些程式碼來呼叫:
function getParam() {
    var a;
    var  param = e(2,a);
    return param
};
然後,開始擼Python程式碼吧:
import execjs
 
node = execjs.get()
file = 'eleme.js'
ctx = node.compile(open(file).read())
js_encode = 'getParam()'
params = ctx.eval(js_encode)
print(params)
嘗試執行,心涼,程式碼異常:
execjs._exceptions.ProgramError: TypeError: 'window' 未定義
window物件估計是瀏覽器開啟是建立的,蘊含瀏覽器的資訊,所以用Python來執行這段程式碼時,沒有這個對西鄉。本來想嘗試偽造window物件,但查詢之後發現js指令碼中上百個地方用到window,這還沒完,程式碼經過混淆,在下水平不夠,沒法追根溯源(這地方困擾了我許久,哪位前輩如果知道方法,請告知)。
後來,從一個前輩那裡(感謝前輩)獲知一個方法繞過去。這個前輩的方法是將execjs的引擎換成PhantomJS這個無頭瀏覽器(之前用的引擎是node.js),換句話說就是用PhantomJS來執行js指令碼,PhantomJS是一個瀏覽器,自然就會建立window物件。
使用PhantomJS之前,需要下載它的驅動,然後放下Python程式碼統一目錄下。對之前的Python程式碼也進行修改:
import execjs
 
import os
os.environ["EXECJS_RUNTIME"] = "PhantomJS"
node = execjs.get()
file = 'eleme.js'
ctx = node.compile(open(file).read())
js_encode = 'getParam()'
params = ctx.eval(js_encode)
print(params)
果然,按照這個方法,成功獲取加密字串。

3.2 方案二

事實上,這個方案二才是我在出現未定義window物件異常後首先嚐試的方法,不過因為往js程式碼中新增的js指令碼有問題,以為行不通,所以請教前輩,得到了方案一。
方案二的思路和方案一類似,不過更加粗暴一些。不是因為沒在瀏覽器執行,造成沒有window物件嗎?那我就模擬瀏覽器來執行。
在執行之前,同樣要修改js指令碼,在js檔案末尾呼叫e方法,新增如下程式碼:
var a;
var  param = e(2,a);
return param;
切記:不要放在任何函式裡面,我之前就是因為將這段程式碼放在函式裡頭強制執行,導致的結果就是在瀏覽器裡可以獲取加密字串,但是在Python中獲取到的卻是None
模擬瀏覽器用的selenium和chrome的webDriver,程式碼如下:
from selenium import webdriver
 
browser = webdriver.Chrome(executable_path='chromedriver.exe')
with open('eleme.js', 'r') as f:
    js = f.read()
print(browser.execute_script(js))
這個方法也是可以獲得加密之後的字串。
最後,有必要說一下的是,如果需要獲取大量的x-uab,採用方案二效率會高一下,因為採用方案二的話,可以自開啟一個瀏覽器(都呼叫一個webdriver物件),然後快速執行js,返回加密字串

4 總結

一次js逆向解密,算是完成了吧。但是也留下了一些問題:
(1)使用chrome斷點除錯時,js指令碼都是壓縮混淆之後的,通過chrome的pretty print功能(也就是說那對花括號)可以格式美化,但是,有的時候卻會失敗,就像下圖,格式化後,還是一團糟:
這個問題耽擱了我很長時間,沒法除錯啊!
(2)在下js基礎不行,很困惑為什麼執行時,先通過o.getUA()呼叫e函式內的巢狀函式,然後e函式內部巢狀函式中呼叫e方法本身,這是什麼操作?函式呼叫不都應該先外層函式,然後再呼叫巢狀函式嗎?
(3)如果不適用瀏覽器執行js的方法,就只能替換window物件,這該如何操作?
(4)這個e函式有近4萬行,一個加密函式這麼多程式碼,我可不信,裡面肯定很多事混淆視聽用的,但我嘗試除錯追蹤過,只能說混淆之後讓我無從追蹤,頭暈。怎麼才能簡化這段指令碼呢?
如果哪位前輩可以解惑,請一定告知,不勝感激!拜謝!

相關文章