爬蟲之-某生鮮APP加密引數逆向分析

王平發表於2018-02-20

爬蟲APP加密

本文是跟我學習爬蟲的小夥伴：彭良懷的投稿，稿費是500。本文寫得非常好，完全可以當著APP逆向抓取的教程來學。從逆向思路的分析，逆向工具的搭配使用，到逆向知識結構的掌握，顯示出了他紮實的爬蟲逆向基礎功底。

PS：他在北京，有看上的老闆可以私信我，為人也不錯。

一、前言

學了一段時間 APP 逆向，剛剛入門，我以某生鮮 APP 為例，記錄一下逆向過程和一些知識點。為了不影響對方的利益，我文中特意隱去了該APP的名字資訊，本文僅供學習交流，請勿用作其他用途。

使用到的工具如下：

一部 root 後的安卓手機，模擬器也可以
抓包工具：Charles
查殼工具：APK Messenger
APK反編譯工具：jadx-gui 1.1
SO檔案分析工具：IDA_Pro_v7.0
Hook 框架：frida

二、抓包分析

首先手機配置好代理，開啟APP，用Charles抓一下包，還好直接就抓到了，如下圖所示：

可以看到很多的請求引數，翻頁再抓包一次，把兩次抓到的引數進行比對，看看哪些引數固定，哪些是變化的。這麼多引數，要是自己用肉眼看，那就太費勁了，而且還容易看漏，所以直接用線上文字對比工具吧，我用的是這個網站：https://qqe2.com/word/diff，把兩次抓包的引數複製上去，如下圖所示：

不同的引數都高亮出來了，一目瞭然。我簡單分析如下：

signKey：密文，長度 32 位，可能為 MD5、HmacMD5 加密或隨機 UUID
signKeyV1：密文，長度 64 位，可能為 SHA256、HmacSHA256 加密
t ：13 位時間戳
traceId：等於 deviceId （固定的裝置ID）加兩個13位時間戳
currentPage：頁碼
lastStoreId：上一頁最後一家店鋪 ID

其他固定引數很好理解，我就不闡述了。通過模擬請求驗證，修改任意引數的值都無法獲取資料，所以推測 signKey 和 signKeyV1 是由其他請求引數加密生成的。那接下來就去看看 java 程式碼吧。

三、Java層分析

1. 查殼

在反編譯 apk 之前，首先查下殼，因為加殼（加固）後的 apk 直接反編譯是看不到有用資訊的。查殼工具很多，這裡我使用的是 APK Messenger，開啟後，直接將 apk 包拖入介面，即可看到有沒有加殼，如下圖所示：

結果疑似無殼，接下來就可以使用 jadx 反編譯 apk了。需要注意的是，查殼功能的實現往往只是遍歷 APK 內檔案和目錄，以加固廠商（騰訊、360、阿里、百度、梆梆等）的常用檔名作為判斷特徵，比如百度的加固一般在 lib 目錄下有一個 libbaiduprotest.so 檔案，但有可能人家使用了新的名字，所以查殼有一定的誤判率。你還可以在 Apk Messenger 中檢視、增加或編輯加固的判別特徵。

2. 分析關鍵 Java 程式碼

用 jadx 開啟 apk ，反編譯為 java 程式碼，然後按 Ctrl + Shift + F 全域性搜尋 signKeyV1，直接可以定位到如下程式碼：

這段程式碼很好理解，明顯是在組裝引數，可以從中得出以下資訊：

t 為當前時間戳；
subVersion 為當前APP版本號；
signKey 是由 k 方法生成的；
signKeyV1 等於 KEY_NEW_SIGN， KEY_NEW_SIGN 又是由 k2 方法生成的；
傳入方法 k2 的引數為 formatQueryParaMap 方法的返回值；
方法 k 和 k2 都在 native 層，載入的是 libjdpdj.so 檔案；

3. 分析 formatQueryParaMap 方法

k 和 k2 都在 native 層，我們還是先看看 formatQueryParaMap 方法吧，按住 Ctrl 鍵同時滑鼠左鍵點選 formatQueryParaMap 即可跳轉到該方法，如下圖所示：

這段程式碼也好理解，傳入該方法的第一個引數為 Map 型別，類似 Python 中的字典，它先根據 key 進行排序，然後再把 value 用 & 字元進行拼接（functionId 的值除外），用 Python 程式碼實現如下：

def formatQueryParaMap(param: dict) -> str:
    return '&'.join(param[k] for k in sorted(param.keys()) if k != 'functionId')

4. Hook formatQueryParaMap 方法

如果看不懂或不想分析 formatQueryParaMap() 也沒關係，我們直接用 frida hook 一下這個方法，看看它的輸入和輸出，也能反向推測出這個方法是做什麼的，hook 程式碼如下：

Java.perform(function () {
    var util = Java.use('jd.net.ASCIISortUtil');
    util.formatQueryParaMap.implementation = function (arg1, arg2) {
        console.log('param1: ', arg1);
        console.log('param2: ', arg2);
        var result = this.formatQueryParaMap(arg1, arg2);
        console.log('return: ', result);
        return result;
    };})

列印結果如下：

爬蟲之-某生鮮APP加密引數逆向分析

很明顯，param1 就是最開始抓包到的那些請求引數，那麼我們就知道了方法 k2 的輸入引數要怎麼構造了，接下來分析方法 k 、 k2 是怎麼加密的，就不得不分析 .so 檔案了。

5. 關於反除錯

這裡提一下，該 APP 有反除錯，開啟 frida-server 後，啟動 APP 就立即閃退，可別急著去破解它的反除錯，即找到反除錯的地方幹掉後重新打包簽名，可這樣做就很麻煩了，不知道得掉多少頭髮。還好，先啟動 APP 等進入主介面後再啟動 frida-server，就能正常進行 hook了，雖然偶爾還是會被強制閃退，但頻率不高，影響不大。

四、Native層分析

通過 Java 層的分析知道，signKey 和 signKeyV1 分別是方法 k 和 k2生成的，而這兩個方法又是定義在 native 層的，那麼就得先找到 k、k2 在 native 層中對應的函式，然後再分析具體的加密過程。為了便於理解，我先講知識點，再講操作。

1. 靜態註冊和動態註冊

因為 java 層和 native 層的程式碼往往相互呼叫，使用的是一種叫 JNI (Java Native Interface) 的技術，在 java 層中呼叫 native 函式之前, 要對 java 中 native 關鍵字定義的方法進行註冊，註冊方式有兩種：靜態註冊和動態註冊。下面簡單介紹一下：

靜態註冊：

靜態註冊是通過固定格式方法名進行關聯，命名規則如下：

native 函式名 = Java + 包名 + 類名 + 方法名

例如，包名: com.example.test，類名：jd.net.z，方法名：k

如果是靜態註冊的話，那麼 native 中的函式名就該為：Java_com_example_test_jd_net_z_k
動態註冊：

動態註冊是通過 RegisterNative() 這個 JNI 函式動態新增對映關係來進行關聯的，這種方式可以隨便命名函式名，比較靈活。其申明示例如下：
```
jint RegisterNatives(JNIEnv *env, jclass clazz, const JNINativeMethod* methods, jint nMethods)
```
第 1 個引數是 JNIEnv 指標，所有 JNI 函式第一個引數都是它；

第 2 個引數 clazz 是註冊方法對應 Java 層中的類，由 FindClass 函式獲取；

第 3 個引數 methods 是一個陣列，其中包含了註冊方法結構體資訊，我們可以從中找到註冊前後的方法名，所以我們注意這個引數就行了；

第 4 個引數 nMethods 是動態註冊方法的數量。

2. 找到 k、k2 對應的 native 函式

知道了 native 函式的兩種註冊方式，那就開始具體的操作吧。用 IDA 開啟 libjdpdj.so 檔案，切換到 Exports 視窗，我們先按照靜態註冊的命名規則搜尋：Java，並沒有搜到，那麼便是動態註冊了。

因為 JNI_OnLoad() 是載入 so檔案的初始函式，可以從中找到 RegisterNative()。那麼搜尋 JNI_OnLoad ，雙擊進入，按 F5 把彙編轉成偽 C 程式碼，你會發現並沒有找到 RegisterNative，別急，這是因為 IDA 不能準確的識別函式宣告或變數型別，反編譯不完全正確造成的，但我們可手動將其還原。

凡是看到類似 (*(_DWORD *)v2 + 860))(v2, …) 這種程式碼的其實都是 JNI 函式，我們選中引數 v2 後按 Y 鍵會彈出視窗，輸入JNIEnv * ，點選 OK 即可還原函式名，還原後如下所示：

根據前面的介紹，我們只需要看第 3 個引數即可，雙擊 &off_117004 跳轉到如下彙編程式碼：

從 117004 偏移量那一行開始，每 3 行為一個結構體，一共 8 個。我們看第一個，其第一行右邊的註釋 “k” 就是 java 層的方法名，第二行為 JNI 欄位描述符，描述了該方法的引數型別和返回值型別，第三行就是我們要找的動態註冊後的函式名，可以看到為：gk；同樣的，”k2″ 對應的就是：gk2。

搜搜看，這就很容易找到了：

不過有些 APP 為了防止被靜態分析，對註冊函式做了混淆，通過這種方式並不能直接找到，這裡我就不討論了，遇到的童鞋可以參考趙四這篇部落格：http://www.520monkey.com/archives/1289

3. JNI 靜態除錯的一些技巧

在分析 gk 函式之前我先談談靜態分析 native 函式的一些技巧和個人經驗。

(1) 批量還原 JNI 函式名

native 函式中經常會用到很多的 JNI 函式，而 IDA 並不能很好的識別，每次我們都要一個個手動修改未免太麻煩了點，所以我介紹一個可以批量轉換的方式：

按 Ctrl + F9 ，選擇 jni.h 標頭檔案匯入
匯入成功後，滑鼠左鍵點選其中一個 JNI 函式的引數，然後右鍵選擇 Convert to Struct *
在彈出的 Select a structure 視窗中選擇 _JNIEnv，點選OK

這樣就可以把當前開啟的 native 函式裡面所有 JNI 函式名一次性還原了。注意 jni.h 標頭檔案第一匯入會報錯，需要根據報錯資訊修改 jni.h 對應的程式碼。

(2) 強制調出函式引數

有時會遇到 IDA 反編譯出來的函式連引數都沒有，如下面的 GetArrayLength 函式後面的引數為空：

這時需要滑鼠左鍵點選該函式，然後滑鼠右鍵選擇 Force call type ，就能強制把引數調出來。

(3) 常用快捷鍵

shift + F12：檢視so檔案中所有常量字串的值；
tab鍵：彙編和偽 C 程式碼之間相互切換；
/ 鍵：新增註釋；
N 鍵：變數重新命名；
X 鍵：檢視某變數的所有引用；
= 鍵：消除冗餘的中間變數；

由於 IDA 反編譯出來總是會有很多冗餘的中間變數，如：

v2 = v1;
result = encrypt(v2);
選中 v2，按鍵盤上的 = 鍵，再點選 OK，即可消除中間變數 v2：

result = encrypt(v1);

(4) 靜態除錯思路

根據函式入參，至上而下分析
根據函式返回值，至下而上分析
尋找關鍵的函式進行分析，一般可以把函式分為以下幾種：

① 標準庫函式：如 strlen()，計算字串的長度，見名知意；

② JNI 函式：如 FindClass()，呼叫 Java中的類，JNI 函式一般也是見名知意；

③ 使用者自定義的函式：如 MD5::MD5()，一看就知道是 MD5 加密，這類需特別注意；

④ IDA命名的函式：如 sub_567C()，IDA 會對沒有名字的函式自動命名，命名規則就是 sub_ + 函式地址，這類函式也是重點。

從追求效率的角度來說，最好先找關鍵函式，看看有沒有常見的加密函式名，找到後直接用frida hook，一些簡單的往往能夠一擊中的，快速破解。從學技術的角度來說，可以多嘗試一行一行程式碼地分析，鍛鍊看程式碼的能力。當然複雜點的還不得不分析 arm 指令，要是被混淆後就更加難了，難的我也不會，以後多練多學吧。

4. 靜態分析 gk 函式

接下來開始具體操作吧，雙擊 gk 函式後看到彙編 arm 指令，按 F5 鍵反彙編為偽 C 程式碼，並把 JNI 函式名還原。我這裡就不一一分析每行程式碼了，直接先找關鍵函式，很容易就找到如下程式碼：

很明顯是 MD5 加密，MD5Init() 是一個初始化函式，MD5Update() 才是 MD5 的主計算過程，所以直接 hook MD5Update() ，用 frida hook native 層函式得需要找到目標函式的絕對地址，而目標函式可能是匯出函式，也可能是未匯出函式，我先分別介紹一下怎麼獲取他們的地址吧：

獲取匯出函式的絕對地址:

// JNI_OnLoad 肯定是匯出函式,可直接根據名字獲取

var onload_addr = Module.getExportByName('libjdpdj.so', 'JNI_OnLoad');

獲取未匯出函式的絕對地址，我列舉以下 3 種方式：

方式一：

// 獲取JNI_OnLoad的地址:
var onload_addr = Module.getExportByName('libjdpdj.so', 'JNI_OnLoad');
// 基地址 = JNI_OnLoad地址 - JNI_OnLoad偏移:
var base_addr = parseInt(onload_addr ) - parseInt('0x34D6C');
// MD5Update地址 = 基地址 + MD5Update偏移:
var md5_update_addr = ptr(base_addr + parseInt('0x34E18'));

方式二：

var onload_addr = Module.getExportByName('libjdpdj.so', 'JNI_OnLoad');
var md5_update_addr = onload_addr.sub(0x34D6C).add(0x34E18);

方式三：
```
var md5_update_addr = Module.findBaseAddress("libjdpdj.so").add(0x34E18 + 1);
```
方式一看註釋很好理解，方式二其實就是方式一的簡化，用 frida 提供的的 add() 和 sub() 函式進行地址的加減。方式三是進一步簡化，但是用這種方式一定要記得對地址 +1，為什麼要 +1 呢？我引用趙四的原話解釋吧：

因為thumb和arm指令的區分，地址最後一位的奇偶性來進行標誌

獲取未匯出函式地址的方式也完全適用於匯出函式，所以不管匯出還是未匯出，我都用方式三獲取，程式碼簡單優雅。

那麼我們 hook MD5Update() 的程式碼如下：

var pointer = Module.findBaseAddress("libjdpdj.so").add(0x34E18 + 1);
console.log('MD5Update pointer:', pointer);
Interceptor.attach(pointer, {
    onEnter: function(args) {
        console.log('引數1:', args[0]);
        console.log('引數2:', Memory.readCString(args[1]));
  // Memory.readCString()就是讀取地址為字串
        console.log('引數3:', parseInt(args[2]));
        console.log('----------------');    },
    onLeave: function(retval) {    }
})

hook 的時候我們同時對其抓包，以便驗證，hook 列印的結果如下：

MD5Update pointer: 0xaed5ae19
引數1: 0xbef0eb8c
引數2: {"city":"重慶市","latitude":29.57252,"longitude":106.53355,"address":"觀音橋",
"coordType":"2","channelId":"4037","appVersion":"7.4.0","platform":"2","currentPage":1,
"pageSize":10,"areaCode":4,"ref":"home","ctp":"channel"}923047ae3f8d11d8b19aeb9f3d1bc002
引數3: 259

—————-

可以看到引數2 為部分請求引數再上加尾部的鹽值，這便是加密前的原文。我們把它拿去用 MD5 線上加密一下，其結果和抓包到的 signKey 進行對比，經驗證完全相同，那麼 signKey 被一擊中的，具體的程式碼都不用去分析了。其實伺服器並沒有對該引數進行校驗，我們直接生成一個隨機的 32 位字元就行，我這裡主要是講一下方法。

5. 靜態分析 gk2 函式

然後再來看 gk2 函式，同樣首先找有沒有常見的加密，很快在最後幾行看到如下程式碼：

很明顯是 hmac_sha256 加密，看到它有 6 個引數，往上追溯可知，第 1 個引數 s 為加密前的字串，第 2 個引數 v23 為 s 的長度，這裡 v23 – 32 說明加密前需要去掉最後 32 個字元，第 3 個引數為金鑰，第 4 個引數是金鑰的長度，最後兩個引數沒有什麼操作，不用管。那麼我們就直接用 frida hook hmac_sha256 函式，列印一下引數看看，程式碼如下：

var pointer = Module.findBaseAddress("libjdpdj.so").add(0x361B8 + 1);
console.log("hmac_sha256 pointer: ", pointer);
Interceptor.attach(pointer, {
    onEnter: function(args) {
        console.log("引數1:", Memory.readUtf8String(args[0]));
        console.log("引數2:", parseInt(args[1]));
        console.log("引數3:", Memory.readCString(args[2]));
        console.log("引數4:", parseInt(args[3]));
        console.log('---------------');
    },
    onLeave:function(retval){    }
});

hook 的時候我們同時對其抓包，以便驗證，hook 列印的結果如下：

引數 1 去掉末尾的 32 位字元就是入參，引數 3 是金鑰，於是把入參拿去用 HmacSHA256 加密一下，其結果再和抓包到 signKeyV1 進行對比，經驗證完全相同，由此 signKeyV1 也被一擊中的。

抱著學習的心態再去分析一下偽 C 程式碼，具體分析過程我就不介紹了，就說一下大致的邏輯：

先呼叫 java 層的 getsign 方法獲取基礎 key，
對基礎 key 每個字元的 ASCII 碼進行修改，同時拼接到輸入引數的尾部，
取出入參尾部的 32 位作為金鑰，
最後對輸入引數進行 hmac_sha256 加密，通過指標返回加密結果。

逆向到這兒就結束了，後面用 python 實現不難，我就不貼程式碼了，關鍵過程講清楚了就行。

6. native 函式的引數

我再囉嗦一下，native 函式要比 java 層對應方法多 2 個引數，它們前兩個引數是固定的，第 1 個引數為 JNIEnv 指標；第 2 個為 jobject 或 jclass；從第 3 個引數開始才是 java 層傳遞過來的。比如：gk() 函式的申明如下：

其中 a3 才是 java 層 k() 方法的引數。前兩個引數之所以是 int 型別，前面也說過，是因為 IDA 經常不能正確識別引數型別，這裡按 Y 鍵手動轉換一下，或者直接忽略，沒什麼影響。

五、總結

本篇文章的案例 APP 也是大廠開發的，而我們對其 java 層和 native 層的加密函式分析都不難，沒有複雜難懂的邏輯，也沒有混淆，只有個雞肋的反除錯，直接靜態分析加 frida hook 就搞定了。其實目前市面上大多數 APP 的加密引數都能通過這種方式搞定，當然很難的也不少，學習逆向是個無底洞，但我們做爬蟲的不要怕逆向，我們只是逆向它的那個加密引數而已，先要有信心，多學習多實操多總結，一點點深入，會學有所成。共勉！

再次跨一下這篇文章，非常不錯，繼續接受投稿，稿費還不錯300-500/篇，快來投稿吧。

PS，給自己廣告一下：我繼續在教爬蟲，真正的爬蟲技術。教APP逆向抓取/JS逆向抓取/大規模爬蟲框架設計/利用爬蟲技術做被動收入。

感興趣的加我微信私聊，備註：爬蟲。

最近打算建一個爬蟲技術交流群，感興趣的也可以加我。

爬蟲之-某生鮮APP加密引數逆向分析

我的公眾號：猿人學 Python 上會分享更多心得體會，敬請關注。

***版權申明:若沒有特殊說明，文章皆是猿人學 yuanrenxue.com 原創，沒有猿人學授權，請勿以任何形式轉載。***

Python爬蟲：逆向分析網易雲音樂加密引數
2020-09-14
Python爬蟲加密
APP爬蟲-某APP iOS版逆向過程
2018-06-02
APP爬蟲iOS
巧破某報價大全APP加密引數-iOS逆向抓取
2020-06-09
APP加密iOS
Python逆向爬蟲入門教程: 千千音樂加密引數 sign 逆向解析
2024-03-28
Python爬蟲加密
爬蟲記錄——第三方錢包加密引數逆向
2024-04-09
爬蟲加密
js逆向實戰之某網遊登入引數password加密
2024-10-27
JS加密
js逆向實戰之某樂網登入引數pwd加密
2024-10-26
JS加密
Python爬蟲進階之APP逆向(三)
2019-06-01
Python爬蟲APP
js逆向爬蟲實戰（2）--快手第三方平臺之加密引數
2020-10-24
JS爬蟲加密
Python爬蟲之JS逆向分析技巧
2020-04-17
Python爬蟲JS
python爬蟲之JS逆向某易雲音樂
2022-06-11
Python爬蟲JS
Python逆向爬蟲入門教程: 網易雲音樂加密引數 params & encSecKey 逆向解析
2024-03-27
Python爬蟲加密
js逆向實戰之某證信Accept-Enckey引數加密解析
2024-05-02
JS加密
Python爬蟲：爬取instagram，破解js加密引數
2019-04-09
Python爬蟲JS加密
python爬蟲之JS逆向
2022-06-11
Python爬蟲JS
Protobuf協議逆向解析-APP爬蟲
2018-03-04
協議APP爬蟲
python爬蟲之js逆向（三）
2020-01-06
Python爬蟲JS
python爬蟲之js逆向（二）
2019-11-05
Python爬蟲JS
安卓逆向之破解某成人APP播放次數限制
2023-01-29
安卓APP
爬蟲headers引數
2020-10-25
爬蟲Header
深度分析生鮮配送前景，生鮮配送APP如何運營？
2023-04-13
APP
JavaScript逆向之iwencai請求頭引數加密過程解析
2024-03-15
JavaScriptAI加密
python爬蟲js逆向
2019-09-22
Python爬蟲JS
Python爬蟲進階之JS逆向入門
2019-05-29
Python爬蟲JS
逆向實戰33——某東登入引數與流程分析（包含滑塊）
2024-03-08
爬蟲必看，每日JS逆向之愛奇藝密碼加密，今天你練了嗎？
2020-09-22
爬蟲JS密碼加密
js逆向實戰之某天下登陸引數pwd加密邏輯
2024-10-27
JS加密
收藏的爬蟲逆向工程
2018-10-17
爬蟲
app爬蟲
2024-05-04
APP爬蟲
這個爬蟲JS逆向加密任務，你還不來試試？逆向入門級，適合一定爬蟲基礎的人
2020-08-27
爬蟲JS加密
Python爬蟲進階之JS逆向土地市場網！
2019-08-17
Python爬蟲JS
逆向爬蟲知識學習
2022-03-21
爬蟲
Python爬蟲基礎-01-帶有請求引數的爬蟲
2018-06-06
Python爬蟲
C#爬蟲與反爬蟲--字型加密篇
2019-06-26
C#爬蟲加密
【JS 逆向百例】瀏覽器外掛 Hook 實戰，亞航加密引數分析
2021-10-19
JS瀏覽器Hook加密
APP 中的 JS 加密逆向解析
2018-09-30
APPJS加密
【JS 逆向百例】拉勾網爬蟲，traceparent、__lg_stoken__、X-S-HEADER 等引數分析
2022-03-17
JS爬蟲Header
python爬蟲js逆向學習（二）
2020-07-03
Python爬蟲JS
Python爬蟲—爬取某網站圖片
2020-11-19
Python爬蟲網站

爬蟲之-某生鮮APP加密引數逆向分析

本文是跟我學習爬蟲的小夥伴：彭良懷的投稿，稿費是500。本文寫得非常好，完全可以當著APP逆向抓取的教程來學。從逆向思路的分析，逆向工具的搭配使用，到逆向知識結構的掌握，顯示出了他紮實的爬蟲逆向基礎功底。

一、前言

二、抓包分析

三、Java層分析

1. 查殼

2. 分析關鍵 Java 程式碼

3. 分析 formatQueryParaMap 方法

4. Hook formatQueryParaMap 方法

5. 關於反除錯

四、Native層分析

1. 靜態註冊和動態註冊

2. 找到 k、k2 對應的 native 函式

3. JNI 靜態除錯的一些技巧

(1) 批量還原 JNI 函式名

(2) 強制調出函式引數

(3) 常用快捷鍵

(4) 靜態除錯思路

4. 靜態分析 gk 函式

5. 靜態分析 gk2 函式

6. native 函式的引數

五、總結

相關文章