【JS 逆向百例】WebSocket 協議爬蟲,智慧樹掃碼登入案例分析

K哥爬蟲發表於2021-12-09
關注微信公眾號:K哥爬蟲,持續分享爬蟲進階、JS/安卓逆向等技術乾貨!

宣告

本文章中所有內容僅供學習交流,抓包內容、敏感網址、資料介面均已做脫敏處理,嚴禁用於商業用途和非法用途,否則由此產生的一切後果均與作者無關,若有侵權,請聯絡我立即刪除!

逆向目標

  • 目標:智慧樹掃碼登入,介面使用了 WebSocket 通訊協議
  • 主頁:aHR0cHM6Ly9wYXNzcG9ydC56aGlodWlzaHUuY29tL2xvZ2luI3FyQ29kZUxvZ2lu

WebSocket 簡介

WebSocket 是一種在單個 TCP 連線上進行全雙工通訊的協議,WebSocket 使得客戶端和伺服器之間的資料交換變得更加簡單。在 WebSocket API 中,瀏覽器和伺服器只需要完成一次握手,兩者之間就直接可以建立永續性的連線,並進行雙向資料傳輸。

WebSocket 協議簡稱為 WS 或者 WSS(WebSocket Secure),其傳送請求的 URL 以 ws:// 或者 wss:// 開頭,WSS 是 WS 的加密版本,類似於 HTTP 與 HTTPS。

WebSocket 協議的最大特點就是:伺服器可以主動向客戶端推送資訊,客戶端也可以主動向伺服器傳送資訊,是真正的雙向平等對話,屬於伺服器推送技術的一種。與 HTTP 的對比如下圖所示:

01.png

抓包分析

來到智慧樹的掃碼登入頁面,抓包選中 WS,用來篩選 WebSocket 請求,如下圖所示:

02.png

其中有一些比較特別的引數,是 HTTP/ HTTPS 請求中沒有的:

  • Upgrade: websocket:表明這是 WebSocket 型別請求;
  • Sec-WebSocket-Version:告訴伺服器所使用的 Websocket Draft(協議版本),必須是 13;
  • Sec-WebSocket-Extensions:協議擴充套件,某類協議可能支援多個擴充套件,通過它可以實現協議增強;
  • Sec-WebSocket-Key:是 WebSocket 客戶端傳送的一個 base64 編碼的密文,是瀏覽器隨機生成的,要求服務端必須返回一個對應加密的 Sec-WebSocket-Accept 應答,否則客戶端會丟擲 Error during WebSocket handshake 錯誤,並關閉連線。

我們先掃碼登入一遍,再選擇 Messages 選項卡,可以看到有一些資料互動,其中綠色的箭頭是客戶端傳送給伺服器的資料,紅色箭頭是伺服器響應返回給客戶端的資料,如下圖所示:

03.png

我們觀察一下整個互動過程,當我們開啟二維碼頁面後,也就是二維碼載入出來的同時,WebSocket 連線就建立了,每隔8秒左右,客戶端就主動傳送一串字串,服務端也返回相同的字串,只不過是字典格式,當我們掃碼成功時,服務端就返回掃碼成功的資訊,當我們點選登陸時,客戶端又會返回掃碼結果,如果成功,就有一個一次性密碼 oncePassword 和一個 uuid,這兩個引數肯定在後續的請求中會用到的。如果長時間不掃碼的話,過段時間就會返回二維碼已失效的資訊,每隔8秒傳送一次訊息,正是為了保持連線以及獲取二維碼狀態訊息。

那麼到這裡就出現了兩個問題:

  1. 在來回互動傳送的那串字串,是怎麼得來的?
  2. 在 Python 中應該如何實現 WebSocket 請求?
  3. 如何實現客戶端每隔 8 秒傳送一次資料的同時,實時接收服務端的資訊?(觀察請求掃碼結果實時返回的,所以不能每隔 8 秒才接收一次)

引數獲取

首先解決第一個問題,客戶端傳送的那串字串是怎麼來的,這裡尋找加密字串的方式和 HTTP/HTTPS 請求是一樣的,在本例中,我們可以直接搜尋這個字串,發現是通過一個介面傳過來的,其中 img 就是二維碼圖片的 base64 值,qrToken 就是客戶端傳送的那串字串,如下圖所示:

04.png

這裡需要注意的是,並不是所有的 WebSocket 請求都是如此的簡單的,有的客戶端傳送的資料是 Binary Message(二進位制資料)、或者更復雜的加密引數,直接搜尋無法獲取,針對這種情況,我們也有解決方法:

  1. 已知建立 WebSocket 物件的語句為:var Socket = new WebSocket(url, [protocol] );,所以我們可以搜尋 new WebSocket 定位到建立請求的位置。
  2. 已知一個 WebSocket 物件有以下相關事件,我們可以搜尋對應事件處理程式程式碼來定位:
事件事件處理程式描述
openSocket.onopen連線建立時觸發
messageSocket.onmessage客戶端接收服務端資料時觸發
errorSocket.onerror通訊發生錯誤時觸發
closeSocket.onclose連線關閉時觸發
  1. 已知一個 WebSocket 物件有以下相關方法,我們可以搜尋對應方法來定位:
方法描述
Socket.send()使用連線傳送資料
Socket.close()關閉連線

Python 實現 WebSocket 請求

接著前面說,第二個問題,在 Python 中應該如何實現 WebSocket 請求?Python 庫中用於連線 WebSocket 的有很多,比較常用、穩定的有 websocket-client(非非同步)、websockets(非同步)、aiowebsocket(非同步)。在本案例中使用 websocket-client,這裡還要注意第三個問題,對於客戶端來說,要每隔 8 秒傳送一次資料,對於服務端,我們需要實時接收服務端的資訊,可以觀察請求,掃碼的結果是實時返回的,如果我們也每隔 8 秒才接收一次資料的話,有可能會丟失資料,而且也會使得整個程式的響應也不及時,效率變低。

在 websocket-client 官方文件中給我們提供了一個長連線的 demo,它實現了連續傳送三次資料,並實時監聽服務端返回的資料,其中的 websocket.enableTrace(True) 表示是否顯示連線詳細資訊:

import websocket
import _thread
import time


def on_message(ws, message):
    print(message)


def on_error(ws, error):
    print(error)


def on_close(ws, close_status_code, close_msg):
    print("### closed ###")


def on_open(ws):
    def run(*args):
        for i in range(3):
            time.sleep(1)
            ws.send("Hello %d" % i)
        time.sleep(1)
        ws.close()
        print("thread terminating...")
    _thread.start_new_thread(run, ())


if __name__ == "__main__":
    websocket.enableTrace(True)
    ws = websocket.WebSocketApp(
        "ws://echo.websocket.org/", on_open=on_open,
        on_message=on_message, on_error=on_error, on_close=on_close
    )

    ws.run_forever()

我們將其適當改造一下,客戶端在 run 方法裡,依然是每隔 8 秒傳送一次 qr_token,實時接收服務端的訊息,當“掃碼成功”字樣出現在訊息裡時,將得到的 oncePassworduuid 存起來,然後關閉連線,邏輯程式碼如下所示,後續只要將二維碼的獲取邏輯接入就行了。(已脫敏處理,不能直接執行)

import json
import time
import _thread
import websocket


web_socket_url = "wss://appcomm-user.脫敏處理.com/app-commserv-user/websocket?qrToken=%s"
qr_token = "ca6e6cfb70de4f2f915b968aefcad404"
once_password = ""
uuid = ""


def wss_on_message(ws, message):
    print("=============== [message] ===============")
    message = json.loads(message)
    print(message)
    if "掃碼成功" in message["msg"]:
        global once_password, uuid
        once_password = message["oncePassword"]
        uuid = message["uuid"]
        ws.close()


def wss_on_error(ws, error):
    print("=============== [error] ===============")
    print(error)
    ws.close()


def wss_on_close(ws, close_status_code, close_msg):
    print("=============== [closed] ===============")
    print(close_status_code)
    print(close_msg)


def wss_on_open(ws):
    def run(*args):
        while True:
            ws.send(qr_token)
            time.sleep(8)
    _thread.start_new_thread(run, (qr_token,))


def wss():
    # websocket.enableTrace(True)  # 是否顯示連線詳細資訊
    ws = websocket.WebSocketApp(
        web_socket_url % qr_token, on_open=wss_on_open,
        on_message=wss_on_message, on_error=wss_on_error,
        on_close=wss_on_close
    )
    ws.run_forever()

實現掃碼登入

最重要的 WebSocket 請求部分已經解決了,掃碼拿到 oncePassworduuid 後,後續的處理步驟就比較簡單了,現在來理一下完整的步驟:

  1. 請求首頁,第一次獲取 cookie,包含:INGRESSCOOKIE、JSESSIONID、SERVERID、acw_tc;
  2. 請求獲取二維碼介面,得到二維碼的 base64 值和 qrToken;
  3. 建立 WebSocket 連線,掃描二維碼,獲取一次性密碼 oncePassword 和 uuid(好像沒什麼用);
  4. 請求一個登入介面,302 重定向,需要攜帶一次性密碼,第二次獲取 cookie,包含:CASLOGC、CASTGC,同時更新 SERVERID;
  5. 請求第 4 步 302 重定向地址,第三次獲取 cookie,包含:SESSION;
  6. 攜帶完整 cookie,請求使用者資訊介面,獲取真實使用者名稱等資訊。

實際上 WebSocket 連線結束後,有很多請求,看起來都比較可以,但是經過 K 哥測試,只有兩個重定向比較有用,抓包如下:

05.png

完整程式碼

GitHub 關注 K 哥爬蟲,持續分享爬蟲相關程式碼!歡迎 star !https://github.com/kgepachong/

以下只演示部分關鍵程式碼,不能直接執行! 完整程式碼倉庫地址:https://github.com/kgepachong...

Python 登入程式碼

import time
import json
import base64
import _thread
import requests
import websocket
from PIL import Image


web_socket_url = "脫敏處理,完整程式碼關注 GitHub:https://github.com/kgepachong/crawler"
get_login_qr_img_url = "脫敏處理,完整程式碼關注 GitHub:https://github.com/kgepachong/crawler"
login_url = "脫敏處理,完整程式碼關注 GitHub:https://github.com/kgepachong/crawler"
user_info_url = "脫敏處理,完整程式碼關注 GitHub:https://github.com/kgepachong/crawler"

headers = {
    "Host": "脫敏處理,完整程式碼關注 GitHub:https://github.com/kgepachong/crawler",
    "Pragma": "no-cache",
    "Referer": "脫敏處理,完整程式碼關注 GitHub:https://github.com/kgepachong/crawler",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36"
}

qr_token = ""
once_password = ""
uuid = ""
cookie = {}


def get_cookies_first():
    response = requests.get(url=login_url, headers=headers)
    global cookie
    cookie = response.cookies.get_dict()


def get_login_qr_img():
    response = requests.get(url=get_login_qr_img_url, headers=headers, cookies=cookie).json()
    qr_img = response["img"]
    global qr_token
    qr_token = response["qrToken"]
    with open('code.png', 'wb') as f:
        f.write(base64.b64decode(qr_img))
    image = Image.open('code.png')
    image.show()
    print("請掃描驗證碼! ")


def wss_on_message(ws, message):
    print("=============== [message] ===============")
    message = json.loads(message)
    print(message)
    if "掃碼成功" in message["msg"]:
        global once_password, uuid
        once_password = message["oncePassword"]
        uuid = message["uuid"]
        ws.close()


def wss_on_error(ws, error):
    print("=============== [error] ===============")
    print(error)
    ws.close()


def wss_on_close(ws, close_status_code, close_msg):
    print("=============== [closed] ===============")
    print(close_status_code)
    print(close_msg)


def wss_on_open(ws):
    def run(*args):
        while True:
            ws.send(qr_token)
            time.sleep(8)
    _thread.start_new_thread(run, (qr_token,))


def wss():
    # websocket.enableTrace(True)  # 是否顯示連線詳細資訊
    ws = websocket.WebSocketApp(
        web_socket_url % qr_token, on_open=wss_on_open,
        on_message=wss_on_message, on_error=wss_on_error,
        on_close=wss_on_close
    )
    ws.run_forever()


def get_cookie_second():
    global cookie
    params = {
        "pwd": once_password,
        "service": "脫敏處理,完整程式碼關注 GitHub:https://github.com/kgepachong/crawler"
    }
    headers["Host"] = "脫敏處理,完整程式碼關注 GitHub:https://github.com/kgepachong/crawler"
    headers["Referer"] = "脫敏處理,完整程式碼關注 GitHub:https://github.com/kgepachong/crawler"
    response = requests.get(url=login_url, params=params, headers=headers, cookies=cookie, allow_redirects=False)
    cookie.update(response.cookies.get_dict())
    location = response.headers.get("Location")
    return location


def get_cookie_third(location):
    global cookie
    headers["Host"] = "脫敏處理,完整程式碼關注 GitHub:https://github.com/kgepachong/crawler"
    headers["Referer"] = "脫敏處理,完整程式碼關注 GitHub:https://github.com/kgepachong/crawler"
    response = requests.get(url=location, headers=headers, cookies=cookie, allow_redirects=False)
    cookie.update(response.cookies.get_dict())
    location = response.headers.get("Location")
    return location


def get_login_user_info():
    headers["Host"] = "脫敏處理,完整程式碼關注 GitHub:https://github.com/kgepachong/crawler"
    headers["Origin"] = "脫敏處理,完整程式碼關注 GitHub:https://github.com/kgepachong/crawler"
    headers["Referer"] = "脫敏處理,完整程式碼關注 GitHub:https://github.com/kgepachong/crawler"
    params = {"time": str(int(time.time() * 1000))}
    response = requests.get(url=user_info_url, headers=headers, cookies=cookie, params=params)
    print(response.text)


def main():
    # 第一次獲取 cookie,包含 INGRESSCOOKIE、JSESSIONID、SERVERID、acw_tc
    get_cookies_first()
    # 獲取二維碼
    get_login_qr_img()
    # websocket 掃碼登入,返回一次性密碼
    wss()
    # 第二次獲取 cookie,更新 SERVERID、獲取 CASLOGC、CASTGC
    location1 = get_cookie_second()
    # 第三次獲取 cookie,獲取 SESSION
    get_cookie_third(location1)
    # 獲取登入使用者資訊
    get_login_user_info()


if __name__ == '__main__':
    main()

相關文章