關注微信公眾號:K哥爬蟲,持續分享爬蟲進階、JS/安卓逆向等技術乾貨!
宣告
本文章中所有內容僅供學習交流,抓包內容、敏感網址、資料介面均已做脫敏處理,嚴禁用於商業用途和非法用途,否則由此產生的一切後果均與作者無關,若有侵權,請聯絡我立即刪除!
逆向目標
- 目標:智慧樹掃碼登入,介面使用了 WebSocket 通訊協議
- 主頁:
aHR0cHM6Ly9wYXNzcG9ydC56aGlodWlzaHUuY29tL2xvZ2luI3FyQ29kZUxvZ2lu
WebSocket 簡介
WebSocket 是一種在單個 TCP 連線上進行全雙工通訊的協議,WebSocket 使得客戶端和伺服器之間的資料交換變得更加簡單。在 WebSocket API 中,瀏覽器和伺服器只需要完成一次握手,兩者之間就直接可以建立永續性的連線,並進行雙向資料傳輸。
WebSocket 協議簡稱為 WS 或者 WSS(WebSocket Secure),其傳送請求的 URL 以 ws://
或者 wss://
開頭,WSS 是 WS 的加密版本,類似於 HTTP 與 HTTPS。
WebSocket 協議的最大特點就是:伺服器可以主動向客戶端推送資訊,客戶端也可以主動向伺服器傳送資訊,是真正的雙向平等對話,屬於伺服器推送技術的一種。與 HTTP 的對比如下圖所示:
抓包分析
來到智慧樹的掃碼登入頁面,抓包選中 WS,用來篩選 WebSocket 請求,如下圖所示:
其中有一些比較特別的引數,是 HTTP/ HTTPS 請求中沒有的:
Upgrade: websocket
:表明這是 WebSocket 型別請求;Sec-WebSocket-Version
:告訴伺服器所使用的 Websocket Draft(協議版本),必須是 13;Sec-WebSocket-Extensions
:協議擴充套件,某類協議可能支援多個擴充套件,通過它可以實現協議增強;Sec-WebSocket-Key
:是 WebSocket 客戶端傳送的一個 base64 編碼的密文,是瀏覽器隨機生成的,要求服務端必須返回一個對應加密的Sec-WebSocket-Accept
應答,否則客戶端會丟擲Error during WebSocket handshake
錯誤,並關閉連線。
我們先掃碼登入一遍,再選擇 Messages 選項卡,可以看到有一些資料互動,其中綠色的箭頭是客戶端傳送給伺服器的資料,紅色箭頭是伺服器響應返回給客戶端的資料,如下圖所示:
我們觀察一下整個互動過程,當我們開啟二維碼頁面後,也就是二維碼載入出來的同時,WebSocket 連線就建立了,每隔8秒左右,客戶端就主動傳送一串字串,服務端也返回相同的字串,只不過是字典格式,當我們掃碼成功時,服務端就返回掃碼成功的資訊,當我們點選登陸時,客戶端又會返回掃碼結果,如果成功,就有一個一次性密碼 oncePassword
和一個 uuid
,這兩個引數肯定在後續的請求中會用到的。如果長時間不掃碼的話,過段時間就會返回二維碼已失效的資訊,每隔8秒傳送一次訊息,正是為了保持連線以及獲取二維碼狀態訊息。
那麼到這裡就出現了兩個問題:
- 在來回互動傳送的那串字串,是怎麼得來的?
- 在 Python 中應該如何實現 WebSocket 請求?
- 如何實現客戶端每隔 8 秒傳送一次資料的同時,實時接收服務端的資訊?(觀察請求掃碼結果實時返回的,所以不能每隔 8 秒才接收一次)
引數獲取
首先解決第一個問題,客戶端傳送的那串字串是怎麼來的,這裡尋找加密字串的方式和 HTTP/HTTPS 請求是一樣的,在本例中,我們可以直接搜尋這個字串,發現是通過一個介面傳過來的,其中 img 就是二維碼圖片的 base64 值,qrToken 就是客戶端傳送的那串字串,如下圖所示:
這裡需要注意的是,並不是所有的 WebSocket 請求都是如此的簡單的,有的客戶端傳送的資料是 Binary Message(二進位制資料)、或者更復雜的加密引數,直接搜尋無法獲取,針對這種情況,我們也有解決方法:
- 已知建立 WebSocket 物件的語句為:
var Socket = new WebSocket(url, [protocol] );
,所以我們可以搜尋new WebSocket
定位到建立請求的位置。 - 已知一個 WebSocket 物件有以下相關事件,我們可以搜尋對應事件處理程式程式碼來定位:
事件 | 事件處理程式 | 描述 |
---|---|---|
open | Socket.onopen | 連線建立時觸發 |
message | Socket.onmessage | 客戶端接收服務端資料時觸發 |
error | Socket.onerror | 通訊發生錯誤時觸發 |
close | Socket.onclose | 連線關閉時觸發 |
- 已知一個 WebSocket 物件有以下相關方法,我們可以搜尋對應方法來定位:
方法 | 描述 |
---|---|
Socket.send() | 使用連線傳送資料 |
Socket.close() | 關閉連線 |
Python 實現 WebSocket 請求
接著前面說,第二個問題,在 Python 中應該如何實現 WebSocket 請求?Python 庫中用於連線 WebSocket 的有很多,比較常用、穩定的有 websocket-client(非非同步)、websockets(非同步)、aiowebsocket(非同步)。在本案例中使用 websocket-client,這裡還要注意第三個問題,對於客戶端來說,要每隔 8 秒傳送一次資料,對於服務端,我們需要實時接收服務端的資訊,可以觀察請求,掃碼的結果是實時返回的,如果我們也每隔 8 秒才接收一次資料的話,有可能會丟失資料,而且也會使得整個程式的響應也不及時,效率變低。
在 websocket-client 官方文件中給我們提供了一個長連線的 demo,它實現了連續傳送三次資料,並實時監聽服務端返回的資料,其中的 websocket.enableTrace(True)
表示是否顯示連線詳細資訊:
import websocket
import _thread
import time
def on_message(ws, message):
print(message)
def on_error(ws, error):
print(error)
def on_close(ws, close_status_code, close_msg):
print("### closed ###")
def on_open(ws):
def run(*args):
for i in range(3):
time.sleep(1)
ws.send("Hello %d" % i)
time.sleep(1)
ws.close()
print("thread terminating...")
_thread.start_new_thread(run, ())
if __name__ == "__main__":
websocket.enableTrace(True)
ws = websocket.WebSocketApp(
"ws://echo.websocket.org/", on_open=on_open,
on_message=on_message, on_error=on_error, on_close=on_close
)
ws.run_forever()
我們將其適當改造一下,客戶端在 run 方法裡,依然是每隔 8 秒傳送一次 qr_token,實時接收服務端的訊息,當“掃碼成功”字樣出現在訊息裡時,將得到的 oncePassword
和 uuid
存起來,然後關閉連線,邏輯程式碼如下所示,後續只要將二維碼的獲取邏輯接入就行了。(已脫敏處理,不能直接執行)
import json
import time
import _thread
import websocket
web_socket_url = "wss://appcomm-user.脫敏處理.com/app-commserv-user/websocket?qrToken=%s"
qr_token = "ca6e6cfb70de4f2f915b968aefcad404"
once_password = ""
uuid = ""
def wss_on_message(ws, message):
print("=============== [message] ===============")
message = json.loads(message)
print(message)
if "掃碼成功" in message["msg"]:
global once_password, uuid
once_password = message["oncePassword"]
uuid = message["uuid"]
ws.close()
def wss_on_error(ws, error):
print("=============== [error] ===============")
print(error)
ws.close()
def wss_on_close(ws, close_status_code, close_msg):
print("=============== [closed] ===============")
print(close_status_code)
print(close_msg)
def wss_on_open(ws):
def run(*args):
while True:
ws.send(qr_token)
time.sleep(8)
_thread.start_new_thread(run, (qr_token,))
def wss():
# websocket.enableTrace(True) # 是否顯示連線詳細資訊
ws = websocket.WebSocketApp(
web_socket_url % qr_token, on_open=wss_on_open,
on_message=wss_on_message, on_error=wss_on_error,
on_close=wss_on_close
)
ws.run_forever()
實現掃碼登入
最重要的 WebSocket 請求部分已經解決了,掃碼拿到 oncePassword
和 uuid
後,後續的處理步驟就比較簡單了,現在來理一下完整的步驟:
- 請求首頁,第一次獲取 cookie,包含:INGRESSCOOKIE、JSESSIONID、SERVERID、acw_tc;
- 請求獲取二維碼介面,得到二維碼的 base64 值和 qrToken;
- 建立 WebSocket 連線,掃描二維碼,獲取一次性密碼 oncePassword 和 uuid(好像沒什麼用);
- 請求一個登入介面,302 重定向,需要攜帶一次性密碼,第二次獲取 cookie,包含:CASLOGC、CASTGC,同時更新 SERVERID;
- 請求第 4 步 302 重定向地址,第三次獲取 cookie,包含:SESSION;
- 攜帶完整 cookie,請求使用者資訊介面,獲取真實使用者名稱等資訊。
實際上 WebSocket 連線結束後,有很多請求,看起來都比較可以,但是經過 K 哥測試,只有兩個重定向比較有用,抓包如下:
完整程式碼
GitHub 關注 K 哥爬蟲,持續分享爬蟲相關程式碼!歡迎 star !https://github.com/kgepachong/
以下只演示部分關鍵程式碼,不能直接執行! 完整程式碼倉庫地址:https://github.com/kgepachong...
Python 登入程式碼
import time
import json
import base64
import _thread
import requests
import websocket
from PIL import Image
web_socket_url = "脫敏處理,完整程式碼關注 GitHub:https://github.com/kgepachong/crawler"
get_login_qr_img_url = "脫敏處理,完整程式碼關注 GitHub:https://github.com/kgepachong/crawler"
login_url = "脫敏處理,完整程式碼關注 GitHub:https://github.com/kgepachong/crawler"
user_info_url = "脫敏處理,完整程式碼關注 GitHub:https://github.com/kgepachong/crawler"
headers = {
"Host": "脫敏處理,完整程式碼關注 GitHub:https://github.com/kgepachong/crawler",
"Pragma": "no-cache",
"Referer": "脫敏處理,完整程式碼關注 GitHub:https://github.com/kgepachong/crawler",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36"
}
qr_token = ""
once_password = ""
uuid = ""
cookie = {}
def get_cookies_first():
response = requests.get(url=login_url, headers=headers)
global cookie
cookie = response.cookies.get_dict()
def get_login_qr_img():
response = requests.get(url=get_login_qr_img_url, headers=headers, cookies=cookie).json()
qr_img = response["img"]
global qr_token
qr_token = response["qrToken"]
with open('code.png', 'wb') as f:
f.write(base64.b64decode(qr_img))
image = Image.open('code.png')
image.show()
print("請掃描驗證碼! ")
def wss_on_message(ws, message):
print("=============== [message] ===============")
message = json.loads(message)
print(message)
if "掃碼成功" in message["msg"]:
global once_password, uuid
once_password = message["oncePassword"]
uuid = message["uuid"]
ws.close()
def wss_on_error(ws, error):
print("=============== [error] ===============")
print(error)
ws.close()
def wss_on_close(ws, close_status_code, close_msg):
print("=============== [closed] ===============")
print(close_status_code)
print(close_msg)
def wss_on_open(ws):
def run(*args):
while True:
ws.send(qr_token)
time.sleep(8)
_thread.start_new_thread(run, (qr_token,))
def wss():
# websocket.enableTrace(True) # 是否顯示連線詳細資訊
ws = websocket.WebSocketApp(
web_socket_url % qr_token, on_open=wss_on_open,
on_message=wss_on_message, on_error=wss_on_error,
on_close=wss_on_close
)
ws.run_forever()
def get_cookie_second():
global cookie
params = {
"pwd": once_password,
"service": "脫敏處理,完整程式碼關注 GitHub:https://github.com/kgepachong/crawler"
}
headers["Host"] = "脫敏處理,完整程式碼關注 GitHub:https://github.com/kgepachong/crawler"
headers["Referer"] = "脫敏處理,完整程式碼關注 GitHub:https://github.com/kgepachong/crawler"
response = requests.get(url=login_url, params=params, headers=headers, cookies=cookie, allow_redirects=False)
cookie.update(response.cookies.get_dict())
location = response.headers.get("Location")
return location
def get_cookie_third(location):
global cookie
headers["Host"] = "脫敏處理,完整程式碼關注 GitHub:https://github.com/kgepachong/crawler"
headers["Referer"] = "脫敏處理,完整程式碼關注 GitHub:https://github.com/kgepachong/crawler"
response = requests.get(url=location, headers=headers, cookies=cookie, allow_redirects=False)
cookie.update(response.cookies.get_dict())
location = response.headers.get("Location")
return location
def get_login_user_info():
headers["Host"] = "脫敏處理,完整程式碼關注 GitHub:https://github.com/kgepachong/crawler"
headers["Origin"] = "脫敏處理,完整程式碼關注 GitHub:https://github.com/kgepachong/crawler"
headers["Referer"] = "脫敏處理,完整程式碼關注 GitHub:https://github.com/kgepachong/crawler"
params = {"time": str(int(time.time() * 1000))}
response = requests.get(url=user_info_url, headers=headers, cookies=cookie, params=params)
print(response.text)
def main():
# 第一次獲取 cookie,包含 INGRESSCOOKIE、JSESSIONID、SERVERID、acw_tc
get_cookies_first()
# 獲取二維碼
get_login_qr_img()
# websocket 掃碼登入,返回一次性密碼
wss()
# 第二次獲取 cookie,更新 SERVERID、獲取 CASLOGC、CASTGC
location1 = get_cookie_second()
# 第三次獲取 cookie,獲取 SESSION
get_cookie_third(location1)
# 獲取登入使用者資訊
get_login_user_info()
if __name__ == '__main__':
main()