【JS 逆向百例】cnki 學術翻譯 AES 加密分析

K哥爬蟲發表於2021-11-18
關注微信公眾號:K哥爬蟲,QQ交流群:808574309,持續分享爬蟲進階、JS/安卓逆向等技術乾貨!

宣告

本文章中所有內容僅供學習交流,抓包內容、敏感網址、資料介面均已做脫敏處理,嚴禁用於商業用途和非法用途,否則由此產生的一切後果均與作者無關,若有侵權,請聯絡我立即刪除!

逆向目標

  • 目標:cnki 學術翻譯 AES 加密
  • 主頁:aHR0cHM6Ly9kaWN0LmNua2kubmV0L2luZGV4
  • 介面:aHR0cHM6Ly9kaWN0LmNua2kubmV0L2Z5enMtZnJvbnQtYXBpL3RyYW5zbGF0ZS9saXRlcmFsdHJhbnNsYXRpb24=
  • 逆向引數:Request Payload:words: "kufhG_UJw_k3Sfr3j0BLAA=="

逆向過程

本期逆向素材來源於K哥爬蟲交流群裡某位群友的求助,目標是 cnki 學術翻譯,粉絲想實現兩個功能:1、突破英文1000個字元的限制;2、逆向加密過程。

01.png

來到翻譯首頁,抓包定位到翻譯介面,可以看到 Request Payload 裡,待翻譯文字會被加密處理,如下圖所示:

02.png

這裡如果直接搜尋關鍵字 words,會發現結果非常多,不太好找,注意到 Payload 引數裡還有個 translateType,那麼就可以直接搜尋 translateType,因為這兩個引數一般都是挨著的,當然也可以使用 XHR 斷點的方式來找,只不過麻煩一些,搜尋結果都在 app.9fb42bb0.js 裡,注意到最後一個結果裡有 encrypto,加密的意思,基本上就是加密的地方了:

03.png

控制檯列印一下 (0, h.encrypto)(this.inputWord),正是加密結果:

04.png

繼續跟進一下 h.encrypto,很明顯的 AES 加密,n = "4e87183cfd3a45fe",n 就是 key,模式 ECB,填充 Pkcs7,最後做了一些字串的替換處理,如下圖所示:

05.png

知道了加密演算法,key 等關鍵引數,那麼直接引用 crypto-js 模組來實現就 OK 了,JavaScript 程式碼如下:

// 引用 crypto-js 加密模組
var CryptoJS = require('crypto-js')

function s(t) {
    var n = "4e87183cfd3a45fe"
    var e = {
        mode: CryptoJS.mode.ECB,
        padding: CryptoJS.pad.Pkcs7
    }
      , i = CryptoJS.enc.Utf8.parse(n)
      , s = CryptoJS.AES.encrypt(t, i, e)
      , r = s.toString().replace(/\//g, "_");
    return r = r.replace(/\+/g, "-"),
    r
}

console.log(s("測試"))

// kufhG_UJw_k3Sfr3j0BLAA==

使用 Python 翻譯的一個小 demo:

# ==================================
# --*-- coding: utf-8 --*--
# @Time    : 2021-11-05
# @Author  : 微信公眾號:K哥爬蟲
# @FileName: cnki.py
# @Software: PyCharm
# ==================================


import execjs
import requests


token_url = "https://dict.cnki.net/fyzs-front-api/getToken"
translation_api = "https://dict.cnki.net/fyzs-front-api/translate/literaltranslation"
UA = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36"

session = requests.session()


def get_token():
    headers = {"User-Agent": UA}
    response = session.get(url=token_url, headers=headers).json()
    token = response["data"]
    return token


def get_encrypted_word(word):
    with open('cnki_encrypt.js', 'r', encoding='utf-8') as f:
        cnki_js = f.read()
    encrypted_word = execjs.compile(cnki_js).call('s', word)
    return encrypted_word


def get_translation_result(encrypted_word, token):
    payload = {
        "translateType": None,
        "words": encrypted_word
    }
    headers = {
        "Token": token,
        "User-Agent": UA
    }
    response = session.post(url=translation_api, headers=headers, json=payload).json()
    result = response["data"]["mResult"]
    return result


def main():
    word = input("請輸入待翻譯字串: ")
    token = get_token()
    encrypted_word = get_encrypted_word(word)
    result = get_translation_result(encrypted_word, token)
    print("翻譯結果為: ", result)


if __name__ == "__main__":
    main()

粉絲還有一個問題就是字元數限制問題,看能不能突破,實測英文限制1000字元,中文限制500字元,如下圖所示:

06.png

這種限制其實大概率不僅僅是前端的限制,服務端應該也是有限制的,我們可以攜帶超過500字元的中文去請求一下,前面的字元是“測試1”,最後三個字元是“測試2”,此時已超過了500個字元,我們看到翻譯結果裡並沒有出現 Test 2,所以想要翻譯很多字串,只能將其分割成幾份來處理了。

07.png

相關文章