Python反反爬蟲實戰,JS解密入門案例,詳解呼叫有道翻譯
文章目錄
- 前言
- 分析
- 分析url分析引數01分析引數02加密分析
- 模擬請求
- 注意點請求程式碼執行結果
- 結語
很多人學習python,不知道從何學起。
很多人學習python,掌握了基本語法過後,不知道在哪裡尋找案例上手。
很多已經做案例的人,卻不知道如何去學習更加高深的知識。
那麼針對這三類人,我給大家提供一個好的學習平臺,免費領取視訊教程,電子書籍,以及課程的原始碼!??¤
QQ群:623406465
前言
其實在以前就盯上有道翻譯了的,但是由於時間問題一直沒有研究(我的騷操作還在後面,記得關注),本文主要講解如何用python呼叫有道翻譯,講解這個爬蟲與有道翻譯的js“鬥爭”的過程!
當然,本文僅供交流學習使用,適合自己做一些小東西娛樂,禁止用於商業用途!轉載請註明微信公眾號:bigsai。專案github地址:https://github.com/javasmall/python
分析
對於一個網站,首先肯定要的就是分析,分析其中的網頁規則
分析url
進入有道翻譯你會發現它的url是沒有變化的,也就是說它的請求是通過ajax非同步互動的。點選F12,很容易在XHR中找到這個互動的請求,點選檢視資訊,你會發現一串引數,其中有幾個還是加密了的,啥salt鹽啥的。先有個數。
分析引數01
可以大膽猜測:這個關鍵引數肯定在一塊。我們搜尋salt,然後正常的點選,格式化展開,在js中再次搜尋salt。想找相關salt附近看看能不能找到斷點進行除錯!當然,最終你可以找到11個相關內容可以在每個附近進行斷點除錯。你這樣樂意找到相關位置關鍵加密欄位和函式。
分析引數02
這次,我們們使用瀏覽器呼叫堆疊的功能,檢視js執行的堆疊進行查詢。直接點選到對應模組打斷點即可進行觀察。最終你會找到這個位置generateSaltSign(n)的這個函式,主要加密函式都在裡面執行
加密分析
其實有道翻譯的加密是比較簡單的了,你一看,
- 不知道navigator.appVersion是啥是吧,我列印一看。就是瀏覽器頭進行md5加密的嘛,可以固定不變的,也就是說這個bv(t)引數它可以是固定不變的。
- 這個ts不就是13位當前時間戳嗎!
- 這個salt不就是時間戳後面加上100內的隨機數嗎,隨便取一個就行。
- 這個sign不就是"fanyideskweb" + 翻譯的字串 + salt + "n%A-rKaT5fb[Gy?;N5@Tj"這麼一串串數字然後md5加密的嘛!
通過後面的分析發現這些引數並沒有變化。所以這次生成的是唯一的,但是有一個前提是5000字以內,如果超出5000字他會擷取前5000字,這點需要注意一下。
模擬請求
注意點
既然有了上面的規則,那麼我們們就可以通過這部分的規則和抓包的資訊整合用python模擬完成js的事件,傳送請求。這裡面有幾點需要注意的。
- Fristly,你要搞定python中md5加密模組,時間time模組,能夠做出一些等價的一些轉化。剛好,py的hashlib和time模組 can fullfill 你。這個問題解決。
- In addition,post請求的主體data字典需要進行url編碼才能當成data傳送請求發過去。
- last but not least,解決完加密最重要的就是header,大家一定不要麻批大意。這個content—length,經過我的經驗告訴我它如果填錯了就會報錯,並且不填經過抓包分析系統會自動生成。所以不要計算主體長度的,這個引數一定要省略。不放cookie會報錯,放了cookie經過測試你會發現有些可以該甚至可有可無,有些必須遵從其樣式。而cookie中必須遵從的就是OUTFOX_SEARCH_USER_ID=-1053218418@117.136.67.240即數字+@+ip形式地址。可能是為了檢驗而用,這個可以直接進行模擬。
請求程式碼
返回結果是一串json,直接拿即可!
import requests
import hashlib
import time
import urllib.parse
# 建立md5物件
def nmd5(str):
m = hashlib.md5()
# Tips
# 此處必須encode
# 若寫法為m.update(str) 報錯為: Unicode-objects must be encoded before hashing
# 因為python3裡預設的str是unicode
# 或者 b = bytes(str, encoding='utf-8'),作用相同,都是encode為bytes
b = str.encode(encoding='utf-8')
m.update(b)
str_md5 = m.hexdigest()
return str_md5
def formdata(transtr):
# 待加密資訊
headerstr = '5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'
#print(round(time.time()*1000))
bv=nmd5(headerstr)
ts=str(round(time.time()*1000))
salt=ts+'90'
strexample='fanyideskweb'+transtr+salt+'n%A-rKaT5fb[Gy?;N5@Tj'
sign=nmd5(strexample)
#print(sign)
i=len(transtr)
#print(i)
# print('MD5加密前為 :' + headerstr)
# print('MD5加密後為 :' + bv)
dict={'i':transtr,'from':'AUTO','TO':'AUTO','smartresult': 'dict',
'client':'fanyideskweb',
'salt':salt,
'sign':sign,
'ts':ts,
'bv':bv,
'doctype':'json',
'version':'2.1',
'keyfrom':'fanyi.web',
'action':'FY_BY_REALTlME'
}
return dict
url='http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36',
'Referer':'http://fanyi.youdao.com/',
'Origin': 'http://fanyi.youdao.com',
'Content-Type':'application/x-www-form-urlencoded; charset=UTF-8',
'X-Requested-With':'XMLHttpRequest',
'Accept':'application/json, text/javascript, */*; q=0.01',
'Accept-Encoding':'gzip, deflate',
'Accept-Language':'zh-CN,zh;q=0.9',
'Connection': 'keep-alive',
'Host': 'fanyi.youdao.com',
'cookie':'_ntes_nnid=937f1c788f1e087cf91d616319dc536a,1564395185984; OUTFOX_SEARCH_USER_ID_NCOO=; OUTFOX_SEARCH_USER_ID=-10218418@11.136.67.24; JSESSIONID=; ___rl__test__cookies=1'
}
input=input("請輸入翻譯內容:")
dict=formdata(input)
dict=urllib.parse.urlencode(dict)
dict=str(dict)
#dict=urllib.parse.urlencode(dict).encode('utf-8')
req=requests.post(url,data=dict,headers=header)
val=req.json()
print(val['translateResult'][0][0]['tgt'])
執行結果
結語
就這樣,我們從0開始優雅的揭開有道翻譯的面紗!你可以利用這個做一些有趣的事情(待續------)
相關文章
- 爬蟲—有道翻譯案例分析爬蟲
- 爬蟲-有道翻譯爬蟲
- aardio爬蟲) 實戰篇:逆向有道翻譯web介面爬蟲Web
- python爬蟲呼叫谷歌翻譯介面Python爬蟲谷歌
- Python爬蟲教程-16-破解js加密例項(有道線上翻譯)Python爬蟲JS加密
- 教你用Python爬蟲自制有道翻譯詞典Python爬蟲
- 有道翻譯最新爬蟲程式碼-基於Python3爬蟲Python
- 爬取有道翻譯
- Python 網路爬蟲入門詳解Python爬蟲
- 爬蟲呼叫百度翻譯API爬蟲API
- Python爬蟲實戰詳解:爬取圖片之家Python爬蟲
- Python網路爬蟲實戰(一)快速入門Python爬蟲
- 爬蟲進階:反反爬蟲技巧爬蟲
- python3:爬有道翻譯(命令列版)Python命令列
- python爬蟲簡單實現逆向JS解密Python爬蟲JS解密
- Python爬蟲教程-05-python爬蟲實現百度翻譯Python爬蟲
- 不踩坑的Python爬蟲:Python爬蟲開發與專案實戰,從爬蟲入門 PythonPython爬蟲
- Python爬蟲入門(2):爬蟲基礎瞭解Python爬蟲
- Python爬蟲實戰案例:取喜馬拉雅音訊資料詳解Python爬蟲音訊
- Python爬蟲入門學習實戰專案(一)Python爬蟲
- Python爬蟲教程-06-爬蟲實現百度翻譯(requests)Python爬蟲
- 基礎爬蟲案例實戰爬蟲
- Python爬蟲入門Python爬蟲
- 爬蟲百戰穿山甲(2):百度翻譯爬蟲爬蟲
- Python3網路爬蟲快速入門實戰解析(一小時入門 Python 3 網路爬蟲)Python爬蟲
- Python3網路爬蟲快速入門實戰解析Python爬蟲
- Python爬蟲實戰案例-爬取幣世界標紅快訊Python爬蟲
- Python爬蟲進階之JS逆向入門Python爬蟲JS
- 一篇文章教會你利用Python網路爬蟲獲取有道翻譯手機版的翻譯介面Python爬蟲
- python 爬蟲 簡單實現百度翻譯Python爬蟲
- 《python 爬蟲開發與實戰》html基礎詳解Python爬蟲HTML
- Python 爬蟲實戰Python爬蟲
- 如何入門 Python 爬蟲?Python爬蟲
- python-爬蟲入門Python爬蟲
- 那些年,我爬過的北科(六)——反反爬蟲之js渲染爬蟲JS
- Python爬蟲入門實戰之貓眼電影資料抓取(實戰篇)Python爬蟲
- 【爬蟲】python爬蟲從入門到放棄爬蟲Python
- python專案開發例項-Python專案案例開發從入門到實戰——爬蟲、遊戲Python爬蟲遊戲