python爬蟲之快速對js內容進行破解
今天介紹下資料被js加密後的破解方法。距離上次發文已經過去半個多月了,我寫文章的主要目的是把從其它地方學到的東西做個記錄順便分享給大家,我承認自己是個懶豬。不知道小夥伴們有沒有遇到同樣的情況,公眾號,部落格關注了一堆,但是真正看並去學習的少之又少,希望我們們互相監督,多多交流學習哈。哎,閒話少敘,下面進入正題。
上篇文章介紹到一般js破解有兩種方法,一種是用Python重寫js邏輯,一種是利用第三方庫來呼叫js內容獲取結果。這兩種方法各有利弊,第一種方法效能好,但對js和Python要求掌握比較高;第二種方法快捷便利,對一些複雜js加密很有效。這次我們就用第三方庫來進行js破解。
目標網站
本次網站是[企名片],網站對展示的資料進行了加密,所以直接找根本找不到。
目標url:https://www.qimingpian.com/finosda/project/pinvestment
js分析除錯工具
對js進行分析除錯的瀏覽器一定要用谷歌瀏覽器,用這個來除錯測試真的很方便。首先我們按F12開啟開發者工具,選到network選項並勾選preserve log 選項,然後輸入網址url來抓包。此時你會發現網頁原始碼裡沒有展示內容,在搜尋也找不到我們看到的內容,那說明網頁內容是被加密處理了。
此時你可以一個個看每個包找找有什麼可疑的內容,當然我們一般會先看xhr裡的內容,一眼我們就發現裡面都有encrypt_data這個資料,看著很像。
我們ctrl加shift加f鍵搜尋encrypt_data,找到第一個js裡的encrypt_data內容,然後翻到下面return e.encrypt_data這一行來,打上斷點看看這會是什麼內容。(一般我們搜尋到return我們搜尋的內容都要打上斷點來看看,八九不離十的)
打好斷點後我們重新整理頁面來觀察,選中e.encrypt_data右鍵有個什麼什麼in console的,點這個會在下面出現我們選中的內容是什麼。然後把後面的Object(d.a)(e.encrypt_data)用同樣的方法來試下,發現沒有網頁的內容啊。這裡一定要注意我們打的斷點,在按一次,重複上面的步驟會發現,Object(d.a)(e.encrypt_data)這不就是我們要的內容嗎!e.encrypt_data這個就是我們xhr裡面的那個encrypt_data,Object(d.a)是一個函式,就是這個函式對內容進行了加密,我們只要破解這個函式就OK了。
選中Object(d.a)上面會出現它在哪裡,點選下跳轉過去。可以發現函式返回了一個json物件。這個返回結果包括1個s函式,引數裡只有a.a.decode(t)這一個變數,其餘都是常量。
所有我們用同樣的方法找到s函式的具體內容和a.a.decode()這個函式的具體內容。方法就是我們在return JSON.parse這裡重新打斷點,點選斷點的那個下一步,然後找上述函式的內容。
s函式
a.a.decode()
利用webstorm編輯器來執行上述函式進行除錯
1 首先我們安裝Nodejs,去官網下載安裝,這是js環境。這個自己搜尋個安裝教程吧,這裡不過多介紹了。
2 WebStorm 安裝後啟用,教程網上很多,大家自行搜尋。它使用方式與 PyCharm 很類似。
我們把上述所需要的函式全部扣下來放到webstorm中,然後執行。注意有的函式裡面會有沒有定義的引數,遇到這些我們幾句在谷歌瀏覽器裡一個個找就可以了,一般會有很多常量,直接替換掉。
然後我們呼叫上述方法可以看到能夠正常獲取資料了,這裡js裡的部分方法我重新命名了,注意下,下面是部分程式碼片段。
最後用 Python 去呼叫解密函式就行了,這裡出於對網站保護就不直接貼完整程式碼了,想要的可以後臺私我。
參考:https://mp.weixin.qq.com/s/uoAnLYNrTsNn_YowWyXfyg。
這就是今天分享的所有內容,希望有所收穫。
感興趣可以關注下公眾號python爬蟲筆記。
歡迎大家交流分享歐!