JB的Python之旅-爬取phizhub網站

jb發表於2019-02-21

原文網址 : https://juejin.im/post/5c6e61756fb9a049c043a055

Python網站

前言

先說明，本文是水文，跟Python也沒關係的，寫著Python，是因為jb用py寫爬蟲比較多；

本文只是簡單介紹個網站如何爬蟲的思路，文章很短，1分鐘看完，沒啥特別的，完~

講故事啦

為什麼要說這事，是因為今早在某群看到有同學問，訪問介面沒有資料，是啥問題；

第一反應就是，請求引數不對，但接著該同學說，引數都一樣的，還是沒資料；

剛好看到了，就試試吧，開啟首頁，是個表情包的網站，夠騷的~

常規操作，Chrome F12-network，選擇XHR，現在一般網站都是ajax載入圖片的，所以直接選擇xhr了，重新整理網頁，這不就有資料了嗎？

逐個點選看返回的內容，不難找到圖片地址；

這樣，介面地址也出來了：

http://www.phizhub.com/phiz/get_phiz_list/?category=-1&page=1&last_time=0&page_size=40
複製程式碼

後面的引數，不糾結，把這個地址放到Chrome上訪問，發現居然是沒資料：

行吧，可能是因為請求時需要特定的引數，用postman模擬一波，按照上面看到的引數搞一波，發現還是沒有資料：

一開始以為引數不對或者有遺漏，檢查一遍發現還是不行，那就說明，可能是伺服器有檢驗機制了；

先看了一下body，那4個引數都很正常，可以排除了；

再看看請求頭，看到一個sss引數跟timestamp引數，其他引數看著都正常；

首先，這個sss可能性很大，因為這命名很奇怪，另外，校驗時間戳，也合理；

重新整理幾次網站，發現這兩個引數都是會變化的，因此更加懷疑了；

每次重新整理都能正常顯示，當時自己模擬的時候又不行，引數肯定是沒錯的，這是不是說明，有時效性限制？

既然有這樣的懷疑，就測試一下吧，重新整理網頁，把sss跟timestamp的值複製到postman模擬，經過幾次，偶然發現居然可以的；

同樣的引數，再post一次，發現就返回空資料了，就證實了時效性校驗的機制，而且這個時效性極短，5秒內！

引數邏輯

下面講講這兩個引數的邏輯；

時間戳，一般是當前時間戳，拿去轉化看看，發現就是當前時間，無難度：

問題就在sss這個玩意，這種情況只能找原始碼，那怎麼看？

首先，返回到這個頁面，此時，紅框裡的就是需要分析的介面；

那把滑鼠移動到右側的jquery-1.8.3.min.js檔案，此時會彈出一堆js檔案；

逐個找，點選一個你覺得很大可能跟資料有關的檔案，這裡不難看出，就是get_data，那就點選右側的js檔案吧；

點選後，直接跳轉到這裡，sss對應的是程式碼的abc，而abc是get_abc函式生成的，而且需要時間戳做引數；

一般情況下，瀏覽器預設是非除錯狀態，那就點選右上的按鈕，暫停下吧；

點選後，會自動開啟一個檔案，亂七八糟一大堆，不想看；

既然不想看，就返回到剛剛那個js檔案吧，然後把滑鼠移動到get_abc函式上；

然後點選，邏輯不就出來了嗎？

因此，這兩個引數的邏輯如下：

function current_timestamp(){return(new Date).getTime()};
# 當前時間戳

function get_abc(a){return $.md5("phizhub_abc_"+a)}
# sss就是phizhub_abc_+當前13位時間戳拼接而成的md5
複製程式碼

故事完，可以愉快啪啪啪了，指令碼沒有，純提供分析思路；

小結

看吧，都說是水文，你還不信？

本文也沒講到啥，只是現在爬蟲的門檻會越來越高，而學會怎麼找js原始碼，算是當今爬蟲必備的技能了，希望對你有幫助~

謝謝大家~

JB的Python之旅-爬取phizhub網站（原始碼）
2019-03-01
Python網站原始碼
JB的Python之旅-爬蟲篇-新浪微博內容爬取
2018-06-30
Python爬蟲
JB的Python之旅-爬蟲篇--requests&Scrapy
2018-06-08
Python爬蟲
JB的Python之旅-爬蟲篇--urllib和Beautiful Soup
2018-05-15
Python爬蟲
JB的Python之旅-yaml介紹
2018-06-25
PythonYAML
JB的Python之旅-爬蟲篇-圖形驗證碼(1)-- tesserocr
2018-06-09
Python爬蟲
Python爬蟲—爬取某網站圖片
2020-11-19
Python爬蟲網站
使用 Python 爬取網站資料
2024-07-27
Python網站
爬取某網站寫的python程式碼
2019-11-29
網站Python
如何用Python爬取需要登入的網站？
2018-08-23
Python網站
JB的Python之旅-豆瓣自動頂貼功能
2018-09-01
Python
JB的Python之旅-爬蟲篇-圖形驗證碼(2)-- 收費OCR瞭解下
2018-06-11
Python爬蟲
動態網站的爬取
2018-08-29
網站
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
小豬的Python學習之旅 —— 9.爬蟲實戰：爬取花瓣網的小姐姐
2019-03-04
Python爬蟲
python 非同步佇列爬取多個網站
2020-11-21
Python非同步佇列網站
爬取網站新聞
2020-09-24
網站
JB的測試之旅-使用gitlab ci獲取提交記錄
2019-03-03
Gitlab
JB的Python之旅-人工智慧篇-TensorFlow-“Hello world”
2018-06-19
Python人工智慧
JB的Python之旅-人工智慧篇-TensorFlow基礎概念
2018-06-15
Python人工智慧
JB的Python之旅-爬蟲篇-圖形驗證碼(3)-- 驗證碼的生成了解下
2018-06-14
Python爬蟲
Python爬蟲入門教程 2-100 妹子圖網站爬取
2018-12-13
Python爬蟲網站
python爬取網圖
2019-10-15
Python
[譯] 如何使用 Python 和 BeautifulSoup 爬取網站內容
2019-02-23
Python網站
利用Python爬取攝影網站圖片，切勿商用
2018-12-18
Python網站
JB的git之旅-git命令列
2019-03-02
Git命令列
爬蟲Selenium+PhantomJS爬取動態網站圖片資訊（Python）
2018-03-24
爬蟲JS網站Python
JB的Python之旅-資料分析篇-jieba&wordcloud(詞雲)
2018-06-12
PythonJiebaCloud
利用Python爬蟲獲取招聘網站職位資訊
2021-08-09
Python爬蟲網站
JB的測試之旅-Linux下配置
2019-03-02
Linux
JB的git之旅-gitlab ci介紹
2018-05-24
Gitlab
python 爬蟲 mc 皮膚站 little skin 的簡單爬取
2019-08-02
Python爬蟲
利用python爬取城市公交站點
2021-12-09
Python
爬蟲搭建代理池、爬取某網站影片案例、爬取新聞案例
2023-03-16
爬蟲網站
關於python爬取網頁
2021-03-10
Python網頁
【Python爬蟲】正則爬取趕集網
2020-12-24
Python爬蟲
Python網路爬蟲3 – 生產者消費者模型爬取某金融網站資料
2019-02-28
Python爬蟲模型網站
Python網路爬蟲3 - 生產者消費者模型爬取某金融網站資料
2018-05-01
Python爬蟲模型網站

JB的Python之旅-爬取phizhub網站

前言

講故事啦

引數邏輯

小結

相關文章