Python爬蟲：爬取instagram，破解js加密引數

Mrrrrr10發表於2019-04-09

原文網址 : https://juejin.im/post/5cacc46be51d456e500f7cd2

instagram 是國外非常流行的一款社交網站，類似的還有像facebook、twitter，這些社交網站對於掌握時事熱點、電商資料來源和競爭對手的動態資訊的把我都是很有資料價值的，所以值錢的資料誰都想獲取，那就意味著誰都想保護，那麼下面就來聊一聊怎麼爬取ins的資訊。

一、需求分析：

爬取instagram這個使用者的圖片、評論數、點贊數、文章內容，存為Json格式

二、站點分析：

首先自行準備翻牆工具，準備好以後，開啟instagram官方賬號，同時按下F12，如下所示：

切換到network選項，隨便選擇一張圖片的url，全域性搜尋，如下圖：

可以發現：instagram把資料寫到了script標籤裡面，這是一種常見的做法，放到js裡面去載入，所以我們需要用到正規表示式去做匹配：

解釋一下：首先爬取首頁的資料，然後正規表示式匹配script標籤傳來的後臺資料，轉換成json格式，同時還需要找出user_id和GIS_rhx_gis引數(破解js加密需要用到)，最後解析資料。

爬取完首頁以後，我們就要爬取下一頁的資料了，可以發現下一頁的資料是ajax非同步載入的方式，返回的是json格式的資料，如下圖：

請求的url格式為：

"https://www.instagram.com/graphql/query/?query_hash=5b0222df65d7f6659c9b82246780caa7&variables=%7B\"id\"%3A\"{id}\"%2C\"first\"%3A12%2C\"after\"%3A\"{end_cursor}\"%7D"
複製程式碼

經過我測試，發現必須要帶上 x-instagram-gis這個引數，否則會報 403 forbideen錯誤，這是ins的反爬蟲機制：

那麼如何生成這個引數呢？全域性搜尋，找到這個引數的js檔案，複製一份拷貝到本地，我用的是Pycharm，一路追蹤過去，可以找到生成這個引數的方法，我總結為：

1. 從使用者首頁https://www.instagram.com/instagram/獲取user_id、rhx_gis、end_cursor引數
2. variables = '{"id":"' + id + '","first":12,"after":"' + end_cursor + '"}'，對 params = rhx_gis + ":" + variables進行md5加密
3. headers加入"x-instagram-gis": params,即可進行抓取
複製程式碼

生成這個引數以後，我們就可以下一頁的抓取了~

三、原始碼：

github.com/Mrrrrr10/In…

四、最後的話：

如果有幫助的話，可以給個star~，歡迎轉發和點贊，轉發請註明出處哦

python爬蟲:瞭解JS加密爬取網易雲音樂
2021-08-19
Python爬蟲JS加密
Python爬取周杰倫instagram
2018-07-08
Python
Python爬蟲例項：爬取貓眼電影——破解字型反爬
2019-02-26
Python爬蟲
Python爬蟲：逆向分析網易雲音樂加密引數
2020-09-14
Python爬蟲加密
Python爬蟲教程-16-破解js加密例項（有道線上翻譯）
2018-09-06
Python爬蟲JS加密
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
爬蟲headers引數
2020-10-25
爬蟲Header
python爬蟲js逆向
2019-09-22
Python爬蟲JS
python爬蟲之快速對js內容進行破解
2019-07-08
Python爬蟲JS
Python爬蟲基礎-01-帶有請求引數的爬蟲
2018-06-06
Python爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
Python爬蟲之js加密破解，抓取網易雲音樂評論生成詞雲
2020-10-22
Python爬蟲JS加密
python 爬蟲爬取 learnku 精華文章
2020-04-17
Python爬蟲
Python爬蟲入門教程 50-100 Python3爬蟲爬取VIP視訊-Python爬蟲6操作
2019-02-14
Python爬蟲
Python爬蟲js處理
2020-03-31
Python爬蟲JS
python爬蟲之JS逆向
2022-06-11
Python爬蟲JS
Python逆向爬蟲入門教程: 千千音樂加密引數 sign 逆向解析
2024-03-28
Python爬蟲加密
python爬蟲——爬取大學排名資訊
2019-08-02
Python爬蟲
Python爬蟲—爬取某網站圖片
2020-11-19
Python爬蟲網站
python爬蟲--爬取鏈家租房資訊
2020-05-16
Python爬蟲
python 爬蟲 1 爬取酷狗音樂
2020-03-29
Python爬蟲
【Python爬蟲】正則爬取趕集網
2020-12-24
Python爬蟲
Node JS爬蟲：爬取瀑布流網頁高清圖
2018-05-17
JS爬蟲網頁
Node.js爬取妹子圖-crawler爬蟲的使用
2018-04-04
Node.js爬蟲
python爬蟲之js逆向（三）
2020-01-06
Python爬蟲JS
python爬蟲之js逆向（二）
2019-11-05
Python爬蟲JS
Python爬蟲之路-JS的解析
2021-01-04
Python爬蟲JS
python網路爬蟲--爬取淘寶聯盟
2018-07-17
Python爬蟲
Python爬蟲入門【5】：27270圖片爬取
2019-07-30
Python爬蟲
Python 第一個爬蟲，爬取 147 小說
2020-05-08
Python爬蟲
小白學 Python 爬蟲（25）：爬取股票資訊
2019-12-24
Python爬蟲
爬蟲——爬取貴陽房價（Python實現）
2022-02-09
爬蟲Python
python例項，python網路爬蟲爬取大學排名!
2018-11-20
Python爬蟲
js逆向爬蟲實戰（2）--快手第三方平臺之加密引數
2020-10-24
JS爬蟲加密
C#爬蟲與反爬蟲--字型加密篇
2019-06-26
C#爬蟲加密
爬蟲之股票定向爬取
2018-12-06
爬蟲
python就是爬蟲嗎-python就是爬蟲嗎
2020-10-29
Python爬蟲
Python爬蟲爬取淘寶，京東商品資訊
2020-02-11
Python爬蟲

Python爬蟲：爬取instagram，破解js加密引數

一、需求分析：

二、站點分析：

三、原始碼：

四、最後的話：

相關文章