Python爬蟲入門教程 48-100 使用mitmdump抓取手機惠農APP-手機APP爬蟲部分

夢想橡皮擦發表於2019-03-12

原文網址 : https://juejin.im/post/5c8703686fb9a04a10301fa7

1. 爬取前的分析

mitmdump是mitmproxy的命令列介面，比Fiddler、Charles等工具方便的地方是它可以對接Python指令碼。有了它我們可以不用手動截獲和分析HTTP請求和響應，只需寫好請求和響應的處理邏輯即可。它還可以實現資料的解析、儲存等工作，這些過程都可以通過Python實現。

1.1 啟動mitmdump 儲存到檔案

使用命令

mitmdump -w crawl.txt  
複製程式碼

其中 crawl.txt 可以為任意檔名，就可以儲存相應的結果了

1.2 呼叫指令碼檔案

mitmdump -s script.py
複製程式碼

script.py 檔案中編寫如下程式碼

# 修改UA
def request(flow):
    flow.request.headers['User-Agent'] = 'MitmProxy'
    print(flow.request.headers)
複製程式碼

在夜神模擬器中開啟http://httpbin.org/get 出現如下內容

出現上述內容比較你已經可以對網頁request進行修改了，下面開啟手機惠農APP，看一下如何去捕獲相應的請求

2. 捕獲手機惠農APP請求

這個地方千萬不要單獨依賴mitmdump，要不你會直接卡死的，你可以採用mitmweb，開啟APP之後，等待一會，點選一個選單進入。比如點選下面的供應大廳。

之後在mitmweb中捕獲到列表頁的資料連線，儲存地址 https://truffle.cnhnb.com/banana/supply/query/list 方便進行後續的操作。

3. 完善script指令碼

指令碼主要有兩部分構成，資料獲取與資料儲存，資料獲取要注意，當訪問的url匹配到剛才的地址的時候，就表示可以進行處理了

from mitmproxy import ctx
import json
import pymongo
# def request(flow):
#     #flow.request.headers['User-Agent'] = 'MitmProxy'
#     print(flow.request.headers)

def response(flow):
    start_url = "https://truffle.cnhnb.com/banana/supply/query/list"
    response = flow.response
    info = ctx.log.info
    if flow.request.url.startswith(start_url):
        text = response.text
        
        data = json.loads(text)
        save(data)

def save(data):
    DATABASE_IP = '127.0.0.1'
    DATABASE_PORT = 27017
    DATABASE_NAME = 'sun'
    client = pymongo.MongoClient(DATABASE_IP, DATABASE_PORT)
    db = client.sun
    db.authenticate("dba", "dba")
    collection = db.huinong  # 準備插入資料
    print(data["data"]["datas"])
    collection.insert_many(data["data"]["datas"])

複製程式碼

實現的效果

注意，現在還沒有設定手機自動操作，所以操作是我手動滑動的。左側資料已經成功的捕獲到了。

4. 入庫效果

資料儲存到mongodb中，在處理就比較簡單了

5. 其他說明

mitmdump提供了專門的日誌輸出功能，可以設定不同級別以不同顏色輸出結果。 ctx模組有log功能，呼叫不同的輸出方法就可以輸出不同顏色的結果，以方便我們做除錯。

ctx.log.warn(str(flow.request.query))
ctx.log.error(str(flow.request.headers))
複製程式碼

更多的指令碼例子，可以去參考。

https://github.com/mitmproxy/mitmproxy/tree/master/examples/simple

後續，我們將嘗試將剛才的手動滑動修改成自動操作......

歡迎關注非本科程式設計師公眾賬號

Python爬蟲入門教程 48-100 使用mitmdump抓取手機惠農APP-手機APP爬蟲部分

Python爬蟲入門教程 29-100 手機APP資料抓取 pyspider
2019-01-23
Python爬蟲APPIDE
Python爬蟲新手教程：手機APP資料抓取 pyspider
2019-07-20
Python爬蟲APPIDE
App爬蟲神器mitmproxy和mitmdump的使用
2018-04-08
APP爬蟲MIT
Python爬蟲入門教程 61-100 寫個爬蟲碰到反爬了，動手破壞它！
2019-04-22
Python爬蟲
Python爬蟲入門教程 50-100 Python3爬蟲爬取VIP視訊-Python爬蟲6操作
2019-02-14
Python爬蟲
Python爬蟲入門
2020-11-30
Python爬蟲
【爬蟲】python爬蟲從入門到放棄
2018-12-20
爬蟲Python
手機爬蟲用Appium詳細教程：利用Python控制移動App進行自動化抓取資料
2023-10-16
爬蟲APPPython
Python爬蟲入門教程導航帖
2019-01-08
Python爬蟲
什麼是Python爬蟲？python爬蟲入門難嗎？
2021-12-27
Python爬蟲
Python爬蟲入門教程 18-100 煎蛋網XXOO圖片抓取
2019-01-04
Python爬蟲
Python爬蟲抓取技術的門道
2019-09-21
Python爬蟲
python-爬蟲入門
2024-09-22
Python爬蟲
Fiddler抓包---手機APP--python爬蟲基本設定和操作
2018-10-24
APPPython爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
Python爬蟲入門，8個常用爬蟲技巧盤點
2018-12-12
Python爬蟲
Python 從入門到爬蟲極簡教程
2019-02-16
Python爬蟲
Python爬蟲入門教程 33-100 《海王》評論資料抓取 scrapy
2019-02-14
Python爬蟲
爬蟲入門
2024-04-13
爬蟲
為什麼學習python及爬蟲，Python爬蟲[入門篇]？
2018-11-21
Python爬蟲
Python爬蟲教程-01-爬蟲介紹
2018-09-06
Python爬蟲
爬蟲入門基礎-Python
2020-05-09
爬蟲Python
python3 爬蟲入門
2021-09-09
Python爬蟲
Python爬蟲抓取股票資訊
2021-01-03
Python爬蟲
不踩坑的Python爬蟲：Python爬蟲開發與專案實戰，從爬蟲入門 Python
2021-12-17
Python爬蟲
Python學習手冊（入門&爬蟲&資料分析&機器學習&深度學習）
2021-12-20
Python爬蟲機器學習深度學習
Python爬蟲教程-13-爬蟲使用cookie爬取登入後的頁面(人人網)（下）
2018-09-06
Python爬蟲Cookie
Python爬蟲教程-12-爬蟲使用cookie爬取登入後的頁面(人人網)（上）
2018-09-06
Python爬蟲Cookie
Python爬蟲入門學習線路圖2019最新版（附Python爬蟲視訊教程）
2019-01-09
Python爬蟲
Python爬蟲入門教程 55-100 python爬蟲高階技術之驗證碼篇
2019-04-02
Python爬蟲
帶你入門Python爬蟲，8個常用爬蟲技巧盤點
2018-08-06
Python爬蟲
Python爬蟲入門【9】：圖蟲網多執行緒爬取
2019-07-31
Python爬蟲執行緒
python爬蟲抓取哈爾濱天氣資訊（靜態爬蟲）
2020-04-05
Python爬蟲
Python爬蟲入門教程 2-100 妹子圖網站爬取
2018-12-13
Python爬蟲網站
Python爬蟲入門【5】：27270圖片爬取
2019-07-30
Python爬蟲
python爬蟲之 BeautifulSoup庫入門
2019-12-09
Python爬蟲
Python3爬蟲入門(一)
2020-12-05
Python爬蟲
用Python爬蟲抓取代理IP
2019-04-17
Python爬蟲