快速爬取登入網站資料

Z_suger7發表於2020-11-20

原文網址 : https://blog.csdn.net/Z_suger7/article/details/109853999

部分網站需要登入才能允許訪問，因此爬蟲需要獲取登入cookie，然後通過爬蟲代理使用該cookie進行資料採集。本示例按照以上流程進行實現如下：
1 模擬表單登陸
通過於post請求向伺服器傳送表單資料，爬蟲將返回的cookie進行儲存。

import requests
data = {'data1':'XXXXX', 'data2':'XXXXX'}
response = requests.post(url=url, data=data)

2 提取cookie登陸
讀取儲存的cookie進行登陸，伺服器會認為爬蟲請求是已登陸的使用者，所以就會返回已登陸的內容。注意需要驗證碼的情況可以使用帶驗證碼登陸的cookie解決。

    #! -*- encoding:utf-8 -*-
    import requests
    import random
    import requests.adapters

    # 要訪問的目標頁面
    targetUrlList = [
        "https://httpbin.org/ip",
        "https://httpbin.org/headers",
        "https://httpbin.org/user-agent",
    ]

    # 代理伺服器(產品官網 www.16yun.cn)
    proxyHost = "t.16yun.cn"
    proxyPort = "31111"

    # 代理隧道驗證資訊
    proxyUser = "username"
    proxyPass = "password"

    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
        "host": proxyHost,
        "port": proxyPort,
        "user": proxyUser,
        "pass": proxyPass,
    }

    # 設定 http和https訪問都是用HTTP代理
    proxies = {
        "http": proxyMeta,
        "https": proxyMeta,
    }

    # 訪問三次網站，使用相同的Session(keep-alive)，均能夠保持相同的外網IP
    s = requests.session()

    # 設定cookie
    cookie_dict = {"JSESSION":"123456789"}
    cookies = requests.utils.cookiejar_from_dict(cookie_dict, cookiejar=None, overwrite=True)
    s.cookies = cookies

    for i in range(3):
        for url in targetUrlList:
            r = s.get(url, proxies=proxies)
            print r.text

若存在驗證碼，此時採用response = requests_session.post(url=url_login, data=data)是不行的，做法應該如下：

response_captcha = requests_session.get(url=url_login, cookies=cookies)
response1 = requests.get(url_login) # 未登陸
response2 = requests_session.get(url_login) # 已登陸，因為之前拿到了Response Cookie！
response3 = requests_session.get(url_results) # 已登陸，因為之前拿到了Response Cookie！

如何用Python爬取需要登入的網站？
2018-08-23
Python網站
使用 Python 爬取網站資料
2024-07-27
Python網站
Golang 爬蟲快速入門 | 獲取 B 站全站的視訊資料
2020-04-14
Golang爬蟲
Python爬蟲入門【3】：美空網資料爬取
2019-07-30
Python爬蟲
某網站加密返回資料加密_爬取過程
2024-06-08
網站加密
Python爬蟲入門【4】：美空網未登入圖片爬取
2019-07-30
Python爬蟲
爬取網站新聞
2020-09-24
網站
分享一個用go寫的爬取非同步載入網站資料的例子
2022-06-01
Go非同步網站
Puppeteer爬取網頁資料
2019-03-22
網頁
Python爬蟲入門教程 2-100 妹子圖網站爬取
2018-12-13
Python爬蟲網站
如何解決網站登入後反爬的問題？
2023-02-16
網站
爬蟲實戰（二）：Selenium 模擬登入並爬取資訊
2018-07-15
爬蟲
Python爬蟲入門教程 4-100 美空網未登入圖片爬取
2018-12-17
Python爬蟲
動態網站的爬取
2018-08-29
網站
Python網路爬蟲3 – 生產者消費者模型爬取某金融網站資料
2019-02-28
Python爬蟲模型網站
Python網路爬蟲3 - 生產者消費者模型爬取某金融網站資料
2018-05-01
Python爬蟲模型網站
拉勾網職位資料爬取
2018-08-26
Python爬取噹噹網APP資料
2020-10-21
PythonAPP
Python爬蟲—爬取某網站圖片
2020-11-19
Python爬蟲網站
為爬蟲獲取登入cookies：登入的恩恩怨怨
2018-12-04
爬蟲Cookie
GitHub 熱門：各大網站的 Python 爬蟲登入彙總
2019-03-18
Github網站Python爬蟲
Golddata如何採集需要登入/會話的網站資料？
2019-04-05
Go會話網站
房產資料爬取、智慧財產權資料爬取、企業工商資料爬取、抖音直播間資料python爬蟲爬取
2024-07-11
Python爬蟲
爬取薅羊毛網站百度雲資源
2020-02-16
網站
網站修改登入密碼？如何修改網站後臺資訊？
2024-10-16
網站密碼
Python爬蟲教程-13-爬蟲使用cookie爬取登入後的頁面(人人網)（下）
2018-09-06
Python爬蟲Cookie
Python爬蟲教程-12-爬蟲使用cookie爬取登入後的頁面(人人網)（上）
2018-09-06
Python爬蟲Cookie
Redis快取資料庫-快速入門
2023-03-08
Redis快取資料庫
爬蟲搭建代理池、爬取某網站影片案例、爬取新聞案例
2023-03-16
爬蟲網站
爬蟲Selenium+PhantomJS爬取動態網站圖片資訊（Python）
2018-03-24
爬蟲JS網站Python
爬蟲技術抓取網站資料方法
2021-09-11
爬蟲網站
利用Python爬蟲獲取招聘網站職位資訊
2021-08-09
Python爬蟲網站
JB的Python之旅-爬取phizhub網站
2019-02-21
Python網站
用xpath、bs4、re爬取B站python資料
2018-08-07
Python
Python爬蟲訓練：爬取酷燃網視訊資料
2020-10-23
Python爬蟲
python網路爬蟲（7）爬取靜態資料詳解
2019-06-07
Python爬蟲
網站登入JWT的實現
2019-03-01
網站JWT
為爬蟲獲取登入cookies：使用Charles和requests模擬微博登入
2018-12-03
爬蟲Cookie

快速爬取登入網站資料

相關文章