python 爬蟲網頁登陸

datehoer發表於2020-11-30

原文網址 : https://learnku.com/articles/52025

相信各位在寫python爬蟲的時候會在爬取網站時遇到一些登陸的問題，比如說登陸時遇到輸入驗證碼比如說登入時遇到圖片拖拽等驗證，如何解決這類問題呢？一般有兩種方案。

使用cookie登陸

我們可以通過使用cookies登陸，首先獲取瀏覽器的cookie，然後利用requests 庫直接登陸cookie，伺服器就會認為你是一個真實登陸使用者，所以就會返回給你一個已登陸的狀態，這個方法是很好用的，基本上絕大部分的需要驗證碼登入的網站都可以通過cookie登入來解決，

 #! -*- encoding:utf-8 -*-
    import requests
    import random
    import requests.adapters

    # 要訪問的目標頁面
    targetUrlList = [
        "https://httpbin.org/ip",
        "https://httpbin.org/headers",
        "https://httpbin.org/user-agent",
    ]

    # 代理伺服器
    proxyHost = "t.16yun.cn"
    proxyPort = "31111"

    # 代理隧道驗證資訊
    proxyUser = "username"
    proxyPass = "password"

    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
        "host": proxyHost,
        "port": proxyPort,
        "user": proxyUser,
        "pass": proxyPass,
    }

    # 設定 http和https訪問都是用HTTP代理
    proxies = {
        "http": proxyMeta,
        "https": proxyMeta,
    }

    # 訪問三次網站，使用相同的Session(keep-alive)，均能夠保持相同的外網IP
    s = requests.session()

    # 設定cookie
    cookie_dict = {"JSESSION":"123456789"}
    cookies = requests.utils.cookiejar_from_dict(cookie_dict, cookiejar=None, overwrite=True)
    s.cookies = cookies

    for i in range(3):
        for url in targetUrlList:
            r = s.get(url, proxies=proxies)
            print r.text
若存在驗證碼，此時採用resp**e = requests_session.post(url=url_login, data=data)是不行的，做法應該如下：

resp**e_captcha = requests_session.get(url=url_login, cookies=cookies)
resp**e1 = requests.get(url_login) # 未登陸
resp**e2 = requests_session.get(url_login) # 已登陸，因為之前拿到了Resp**e Cookie！
resp**e3 = requests_session.get(url_results) # 已登陸，因為之前拿到了Resp**e Cookie！

模擬登陸
這裡不得不說一句老話，前人種樹，後人乘涼，當時我想爬一下知乎鹽選的文章，但是卡在了登陸這塊，沒想到搜尋下來發現了一個模擬登陸的庫，非常好用，不過本著好東西不分享防和諧的原則，就不在這裡說了。
具體思路也就是通過requests來進行模擬登陸，然後返回一下驗證碼，之後傳入驗證碼即可登陸成功了。

本作品採用《CC 協議》，轉載必須註明作者和本文連結

zjzdmc.top

python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
Python爬蟲教程-13-爬蟲使用cookie爬取登入後的頁面(人人網)（下）
2018-09-06
Python爬蟲Cookie
Python爬蟲教程-12-爬蟲使用cookie爬取登入後的頁面(人人網)（上）
2018-09-06
Python爬蟲Cookie
《網頁爬蟲》
2018-11-26
網頁爬蟲
爬蟲之普通的模擬登陸
2018-08-24
爬蟲
python爬蟲：使用BeautifulSoup修改網頁內容
2020-04-05
Python爬蟲網頁
手把手教你利用爬蟲爬網頁（Python程式碼）
2019-05-14
爬蟲網頁Python
爬蟲——網頁爬取方法和網頁解析方法
2020-12-07
爬蟲網頁
Python 爬蟲網頁內容提取工具xpath(二)
2018-12-08
Python爬蟲網頁
Python3 | 簡單爬蟲分析網頁元素
2018-11-30
Python爬蟲網頁
Python 爬蟲網頁內容提取工具xpath(一)
2018-12-06
Python爬蟲網頁
Python 爬蟲網頁解析工具lxml.html(二)
2018-12-05
Python爬蟲網頁XMLHTML
Python 爬蟲網頁解析工具lxml.html(一)
2018-12-05
Python爬蟲網頁XMLHTML
Python靜態網頁爬蟲專案實戰
2020-05-01
Python網頁爬蟲
python網路爬蟲_Python爬蟲：30個小時搞定Python網路爬蟲視訊教程
2020-10-21
Python爬蟲
python 爬蟲如何爬取動態生成的網頁內容
2024-10-31
Python爬蟲網頁
python爬蟲怎麼翻頁
2023-11-10
Python爬蟲
不會Python爬蟲？教你一個通用爬蟲思路輕鬆爬取網頁資料
2019-01-08
Python爬蟲網頁
node：爬蟲爬取網頁圖片
2019-02-16
爬蟲網頁
爬蟲如何利用session方法保持登陸狀態(selenium)
2020-11-12
爬蟲Session
python爬蟲爬取網頁中文亂碼問題的解決
2024-11-17
Python爬蟲網頁
網頁爬蟲--未完成
2020-10-04
網頁爬蟲
Python爬蟲入門【4】：美空網未登入圖片爬取
2019-07-30
Python爬蟲
Python網路爬蟲之爬取淘寶網頁頁面 MOOC可以執行的程式碼
2018-11-24
Python爬蟲網頁
【python--爬蟲】彼岸圖網高清桌布爬蟲
2019-07-21
Python爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
python網路爬蟲應用_python網路爬蟲應用實戰
2020-12-29
Python爬蟲
python爬蟲如何用session保持登入?
2021-09-11
Python爬蟲Session
python DHT網路爬蟲
2019-02-14
Python爬蟲
[Python3網路爬蟲開發實戰] 2-爬蟲基礎 2-網頁基礎
2018-03-08
Python爬蟲網頁
網路爬蟲有什麼用？怎麼爬？手把手教你爬網頁（Python程式碼）
2019-04-24
爬蟲網頁Python
python網路爬蟲（14）使用Scrapy搭建爬蟲框架
2019-07-27
Python爬蟲框架
【爬蟲】網頁抓包工具--Fiddler
2018-12-19
爬蟲網頁
爬蟲抓取網頁資料原理
2021-12-06
爬蟲網頁
GitHub 熱門：各大網站的 Python 爬蟲登入彙總
2019-03-18
Github網站Python爬蟲
python爬取換頁_爬蟲爬不進下一頁了，怎麼辦
2020-11-24
Python爬蟲
那些年，我爬過的北科(二)——爬蟲基礎之session登陸
2018-12-08
爬蟲Session
Python 爬蟲模擬登入方法彙總
2018-10-29
Python爬蟲

python 爬蟲網頁登陸

相關文章