Python爬蟲教程-13-爬蟲使用cookie爬取登入後的頁面(人人網)（下）

肖朋偉發表於2018-09-06

原文網址 : https://www.cnblogs.com/xpwi/p/9600764.html

Python爬蟲教程-13-爬蟲使用cookie爬取登入後的頁面（下）

自動使用cookie的方法，告別手動拷貝cookie
http模組包含一些關於cookie的模組，通過他們我們可以自動的使用cookie
- CookieJar
- 管理儲存Cookie，向傳出的http請求新增cookie
- 這裡Cookie儲存在記憶體中，CookieJar例項回收後cookie將消失
  - FileCookieJar(filename, delayload=None, policy=None)
- 使用檔案管理cookie
- filename是儲存cookie的檔案
  - MozillaCookieJar(filename, delayload=None, policy=None)
- 建立Mocilla瀏覽器cookie.txt相容的FileCookieJar例項
- 火狐Firefox瀏覽器需要單獨處理
  - LwpCookieJar(filename, delayload=None, policy=None)
- 建立於libww-per標準相容的Set-Cookie3格式的FileCookieJar
  - 它們之間的關係： CookieJar-->FileCookieJar-->MozillaCookieJar & LwpCookieJar

利用CookieJar訪問人人網

自動使用cookie登入，使用步驟：
- 1.開啟登入頁面後自動通過使用者名稱密碼登入
- 2.自動提取反饋回來的cookie
- 3.利用提取的cookie登入個人資訊頁面
- 建立cookiejar例項
- 生成cookie的管理器
- 建立http請求管理器
- 建立https請求的管理器
- 建立請求管理器
- 通過輸入使用者名稱和密碼，獲取cookie
案例13cookiejar檔案：https://xpwi.github.io/py/py%E7%88%AC%E8%99%AB/py13cookiejar.py

# 使用cookiejar完整程式碼
from urllib import request,parse
from http import cookiejar

# 建立cookiejar的例項
cookie = cookiejar.CookieJar()
# 常見cookie的管理器
cookie_handler = request.HTTPCookieProcessor(cookie)

# 建立http請求的管理器
http_handler = request.HTTPHandler()

# 生成https管理器
https_handler = request.HTTPSHandler()

# 建立請求管理器
opener = request.build_opener(http_handler,https_handler,cookie_handler)

def login():
    # 負責首次登入，輸入使用者名稱和密碼，用來獲取cookie
    url = 'http://www.renren.com/PLogin.do'

    id = input('請輸入使用者名稱：')
    pw = input('請輸入密碼：')

    data = {
        # 從input標籤的name獲取引數的key，value由輸入獲取
        "email": id,
        "password": pw
    }
    # 把資料進行編碼
    data = parse.urlencode(data)
    # 建立一個請求物件
    req = request.Request(url,data=data.encode('utf-8'))
    # 使用opener發起請求
    rsp = opener.open(req)

# 以上程式碼就可以進一步獲取cookie了，cookie在哪呢？cookie在opener裡
def getHomePage():
    # 地址是用在瀏覽器登入後的個人資訊頁地址
    url = "http://www.renren.com/967487029/profile"

    # 如果已經執行login函式，則opener自動已經包含cookie
    rsp = opener.open(url)
    html = rsp.read().decode()

    with open("rsp1.html", "w", encoding="utf-8")as f:
        # 將爬取的頁面
        print(html)
        f.write(html)

if __name__ == '__main__':
    login()
    getHomePage()

執行結果

看到自己的個人資訊就是說明登入成功了
這裡寫圖片描述

補充：在爬蟲程式碼輸入使用者名稱和密碼的使用方法

1.開啟網站首頁，登入表單頁面
2.在輸入使用者名稱和密碼的地方，【右鍵檢查】，或者檢視原始碼
3.找到登入表單【form標籤的action屬性】，拷貝地址
4.提示：如果不能直接拷貝，【雙擊】地址，Ctrl+C
操作截圖：
5.找到使用者名稱和密碼的【input標籤的name屬性】，構建引數時使用
6.然後在程式碼中，構建data引數，模擬post請求

# 程式碼片段
url = 'http://www.renren.com/PLogin.do'

    data = {
        # 引數使用正確的使用者名稱密碼
        "email": "18322295195",
        "password": "oaix51607991"
    }
    # 把資料進行編碼
    data = parse.urlencode(data)

爬蟲使用cookie，自動獲取cookie解介紹到這裡了

更多文章連結：Python 爬蟲隨筆

本筆記不允許任何個人和組織轉載

Python爬蟲教程-12-爬蟲使用cookie爬取登入後的頁面(人人網)（上）
2018-09-06
Python爬蟲Cookie
Python爬蟲教程-14-爬蟲使用filecookiejar儲存cookie檔案(人人網)
2018-09-06
Python爬蟲CookieJAR
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
Python爬蟲教程-15-讀取cookie(人人網)和SSL(12306官網)
2018-09-06
Python爬蟲Cookie
python 爬蟲網頁登陸
2020-11-30
Python爬蟲網頁
Python爬蟲入門教程 50-100 Python3爬蟲爬取VIP視訊-Python爬蟲6操作
2019-02-14
Python爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
node：爬蟲爬取網頁圖片
2019-02-16
爬蟲網頁
Python爬蟲入門教程 4-100 美空網未登入圖片爬取
2018-12-17
Python爬蟲
Python爬蟲入門【4】：美空網未登入圖片爬取
2019-07-30
Python爬蟲
python網路爬蟲_Python爬蟲：30個小時搞定Python網路爬蟲視訊教程
2020-10-21
Python爬蟲
Python爬蟲入門【9】：圖蟲網多執行緒爬取
2019-07-31
Python爬蟲執行緒
爬蟲——網頁爬取方法和網頁解析方法
2020-12-07
爬蟲網頁
Python爬蟲入門教程 2-100 妹子圖網站爬取
2018-12-13
Python爬蟲網站
python 爬蟲如何爬取動態生成的網頁內容
2024-10-31
Python爬蟲網頁
不會Python爬蟲？教你一個通用爬蟲思路輕鬆爬取網頁資料
2019-01-08
Python爬蟲網頁
Python使用多程式提高網路爬蟲的爬取速度
2019-02-01
Python爬蟲
Python爬蟲教程-01-爬蟲介紹
2018-09-06
Python爬蟲
《網頁爬蟲》
2018-11-26
網頁爬蟲
一起學爬蟲——使用Beautiful Soup爬取網頁
2018-11-26
爬蟲網頁
Python爬蟲—爬取某網站圖片
2020-11-19
Python爬蟲網站
【Python爬蟲】正則爬取趕集網
2020-12-24
Python爬蟲
python網路爬蟲（14）使用Scrapy搭建爬蟲框架
2019-07-27
Python爬蟲框架
Python網路爬蟲第三彈《爬取get請求的頁面資料》
2018-09-14
Python爬蟲
Python爬蟲入門【3】：美空網資料爬取
2019-07-30
Python爬蟲
python爬蟲爬取網頁中文亂碼問題的解決
2024-11-17
Python爬蟲網頁
Python網路爬蟲之爬取淘寶網頁頁面 MOOC可以執行的程式碼
2018-11-24
Python爬蟲網頁
《Python3網路爬蟲開發實戰》教程||爬蟲教程
2018-11-13
Python爬蟲
Python爬蟲之路-chrome在爬蟲中的使用
2021-01-04
Python爬蟲Chrome
Python爬蟲之路-selenium在爬蟲中的使用
2021-01-04
Python爬蟲
Python爬蟲入門【5】：27270圖片爬取
2019-07-30
Python爬蟲
python網路爬蟲--爬取淘寶聯盟
2018-07-17
Python爬蟲
Node JS爬蟲：爬取瀑布流網頁高清圖
2018-05-17
JS爬蟲網頁
python爬取換頁_爬蟲爬不進下一頁了，怎麼辦
2020-11-24
Python爬蟲
【爬蟲】python爬蟲從入門到放棄
2018-12-20
爬蟲Python
【爬蟲】網頁抓包工具--Charles的使用教程
2018-12-19
爬蟲網頁
Python爬蟲教程-34-分散式爬蟲介紹
2018-09-06
Python爬蟲分散式
Python爬蟲教程-30-Scrapy 爬蟲框架介紹
2018-09-06
Python爬蟲框架

Python爬蟲教程-13-爬蟲使用cookie爬取登入後的頁面(人人網)（下）

Python爬蟲教程-13-爬蟲使用cookie爬取登入後的頁面（下）

利用CookieJar訪問人人網

執行結果

補充：在爬蟲程式碼輸入使用者名稱和密碼的使用方法

更多文章連結：Python 爬蟲隨筆

相關文章