為爬蟲獲取登入cookies：登入的恩恩怨怨

王平發表於2018-12-04

原文網址 : https://www.yuanrenxue.com/crawler/how-to-get-login-cookies.html

我們在上一章中講到的新聞爬蟲，是基本不受目標伺服器限制的爬蟲，技術上的挑戰主要在抓取任務的管理、分配，併發的使用，提高效率等方面。而實際中，不同抓取目標的爬蟲會遇到很多阻礙，這個阻礙就是登入。

python爬蟲實現登入功能

曾幾何時，登入是一件很簡單的事情，一個賬戶及其密碼，POST給伺服器，伺服器驗證通過即可。那是一個美好的樸素年代，伺服器不設防，使用者不貪婪。然而，時過境遷，人心變了。越來越多的人想要收集資料，爬蟲也就越來越多；而網站就有了網路請求壓力，也有了死守資料私心。天下熙熙，皆為利來；天下攘攘，皆為利往。現在的網際網路，就成了一個利字當頭、魔高一尺道高一丈的戰場。

如今，各種網站都設定了複雜的登入這堵高高的牆來阻止爬蟲大量甚至全部獲取網站的資料。比如，12306的驗證碼是點選圖片，微博是變形的字母驗證碼，知乎是點選倒立的漢字，嗶哩嗶哩通過拖動滑塊拼圖來驗證。這些變態的驗證過程都是加入人的互動來防止爬蟲自動登入，從而阻止爬蟲自動化的大批量抓取。

小猿們都已經知道，HTTP協議是無狀態的，使用者登入的狀態靠cookies在瀏覽器和伺服器之間來回傳送來記錄。完成登入後，cookies在一定時間範圍內是保持不變的，直接獲得這個cookies給爬蟲用，就可以讓爬蟲有了登入的狀態，進而進行後面的抓取，當然，這個抓取只能持續到cookies過期之前。

1. 爬蟲登入的三種層次

完成登入這個過程，最好是程式自動化的實現，那麼你寫好程式後就可以一邊兒玩去了；然而好多時候，事情不是那麼讓人省心，登入還需要人工參與一下下。總結下來，實現登入有以下三個層次：

簡單的POST賬戶密碼就可以實現自動化登入；
通過程式可以模擬出登入流程實現自動化登入；
登入需要人工（智慧）介入，人工智慧實現自動化登入；

第一個層次，使用requests模組加一兩行程式碼就可以實現，關鍵是而今遇到這樣的良心網站是可遇不可求的。
第二個層次，是很有挑戰性的，也是爬蟲界人士力求達到的層次。
第三個層次，是很方便的，臨時抓取定量資料的寶典利器，無法是人工輸入一下驗證碼；利用人工智慧識別驗證碼，同樣也可以達到完全無人介入的地步，但是這已經不是爬蟲的範疇了，而要實現人工智慧破解各種變態的驗證碼所耗費的資源也是難以想象的。

由此看來，登入狀態cookies的獲取，主要還是靠模擬登入流程或人工輸入驗證碼的方式實現。

2. 爬蟲登入分析的三類工具

模擬登入，首先就要分析出目標網站的登入流程才能進行程式模擬。而要分析這個過程，就需要工具的輔助，這樣的工具有：

Chrome瀏覽器開發者工具(F12)
Charles、Fiddler Web除錯代理（Web Debugging Proxy）工具
Wireshark抓包工具

Chrome的F12，我們前面已經介紹過了，它可以很好的幫助我們分析瞭解網站的載入過程，但相對於專業工具Charles等又稍顯不足；Wireshark是專業的抓包工具，它不僅僅可以分析http協議，TCP、UDP等照樣不在話下，但對我們分析登入流程又過於複雜。所以我們還是選擇Charles、Fiddler這樣的專門的Web(http)除錯代理。

下一篇說個常用的網路抓包工具:
charles抓包工具的使用

我的公眾號：猿人學 Python 上會分享更多心得體會，敬請關注。

***版權申明:若沒有特殊說明，文章皆是猿人學 yuanrenxue.com 原創，沒有猿人學授權，請勿以任何形式轉載。***

為爬蟲獲取登入cookies：charles工具的使用
2018-12-03
爬蟲Cookie
為爬蟲獲取登入cookies：使用browsercookie從瀏覽器獲取cookies
2018-12-03
爬蟲Cookie瀏覽器
為爬蟲獲取登入cookies：使用Charles和requests模擬微博登入
2018-12-03
爬蟲Cookie
為爬蟲獲取登入cookies：使用萬能鑰匙 Selenium 搞定一切登入
2018-12-03
爬蟲Cookie
Python爬蟲入門【4】：美空網未登入圖片爬取
2019-07-30
Python爬蟲
jmeter通過cookies來登入
2018-06-23
JMeterCookie
爬蟲實戰（二）：Selenium 模擬登入並爬取資訊
2018-07-15
爬蟲
爬蟲模擬登入—OAUTH的詳解
2018-05-10
爬蟲OAuth
Python爬蟲教程-13-爬蟲使用cookie爬取登入後的頁面(人人網)（下）
2018-09-06
Python爬蟲Cookie
Python爬蟲教程-12-爬蟲使用cookie爬取登入後的頁面(人人網)（上）
2018-09-06
Python爬蟲Cookie
python爬蟲如何用session保持登入?
2021-09-11
Python爬蟲Session
Python爬蟲入門教程 4-100 美空網未登入圖片爬取
2018-12-17
Python爬蟲
Python 爬蟲模擬登入方法彙總
2018-10-29
Python爬蟲
快速爬取登入網站資料
2020-11-20
網站
用python寫一個豆瓣短評通用爬蟲(登入、爬取、視覺化)
2020-10-24
Python爬蟲視覺化
如何用Python爬取需要登入的網站？
2018-08-23
Python網站
抖音 App 登入分析，Cookie 獲取
2020-04-13
APPCookie
playwright自動登入獲取cookie/ck
2024-10-11
Cookie
爬取githubs——登入後的東西（兩種方法）
2018-11-10
Github
Python爬蟲實戰之（五）| 模擬登入wechat
2018-04-10
Python爬蟲
【網頁登入】QQ 登入、微信登入、微博登入、GitHub 登入
2019-10-29
網頁Github
GitHub 熱門：各大網站的 Python 爬蟲登入彙總
2019-03-18
Github網站Python爬蟲
Python爬蟲實戰之（四）| 模擬登入京東商城
2018-04-11
Python爬蟲
登入驗證判斷，獲取後臺資料
2019-06-30
爬蟲模擬登入破解無原圖滑動驗證碼
2019-06-19
爬蟲
掃碼登入是這樣登入的
2021-09-07
登入介面：從資料庫中獲取資訊驗證登入（與註冊介面相聯絡）
2019-08-05
資料庫
獲取 CPU資訊，並透過登錄檔寫入
2024-07-29
企業微信登入獲取使用者資訊
2021-03-11
Golang 爬蟲快速入門 | 獲取 B 站全站的視訊資料
2020-04-14
Golang爬蟲
python 爬蟲網頁登陸
2020-11-30
Python爬蟲網頁
Python爬蟲入門【5】：27270圖片爬取
2019-07-30
Python爬蟲
[API 寫法] QQ 登入、微信登入、Facebook、google、蘋果登入
2020-02-06
APIGo蘋果
uniapp 完成兩種方式登入驗證碼登入密碼登入
2024-06-18
APP密碼
爬蟲之普通的模擬登陸
2018-08-24
爬蟲
App 第三方登入獲取使用者資訊支付寶登入後端程式碼參考
2019-06-20
APP後端
Spring Security - 獲取當前登入使用者的詳細資訊
2018-12-13
Spring
vnc登入工具，好用的vnc登入工具，具體登入vnc客戶端使用教程
2020-06-17
VNC客戶端

為爬蟲獲取登入cookies：登入的恩恩怨怨

1. 爬蟲登入的三種層次

2. 爬蟲登入分析的三類工具

相關文章