Python爬蟲之模擬知乎登入

劉志軍發表於2017-03-30

原文網址 : https://juejin.im/post/58dce2248d6d8100613a4cfb

經常寫爬蟲的都知道，有些頁面在登入之前是被禁止抓取的，比如知乎的話題頁面就要求使用者登入才能訪問，而 “登入” 離不開 HTTP 中的 Cookie 技術。

登入原理

Cookie 的原理非常簡單，因為 HTTP 是一種無狀態的協議，因此為了在無狀態的 HTTP 協議之上維護會話（session）狀態，讓伺服器知道當前是和哪個客戶在打交道，Cookie 技術出現了，Cookie 相當於是服務端分配給客戶端的一個標識。

瀏覽器第一次發起 HTTP 請求時，沒有攜帶任何 Cookie 資訊
伺服器把 HTTP 響應，同時還有一個 Cookie 資訊，一起返回給瀏覽器
瀏覽器第二次請求就把伺服器返回的 Cookie 資訊一起傳送給伺服器
伺服器收到HTTP請求，發現請求頭中有Cookie欄位，便知道之前就和這個使用者打過交道了。

實戰應用

用過知乎的都知道，只要提供使用者名稱和密碼以及驗證碼之後即可登入。當然，這只是我們眼中看到的現象。而背後隱藏的技術細節就需要藉助瀏覽器來挖掘了。現在我們就用 Chrome 來檢視當我們填完表單後，究竟發生了什麼？

（如果已經登入的，先退出）首先進入知乎的登入頁面 www.zhihu.com/#signin ，開啟 Chrome 的開發者工具條（按 F12）先嚐試輸入一個錯誤的驗證碼觀察瀏覽器是如何傳送請求的。

從瀏覽器的請求可以發現幾個關鍵的資訊

登入的 URL 地址是 www.zhihu.com/login/email
登入需要提供的表單資料有4個：使用者名稱（email）、密碼（password）、驗證碼（captcha）、_xsrf。
獲取驗證碼的URL地址是 www.zhihu.com/captcha.gif…

_xsrf 是什麼？如果你對CSRF（跨站請求偽造）攻擊非常熟悉的話，那麼你一定知道它的作用，xsrf是一串偽隨機數，它是用於防止跨站請求偽造的。它一般存在網頁的 form 表單標籤中，為了證實這一點，可以在頁面上搜尋 “xsrf”，果然，_xsrf在一個隱藏的 input 標籤中

摸清了瀏覽器登入時所需要的資料是如何獲取之後，那麼現在就可以開始寫程式碼用 Python 模擬瀏覽器來登入了。登入時所依賴的兩個第三方庫是 requests 和 BeautifulSoup，先安裝

pip install beautifulsoup4==4.5.3
pip install requests==2.13.0複製程式碼

http.cookiejar 模組可用於自動處理HTTP Cookie，LWPCookieJar 物件就是對 cookies 的封裝，它支援把 cookies 儲存到檔案以及從檔案中載入。

而 session 物件提供了 Cookie 的持久化，連線池功能，可以通過 session 物件傳送請求

首先從cookies.txt 檔案中載入 cookie資訊，因為首次執行還沒有cookie，所有會出現 LoadError 異常。

from http import cookiejar
session = requests.session()
session.cookies = cookiejar.LWPCookieJar(filename='cookies.txt')
try:
    session.cookies.load(ignore_discard=True)
except LoadError:
    print("load cookies failed")複製程式碼

獲取 xsrf

前面已經找到了 xsrf 所在的標籤，，利用 BeatifulSoup 的 find 方法可以非常便捷的獲取該值

def get_xsrf():
    response = session.get("https://www.zhihu.com", headers=headers)
    soup = BeautifulSoup(response.content, "html.parser")
    xsrf = soup.find('input', attrs={"name": "_xsrf"}).get("value")
    return xsrf複製程式碼

獲取驗證碼

驗證碼是通過 /captcha.gif 介面返回的，這裡我們把驗證碼圖片下載儲存到當前目錄，由人工識別，當然你可以用第三方支援庫來自動識別，比如 pytesser。

def get_captcha():
    """
    把驗證碼圖片儲存到當前目錄，手動識別驗證碼
    :return:
    """
    t = str(int(time.time() * 1000))
    captcha_url = 'https://www.zhihu.com/captcha.gif?r=' + t + "&type=login"
    r = session.get(captcha_url, headers=headers)
    with open('captcha.jpg', 'wb') as f:
        f.write(r.content)
    captcha = input("驗證碼：")
    return captcha複製程式碼

def login(email, password):
    login_url = 'https://www.zhihu.com/login/email'
    data = {
        'email': email,
        'password': password,
        '_xsrf': get_xsrf(),
        "captcha": get_captcha(),
        'remember_me': 'true'}
    response = session.post(login_url, data=data, headers=headers)
    login_code = response.json()
    print(login_code['msg'])
    for i in session.cookies:
        print(i)
    session.cookies.save()複製程式碼

請求成功後，session 會自動把服務端的返回的cookie 資訊填充到 session.cookies 物件中，下次請求時，客戶端就可以自動攜帶這些cookie去訪問那些需要登入的頁面了。

原始碼：github.com/lzjun567/cr…

參考資料：

關於 HTTP 協議的簡單介紹，推薦公眾號「Python之禪」中寫的一篇文章一次完整的HTTP請求過程
docs.python.org/3/library/h…
docs.python-requests.org/en/master/u…

Python爬蟲實戰之（五）| 模擬登入wechat
2018-04-10
Python爬蟲
Python 爬蟲模擬登入方法彙總
2018-10-29
Python爬蟲
Python爬蟲實戰之（四）| 模擬登入京東商城
2018-04-11
Python爬蟲
爬蟲之普通的模擬登陸
2018-08-24
爬蟲
2019年最新 Python 模擬登入知乎支援驗證碼
2019-02-28
Python
爬蟲模擬登入—OAUTH的詳解
2018-05-10
爬蟲OAuth
python爬蟲如何爬知乎的話題？
2019-02-16
Python爬蟲
python爬蟲專案（新手教程）之知乎（requests方式）
2018-06-13
Python爬蟲
爬蟲實戰（二）：Selenium 模擬登入並爬取資訊
2018-07-15
爬蟲
Python爬蟲新手教程：知乎文章圖片爬取器
2019-07-20
Python爬蟲
為爬蟲獲取登入cookies：使用Charles和requests模擬微博登入
2018-12-03
爬蟲Cookie
新手爬蟲教程：Python爬取知乎文章中的圖片
2019-01-17
爬蟲Python
分散式爬蟲之知乎使用者資訊爬取
2018-08-31
分散式爬蟲
用不同的庫實現模擬登陸知乎！
2020-10-22
爬蟲模擬登入破解無原圖滑動驗證碼
2019-06-19
爬蟲
Python-模擬登入
2018-11-30
Python
Python爬蟲抓取知乎所有使用者資訊
2018-03-14
Python爬蟲
python爬蟲如何用session保持登入?
2021-09-11
Python爬蟲Session
利用Python模擬GitHub登入
2019-07-14
PythonGithub
python爬蟲之 BeautifulSoup庫入門
2019-12-09
Python爬蟲
Python 爬蟲 + 人臉檢測 —— 知乎高顏值圖片抓取
2020-12-21
Python爬蟲
模擬登入之web監控
2024-06-11
Web
Python網路爬蟲實戰：爬取知乎話題下 18934 條回答資料
2019-01-17
Python爬蟲
Python爬蟲入門【4】：美空網未登入圖片爬取
2019-07-30
Python爬蟲
python入門之爬蟲工具有哪些？
2021-09-11
Python爬蟲
python爬蟲requests模組
2019-03-01
Python爬蟲
python 爬蟲網頁登陸
2020-11-30
Python爬蟲網頁
分散式爬蟲很難嗎？用Python寫一個小白也能聽懂的分散式知乎爬蟲
2018-05-04
分散式爬蟲Python
Python爬蟲入門
2020-11-30
Python爬蟲
Python爬蟲教程-13-爬蟲使用cookie爬取登入後的頁面(人人網)（下）
2018-09-06
Python爬蟲Cookie
Python爬蟲教程-12-爬蟲使用cookie爬取登入後的頁面(人人網)（上）
2018-09-06
Python爬蟲Cookie
爬蟲方式（模擬使用者）
2024-05-23
爬蟲
Python分散式爬蟲(三) - 爬蟲基礎知識
2019-03-21
Python分散式爬蟲
Python爬蟲之路-爬蟲基礎知識(理論)
2021-01-04
Python爬蟲
Python爬蟲之BeautifulSoup
2019-02-16
Python爬蟲
python爬蟲十三：selenium模擬瀏覽器+chrome+windows
2018-05-31
Python爬蟲瀏覽器ChromeWindows
Python爬蟲進階之JS逆向入門
2019-05-29
Python爬蟲JS
什麼是Python爬蟲？python爬蟲入門難嗎？
2021-12-27
Python爬蟲
【爬蟲】python爬蟲從入門到放棄
2018-12-20
爬蟲Python

Python爬蟲之模擬知乎登入

登入原理

實戰應用

獲取 xsrf

獲取驗證碼

登入

相關文章