Python 爬蟲模擬登入方法彙總

蘇克1900發表於2018-10-29

摘要: 在進行爬蟲時,除了常見的不用登入就能爬取的網站,還有一類需要先登入的網站。比如豆瓣、知乎,以及上一篇文章中的桔子網。這一類網站又可以分為:只需輸入帳號密碼、除了帳號密碼還需輸入或點選驗證碼等型別。本文以只需輸入賬號密碼就能登入的桔子網為例,介紹模擬登入常用的 3 種方法。

  • POST 請求方法:需要在後臺獲取登入的 URL並填寫請求體引數,然後 POST 請求登入,相對麻煩;
  • 新增 Cookies 方法:先登入將獲取到的 Cookies 加入 Headers 中,最後用 GET 方法請求登入,這種最為方便;
  • Selenium 模擬登入:代替手工操作,自動完成賬號和密碼的輸入,簡單但速度比較慢。

下面,我們用程式碼分別實現上述 3 種方法。

1. 目標網頁

這是我們要獲取內容的網頁:

radar.itjuzi.com/investevent

Python 爬蟲模擬登入方法彙總

這個網頁需要先登入才能看到資料資訊,登入介面如下:

Python 爬蟲模擬登入方法彙總

可以看到,只需要輸入賬號和密碼就可以登入,不用輸驗證碼,比較簡單。下面我們利用一個測試賬號和密碼,來實現模擬登入。

2. POST 提交請求登入

首先,我們要找到 POST 請求的 URL。

有兩種方法,第一種是在網頁 devtools 檢視請求,第二種是在 Fiddler 軟體中檢視。

先說第一種方法。

Python 爬蟲模擬登入方法彙總

在登入介面輸入賬號密碼,並開啟開發者工具,清空所有請求,接著點選登入按鈕,這時便會看到有大量請求產生。哪一個才是 POST 請求的 URL呢?這個需要一點經驗,因為是登入,所以可以嘗試點選帶有 「login」字眼的請求。這裡我們點選第四個請求,在右側 Headers 中可以看到請求的 URL,請求方式是 POST型別,說明 URL 找對了。

Python 爬蟲模擬登入方法彙總

接著,我們下拉到 Form Data,這裡有幾個引數,包括 identify 和 password,這兩個引數正是我們登入時需要輸入的賬號和密碼,也就是 POST 請求需要攜帶的引數。

Python 爬蟲模擬登入方法彙總

引數構造非常簡單,接下來只需要利用 Requests.post 方法請求登入網站,然後就可以爬取內容了。

下面,我們嘗試用 Fiddler 獲取 POST 請求。

如果你對 Fiddler 還不太熟悉或者沒有電腦上沒有安裝,可以先了解和安裝一下。

Fiddler 是位於客戶端和伺服器端的 HTTP 代理,也是目前最常用的 HTTP 抓包工具之一 。 它能夠記錄客戶端和伺服器之間的所有 HTTP 請求,可以針對特定的 HTTP 請求,分析請求資料、設定斷點、除錯 web 應用、修改請求的資料,甚至可以修改伺服器返回的資料,功能非常強大,是 web 除錯的利器。

Fiddler 下載地址:

www.telerik.com/download/fi…

使用教程:

zhuanlan.zhihu.com/p/37374178

www.hangge.com/blog/cache/…

下面,我們就通過 Fiddler 擷取登入請求。

當點選登入時,官場 Fiddler 頁面,左側可以看到抓取了大量請求。通過觀察,第15個請求的 URL中含有「login」欄位,很有可能是登入的 POST 請求。我們點選該請求,回到右側,分別點選「inspectors」、「Headers」,可以看到就是 POST 請求,該 URL 和上面的方法獲取的 URL 是一致的。

Python 爬蟲模擬登入方法彙總

接著,切換到右側的 Webforms 選項,可以看到 Body 請求體。也和上面方法中得到的一致。

Python 爬蟲模擬登入方法彙總

獲取到 URL 和請求體引數之後,下面就可以開始用 Requests.post 方法模擬登入了。

程式碼如下:

import requests
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36',
    }
data = {
    'identity':'irw27812@awsoo.com',   
    'password':'test2018',
}
url ='https://www.itjuzi.com/user/login?redirect=&flag=&radar_coupon='
session = requests.Session()
session.post(url,headers = headers,data = data)
# 登入後,我們需要獲取另一個網頁中的內容
response = session.get('http://radar.itjuzi.com/investevent',headers = headers)
print(response.status_code)
print(response.text)
複製程式碼

使用 session.post 方法提交登入請求,然後用 session.get 方法請求目標網頁,並輸出 HTML程式碼。可以看到,成功獲取到了網頁內容。

Python 爬蟲模擬登入方法彙總

下面,介紹第 2 種方法。

3. 獲取 Cookies,直接請求登入

上面一種方法,我們需要去後臺獲取 POST 請求連結和引數,比較麻煩。下面,我們可以嘗試先登入,獲取 Cookie,然後將該 Cookie 新增到 Headers 中去,然後用 GET 方法請求即可,過程簡單很多。

程式碼如下:

import requests
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36',
    'Cookie': '你的cookie',
}
url = 'https://www.itjuzi.com/user/login?redirect=&flag=&radar_coupon='
session = requests.Session()
response = session.get('http://radar.itjuzi.com/investevent', headers=headers)

print(response.status_code)
print(response.text)
複製程式碼

可以看到,新增了 Cookie 後就不用再 POST 請求了,直接 GET 請求目標網頁即可。可以看到,也能成功獲取到網頁內容。

Python 爬蟲模擬登入方法彙總

下面介紹第 3 種方法。

4. Selenium 模擬登入

這個方法很直接,利用 Selenium 代替手動方法去自動輸入賬號密碼然後登入就行了。

關於 Selenium 的使用,在之前的一篇文章中有詳細介紹,如果你不熟悉可以回顧一下:

www.makcyun.top/web_scrapin…

程式碼如下:

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
browser = webdriver.Chrome()
browser.maximize_window()  # 最大化視窗
wait = WebDriverWait(browser, 10) # 等待載入10s

def login():
    browser.get('https://www.itjuzi.com/user/login')
    input = wait.until(EC.presence_of_element_located(
        (By.XPATH, '//*[@id="create_account_email"]')))
    input.send_keys('irw27812@awsoo.com')
    input = wait.until(EC.presence_of_element_located(
        (By.XPATH, '//*[@id="create_account_password"]')))
    input.send_keys('test2018')
    submit = wait.until(EC.element_to_be_clickable(
        (By.XPATH, '//*[@id="login_btn"]')))
    submit.click() # 點選登入按鈕
    get_page_index()

def get_page_index():
    browser.get('http://radar.itjuzi.com/investevent')
    try:
        print(browser.page_source)  # 輸出網頁原始碼
    except Exception as e:
        print(str(e))
login()

複製程式碼

這裡,我們在網頁中首先定位了賬號節點位置:'//*[@id="create_account_email"]',然後用 input.send_keys 方法輸入賬號,同理,定位了密碼框位置並輸入了密碼。接著定位 登入 按鈕的位置://*[@id="login_btn"],然後用 submit.click() 方法實現點選登入按鈕操作,從而完成登入。可以看到,也能成功獲取到網頁內容。

Python 爬蟲模擬登入方法彙總

以上就是模擬需登入網站的幾種方法。當登入進去後,就可以開始爬取所需內容了。

5. 總結:

  • 本文分別實現了模擬登入的 3 種操作方法,建議優先選擇第 2 種,即先獲取 Cookies 再 Get 請求直接登入的方法。
  • 本文模擬登入的網站,僅需輸入賬號密碼,不需要獲取相關加密引數,比如 Authenticity_token ,同時也無需輸入驗證碼,所以方法比較簡單。但是還有很多網站模擬登入時,需要處理加密引數、驗證碼輸入等問題。後續將會介紹。

推薦閱讀:

本文完。

Python 爬蟲模擬登入方法彙總

歡迎長按識別關注我的公眾號

相關文章