Python爬蟲之路-chrome在爬蟲中的使用

Jiayu920716發表於2021-01-04

chrome瀏覽器使用方法介紹

學習目標
  1. 瞭解 新建隱身視窗的目的
  2. 瞭解 chrome中network的使用
  3. 瞭解 尋找登入介面的方法

1 新建隱身視窗

瀏覽器中直接開啟網站,會自動帶上之前網站時儲存的cookie,但是在爬蟲中首次獲取頁面是沒有攜帶cookie的,這種情況如何解決呢?

使用隱身視窗,首次開啟網站,不會帶上cookie,能夠觀察頁面的獲取情況,包括對方伺服器如何設定cookie在本地

在這裡插入圖片描述

2 chrome中network的更多功能

在這裡插入圖片描述

2.1 Perserve log

預設情況下,頁面發生跳轉之後,之前的請求url地址等資訊都會消失,勾選perserve log後之前的請求都會被保留
在這裡插入圖片描述

2.2 filter過濾

在url地址很多的時候,可以在filter中輸入部分url地址,對所有的url地址起到一定的過濾效果,具體位置在上面第二幅圖中的2的位置

2.3 觀察特定種類的請求

在上面第二幅圖中的3的位置,有很多選項,預設是選擇的all,即會觀察到所有種類的請求

很多時候處於自己的目的可以選擇all右邊的其他選項,比如常見的選項:

  • XHR:大部分情況表示ajax請求
  • JS:js請求
  • CSS:css請求

但是很多時候我們並不能保證我們需要的請求是什麼型別,特別是我們不清楚一個請求是否為ajax請求的時候,直接選擇all,從前往後觀察即可,其中js,css,圖片等不去觀察即可

不要被瀏覽器中的一堆請求嚇到了,這些請求中除了js,css,圖片的請求外,其他的請求並沒有多少個

3 尋找登入介面

回顧之前人人網的爬蟲我們找到了一個登陸介面,那麼這個介面從哪裡找到的呢?

http://www.renren.com

3.1 尋找action對的url地址

在這裡插入圖片描述

可以發現,這個地址就是在登入的form表單中action對應的url地址,回顧前端的知識點,可以發現就是進行表單提交的地址,對應的,提交的資料,僅僅需要:使用者名稱的input標籤中,name的值作為鍵,使用者名稱作為值,密碼的input標籤中,name的值作為鍵,密碼作為值即可

思考:

如果action對應的沒有url地址的時候可以怎麼做?

3.2 通過抓包尋找登入的url地址

在這裡插入圖片描述

通過抓包可以發現,在這個url地址和請求體中均有引數,比如uniqueTimestamprkey以及加密之後的password

這個時候我們可以觀察手機版的登入介面,是否也是一樣的

在這裡插入圖片描述


小結

  1. 使用隱身視窗的主要目的是為了避免首次開啟網站攜帶cookie的問題
  2. chrome的network中,perserve log選項能夠在頁面發生跳轉之後任然能夠觀察之前的請求
  3. 確定登入的地址有兩種方法:
    • 尋找from表單action的url地址
    • 通過抓包獲取

相關文章