Python爬蟲之路-chrome在爬蟲中的使用

Jiayu920716發表於2021-01-04

原文網址 : https://blog.csdn.net/Yuyu920716/article/details/112167389

Python爬蟲Chrome

chrome瀏覽器使用方法介紹

學習目標

瞭解新建隱身視窗的目的
瞭解 chrome中network的使用
瞭解尋找登入介面的方法

1 新建隱身視窗

瀏覽器中直接開啟網站，會自動帶上之前網站時儲存的cookie，但是在爬蟲中首次獲取頁面是沒有攜帶cookie的，這種情況如何解決呢？

使用隱身視窗，首次開啟網站，不會帶上cookie，能夠觀察頁面的獲取情況，包括對方伺服器如何設定cookie在本地

在這裡插入圖片描述

2 chrome中network的更多功能

在這裡插入圖片描述

2.1 Perserve log

預設情況下，頁面發生跳轉之後，之前的請求url地址等資訊都會消失，勾選perserve log後之前的請求都會被保留
在這裡插入圖片描述

2.2 filter過濾

在url地址很多的時候，可以在filter中輸入部分url地址，對所有的url地址起到一定的過濾效果，具體位置在上面第二幅圖中的2的位置

2.3 觀察特定種類的請求

在上面第二幅圖中的3的位置，有很多選項，預設是選擇的all，即會觀察到所有種類的請求

很多時候處於自己的目的可以選擇all右邊的其他選項，比如常見的選項：

XHR:大部分情況表示ajax請求
JS:js請求
CSS:css請求

但是很多時候我們並不能保證我們需要的請求是什麼型別，特別是我們不清楚一個請求是否為ajax請求的時候，直接選擇all,從前往後觀察即可，其中js，css，圖片等不去觀察即可

不要被瀏覽器中的一堆請求嚇到了，這些請求中除了js，css，圖片的請求外，其他的請求並沒有多少個

3 尋找登入介面

回顧之前人人網的爬蟲我們找到了一個登陸介面，那麼這個介面從哪裡找到的呢？

http://www.renren.com

3.1 尋找action對的url地址

在這裡插入圖片描述

可以發現，這個地址就是在登入的form表單中action對應的url地址，回顧前端的知識點，可以發現就是進行表單提交的地址，對應的，提交的資料，僅僅需要：使用者名稱的input標籤中，name的值作為鍵，使用者名稱作為值，密碼的input標籤中，name的值作為鍵，密碼作為值即可

思考：

如果action對應的沒有url地址的時候可以怎麼做？

3.2 通過抓包尋找登入的url地址

在這裡插入圖片描述

通過抓包可以發現，在這個url地址和請求體中均有引數，比如uniqueTimestamp和rkey以及加密之後的password

這個時候我們可以觀察手機版的登入介面，是否也是一樣的

在這裡插入圖片描述

小結

使用隱身視窗的主要目的是為了避免首次開啟網站攜帶cookie的問題
chrome的network中，perserve log選項能夠在頁面發生跳轉之後任然能夠觀察之前的請求
確定登入的地址有兩種方法：
- 尋找from表單action的url地址
- 通過抓包獲取

Python爬蟲之路-selenium在爬蟲中的使用
2021-01-04
Python爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
python爬蟲實戰，爬蟲之路，永無止境
2022-01-27
Python爬蟲
Python爬蟲之路-爬蟲基礎知識(理論)
2021-01-04
Python爬蟲
Python爬蟲之路-JS的解析
2021-01-04
Python爬蟲JS
python 代理在爬蟲中的作用
2020-10-18
Python爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
Python爬蟲之路-jsonpath模組
2021-01-04
Python爬蟲JSON
Python爬蟲之路-lxml模組
2021-01-04
Python爬蟲XML
Java爬蟲與Python爬蟲的區別？
2023-10-25
Java爬蟲Python
python網路爬蟲（14）使用Scrapy搭建爬蟲框架
2019-07-27
Python爬蟲框架
python就是爬蟲嗎-python就是爬蟲嗎
2020-10-29
Python爬蟲
python 爬蟲
2024-04-20
Python爬蟲
python爬蟲
2024-06-13
Python爬蟲
Python爬蟲（1.爬蟲的基本概念）
2018-04-20
Python爬蟲
爬蟲（6） - 網頁資料解析(2) | BeautifulSoup4在爬蟲中的使用
2022-07-04
爬蟲網頁
Python爬蟲之Pyspider使用
2021-09-11
Python爬蟲IDE
Python爬蟲教程-01-爬蟲介紹
2018-09-06
Python爬蟲
python爬蟲初探--第一個python爬蟲專案
2018-05-18
Python爬蟲
Python爬蟲的用途
2018-08-16
Python爬蟲
Python爬蟲入門教程 50-100 Python3爬蟲爬取VIP視訊-Python爬蟲6操作
2019-02-14
Python爬蟲
Python爬蟲教程-28-Selenium 操縱 Chrome
2018-09-06
Python爬蟲Chrome
不踩坑的Python爬蟲：Python爬蟲開發與專案實戰，從爬蟲入門 Python
2021-12-17
Python爬蟲
python網路爬蟲_Python爬蟲：30個小時搞定Python網路爬蟲視訊教程
2020-10-21
Python爬蟲
python爬蟲2
2019-01-07
Python爬蟲
Python爬蟲-xpath
2018-06-08
Python爬蟲
Python爬蟲——XPath
2018-07-28
Python爬蟲
Python爬蟲--2
2024-03-24
Python爬蟲
Python asyncio 爬蟲
2020-04-28
Python爬蟲
Python 爬蟲系列
2021-01-01
Python爬蟲
爬蟲：多程式爬蟲
2021-05-19
爬蟲
【爬蟲】python爬蟲從入門到放棄
2018-12-20
爬蟲Python
【python--爬蟲】彼岸圖網高清桌布爬蟲
2019-07-21
Python爬蟲
什麼是爬蟲？Python爬蟲框架有哪些？
2022-04-18
爬蟲Python框架
Python爬蟲與Java爬蟲有何區別？
2022-06-01
Python爬蟲Java
Python爬蟲神器requests庫的使用
2024-11-07
Python爬蟲
2個月精通Python爬蟲——3大爬蟲框架+6場實戰+反爬蟲技巧+分散式爬蟲
2018-06-28
Python爬蟲框架分散式
IPIDEA乾貨|Java爬蟲與Python爬蟲的區別
2023-05-08
IdeaJava爬蟲Python

Python爬蟲之路-chrome在爬蟲中的使用

chrome瀏覽器使用方法介紹

學習目標

1 新建隱身視窗

2 chrome中network的更多功能

2.1 Perserve log

2.2 filter過濾

2.3 觀察特定種類的請求

3 尋找登入介面

3.1 尋找action對的url地址

思考：

3.2 通過抓包尋找登入的url地址

小結

相關文章