對於反爬蟲偽裝瀏覽器進行爬蟲

Tynam.Yang發表於2018-04-12

原文網址 : https://www.cnblogs.com/tynam/p/8809222.html

對於爬蟲中部分網站設定了請求次數過多後會封殺ip，現在模擬瀏覽器進行爬蟲，也就是說讓伺服器認識到訪問他的是真正的瀏覽器而不是機器操作

簡單的直接新增請求頭，將瀏覽器的資訊在請求資料時傳入：

開啟瀏覽器--開啟開發者模式--請求任意網站

如下圖：找到請求的的名字，開啟後檢視headers欄，找到User-Agent，複製。然後新增到請求頭中

程式碼如下：

1 import requests
2 
3 url = 'https://www.baidu.com'
4 headers ={
5         'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) '
6                      'Chrome/65.0.3325.181 Safari/537.36'
7         }
8 rq = requests.get(url=url, headers=headers)
9 print(rq.text)

更深的偽裝瀏覽器，新增多個瀏覽器資訊，每次請求的時候隨機傳送瀏覽器資訊，讓伺服器瞭解不是一個瀏覽器一直在訪問，（可以百度查詢user-agent）

程式碼如下：

 1 import requests
 2 import random
 3 
 4 url = 'https://www.baidu.com'
 5 headers_lists =(
 6         'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) '
 7                      'Chrome/65.0.3325.181 Safari/537.36',
 8         'Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1;Maxthon2.0',
 9         'Opera/9.80(Android2.3.4;Linux;Operamobi/adr-1107051709;U;zh-cn)Presto/2.8.149Version/11.10',
10         'Mozilla/5.0(WindowsNT6.1;rv:2.0.1)Gecko/20100101Firefox/4.0.1',
11         'Mozilla/5.0(Android;Linuxarmv7l;rv:5.0)Gecko/Firefox/5.0fennec/5.0',)
12 
13 rq = requests.get(url=url,headers={'User-Agent':random.choice(headers_lists)})
14 print(rq.text)

完整的請求體解釋：

以下是筆者訪問百度的請求體。

Accept：瀏覽器端可以接受的媒體型別

Accept-Encoding：瀏覽器申明自己接收的編碼方法

Accept-Language：瀏覽器申明自己接收的語言

Connection: keep-alive 客戶端和伺服器之間還在連線中，如果關閉就是close

Host: 請求報頭域主要用於指定被請求資源的Internet主機和埠號

User-Agent：使用的作業系統和瀏覽器的名稱和版本

Cookie:是用來儲存一些使用者資訊以便讓伺服器辨別使用者身份的

反爬蟲之字型反爬蟲
2019-06-27
爬蟲
呼叫瀏覽器的爬蟲——selenium
2020-03-27
瀏覽器爬蟲
反爬蟲應對策略
2023-12-01
爬蟲
如何對爬蟲程式進行配置
2021-09-11
爬蟲
反爬蟲的應對措施
2022-05-16
爬蟲
如何應對反爬蟲措施？
2022-06-16
爬蟲
爬蟲與反爬蟲技術簡介
2022-09-20
爬蟲
爬蟲進階：反反爬蟲技巧
2018-06-28
爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
C#爬蟲與反爬蟲--字型加密篇
2019-06-26
C#爬蟲加密
你有自己寫過爬蟲的程式嗎？說說你對爬蟲和反爬蟲的理解？
2024-11-28
爬蟲
基於bs4+requests的python爬蟲偽裝
2018-07-20
Python爬蟲
2個月精通Python爬蟲——3大爬蟲框架+6場實戰+反爬蟲技巧+分散式爬蟲
2018-06-28
Python爬蟲框架分散式
python爬蟲十三：selenium模擬瀏覽器+chrome+windows
2018-05-31
Python爬蟲瀏覽器ChromeWindows
我去！爬蟲遇到字型反爬，哭了
2021-06-07
爬蟲
爬蟲：多程式爬蟲
2021-05-19
爬蟲
python爬蟲總是爬不到資料，你需要解決反爬蟲了
2020-06-26
Python爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
python多執行緒爬蟲與單執行緒爬蟲效率效率對比
2021-03-19
Python執行緒爬蟲
Python爬蟲 - 記一次字型反爬
2019-04-21
Python爬蟲
通用爬蟲與聚焦爬蟲
2023-04-18
爬蟲
爬蟲--Scrapy簡易爬蟲
2020-10-07
爬蟲
匯入Embassy庫進行爬蟲
2023-10-27
爬蟲
代理IP如何突破反爬蟲？
2021-09-11
爬蟲
python爬蟲之快速對js內容進行破解
2019-07-08
Python爬蟲JS
Python爬蟲教程-10-UserAgent和常見瀏覽器UA值
2018-09-06
Python爬蟲瀏覽器
python selenium爬蟲不開啟網頁不開啟瀏覽器
2020-11-15
Python爬蟲網頁瀏覽器
爬蟲偽裝正常使用者的三種方法
2022-05-27
爬蟲
天天聊爬蟲，今天我們來聊聊反爬
2018-12-19
爬蟲
防止爬蟲被反爬的幾個主要策略
2021-12-15
爬蟲
爬蟲與反爬：一場無休止之戰
2022-07-21
爬蟲
3 行寫爬蟲 - 使用 Goribot 快速構建 Golang 爬蟲
2019-10-13
爬蟲Golang
爬蟲
2024-11-16
爬蟲
如何讓爬蟲正確提取偽元素
2020-12-13
爬蟲
Windows下安裝配置爬蟲工具Scrapy及爬蟲環境
2018-09-19
Windows爬蟲
Web 端反爬蟲技術方案
2019-03-04
Web爬蟲
【爬蟲】爬蟲專案推薦 / 思路
2020-04-21
爬蟲
網路爬蟲——爬蟲實戰（一）
2022-01-29
爬蟲

對於反爬蟲偽裝瀏覽器進行爬蟲

相關文章