網路爬蟲小偏方：修改referer繞開登入和訪問頻率限制

王平發表於2018-12-07

原文網址 : https://www.yuanrenxue.com/crawler/crawler-tricks-2.html

爬蟲

小猿看官們在寫爬蟲程式時應該都會遇到如下問題：

你的爬蟲程式開發時能正常抓取網頁，但是正式大量抓取時，抓取的網站總是返回403或者500等；
你抓取的網站需要登入，要花大量時間去研究網站登入流程。

遇到問題1，我們的第一反應是達到對方訪問頻率限制，IP被對方遮蔽了，然後就找更多IP和降低訪問頻率。
遇到問題2，就硬著頭皮研究對方加密方法，或人肉登入後用機器把cookie儲存下來，耗去好幾天時間。

修改referer繞開訪問控制

除了上述直接攻克的方法，還有一種取巧的方法可以繞過上述兩個問題，就是修改http header中的referer來達到。注意這裡是修改referer，不是修改user-agent。

老猿在網路爬蟲的原理和爬蟲分析利器：谷歌chrome瀏覽器中已經介紹過http header和怎麼使用chrome瀏覽器檢視header資訊了，還不太瞭解的小猿看官可以再去複習一下這部分知識，這裡就只著簡單科普一下referer是啥。

referer是告訴目標伺服器(訪問的網站)，你是從哪兒點選進入當前頁面的。
比如你在百度搜尋猿人學，然後點選進入猿人學網站，這個時候通過抓包工具可以觀察到，referer是類似如下樣式：

就是告訴猿人學網站，你是從百度點選進入猿人學網站的。

囉嗦了一大堆，不好意思啊，回到正題。

當你遇到上訴兩個問題時，你可以嘗試把referer改成上述截圖裡的，是從搜尋引擎點選進入的，你會發現有的網站，不會遮蔽從搜尋引擎來的IP或者給這些IP的訪問頻率放得較為寬鬆。甚至有的網站內容本來是要登陸才能看見，但是你把referer改成是從百度來的，你會發現居然不用登入也能看見了。

其實一句話就能說完，寫了這麼一大篇，額。。。

這些網站為什麼會厚此薄彼呢？
是有些網站想獲取SEO流量，就把從搜尋引擎點選進入的訪問控制放得較為寬鬆的原因。所以當你遇到如上兩個問題時，先改一改referer試試，這樣可以節省你不少的研究時間。這適用於有的爬蟲是個臨時任務或者一次性的爬蟲，不用長期維護，你快速寫好抓完資料就好的時候適用。這個不是每個網站都有這樣的待遇，在下遇到的有此情況的網站有某職業社交網站，某工商資訊查詢網站，某娛樂票務網站，就醬，只能說這麼多。。。

ps:本篇不是把user-agent改成 Baiduspider ,讓對方網站誤認為是百度蜘蛛的做法。搜尋引擎蜘蛛的IP範圍，通過網站nginx日誌是可以蒐集完的，用點功夫的網站維護人員是知道這個IP是否為正規的搜尋引擎蜘蛛。

你要問俺是如何發現的？
老猿俺除了寫寫爬蟲，還會寫寫網站，順帶做做網站運營工作，就會經常看nginx日誌，有天看日誌時腦洞開了一下子。。。

我的公眾號：猿人學 Python 上會分享更多心得體會，敬請關注。

***版權申明:若沒有特殊說明，文章皆是猿人學 yuanrenxue.com 原創，沒有猿人學授權，請勿以任何形式轉載。***

網路爬蟲小偏方：突破登入和訪問頻率限制，多研究對方不同終端產品
2018-12-06
爬蟲
網路爬蟲小偏方：robots.txt快速抓取網站的小竅門
2019-01-03
爬蟲網站
爬蟲爬取資料如何繞開限制？
2022-06-10
爬蟲
laravel 簡單限制搜尋引擎爬蟲頻率
2022-05-27
Laravel爬蟲
Lumen 使用 throttle 限制介面訪問頻率
2019-01-18
第 14 篇：限制介面的訪問頻率
2020-07-31
如何防止網路爬蟲被限制？
2022-05-17
爬蟲
python網路爬蟲_Python爬蟲：30個小時搞定Python網路爬蟲視訊教程
2020-10-21
Python爬蟲
訪問統計（排除爬蟲訪問）
2020-12-18
爬蟲
華納雲：Android訪問限制怎麼修改和管理
2024-01-30
Android
用PYTHON爬蟲簡單爬取網路小說
2021-09-11
Python爬蟲
網路爬蟲
2018-12-07
爬蟲
python3網路爬蟲開發實戰_Python 3開發網路爬蟲(一)
2020-12-07
Python爬蟲
Python網路爬蟲4 - scrapy入門
2018-05-29
Python爬蟲
Python爬蟲入門【4】：美空網未登入圖片爬取
2019-07-30
Python爬蟲
網路爬蟲——爬蟲實戰（一）
2022-01-29
爬蟲
網路爬蟲開發常用框架
2019-02-27
爬蟲框架
C#網路爬蟲開發
2023-02-12
C#爬蟲
Python網路爬蟲實戰小專案
2021-04-12
Python爬蟲
DRF之許可權和頻率限制
2021-07-11
網路爬蟲之使用pyppeteer替代selenium完美繞過webdriver檢測
2019-06-08
爬蟲Web
爬蟲，可用於增加訪問量和抓取網站全頁內容
2018-09-08
爬蟲網站
python 爬蟲網頁登陸
2020-11-30
Python爬蟲網頁
網路爬蟲編寫常見問題
2020-07-30
爬蟲
網路爬蟲示例
2018-10-30
爬蟲
網路爬蟲精要
2019-04-27
爬蟲
Python爬蟲教程-13-爬蟲使用cookie爬取登入後的頁面(人人網)（下）
2018-09-06
Python爬蟲Cookie
Python爬蟲教程-12-爬蟲使用cookie爬取登入後的頁面(人人網)（上）
2018-09-06
Python爬蟲Cookie
《Python3網路爬蟲開發實戰》教程||爬蟲教程
2018-11-13
Python爬蟲
jenkins 修改訪問路徑
2024-08-18
Jenkins
python網路爬蟲應用_python網路爬蟲應用實戰
2020-12-29
Python爬蟲
為爬蟲獲取登入cookies：使用Charles和requests模擬微博登入
2018-12-03
爬蟲Cookie
我的爬蟲入門書 —— 《Python3網路爬蟲開發實戰（第二版）》
2022-02-27
爬蟲Python
.NET使用分散式網路爬蟲框架DotnetSpider快速開發爬蟲功能
2023-12-08
分散式爬蟲框架IDE
[Python3網路爬蟲開發實戰] 分散式爬蟲原理
2019-12-08
Python爬蟲分散式
Python網路爬蟲實戰(一)快速入門
2019-09-16
Python爬蟲
網路爬蟲的原理
2018-12-02
爬蟲
python DHT網路爬蟲
2019-02-14
Python爬蟲

網路爬蟲小偏方：修改referer繞開登入和訪問頻率限制

相關文章