為什麼又被反扒了?盤點爬蟲選擇ip代理要注意的三件事爬蟲被封禁常見原因

wanduoduo77發表於2022-09-06

1. 首先,檢查 JavaScript 。如果你從網路伺服器收到的頁面是空白的,缺少資訊,或其遇到他不符合你預期的情況(或者不是你在瀏覽器上看到的內容),有可能是因為網站建立頁面的 JavaScript 執行有問題。

2. 檢查正常瀏覽器提交的引數。如果你準備向網站提交表單或發出 POST 請求,記得檢查一下頁面的內容,看看你想提交的每個欄位是不是都已經填好,而且格式也正確。用 Chrome 瀏覽器的網路皮膚(快捷鍵 F12 開啟開發者控制檯,然後點選“ Network ”即可看到)檢視傳送到網站的 POST 命令,確認你的每個引數都是正確的

3. 是否有合法的 Cookie ?如果你已經登入網站卻不能保持登入狀態,或者網站上出現了其他的“登入狀態”異常,請檢查你的 cookie 。確認在載入每個頁面時 cookie 都被正確呼叫,而且你的 cookie 在每次發起請求時都傳送到了網站上。

4.IP 被封禁?如果你在客戶端遇到了 HTTP 錯誤,尤其是 403 禁止訪問錯誤,這可能說明網站已經把你的 IP 當作機器人了,不再接受你的任何請求。你要麼等待你的 IP 地址從網站黑名單裡移除,要麼就換個 IP 地址(可以去星巴克上網)。如果你確定自己並沒有被封殺,那麼再檢查下面的內容。

 

確認你的爬蟲在網站上的速度不是特別快。快速採集是一種惡習,會對網管的伺服器造成沉重的負擔,還會讓你陷入違法境地,也是 IP 被網站列入黑名單的首要原因。給你的爬蟲增加延遲,讓它們在夜深人靜的時候執行。切記:匆匆忙忙寫程式或收集資料都是拙劣專案管理的表現;應該提前做好計劃,避免臨陣慌亂。

 

還有一件必須做的事情:修改你的請求頭!有些網站會封殺任何聲稱自己是爬蟲的訪問者。如果你不確定請求頭的值怎樣才算合適,就用你自己瀏覽器的請求頭吧。

 

Python 在網上完成網站的資訊採集時,常常出現無緣無故的ip被禁的情況,正爬取呢就沒法繼續了,造成日常業務也沒辦法正常進行了,整個人都不好了呢。一部分人完全不清楚被禁的原因,這麼簡單的就給禁掉了,究竟是哪個地方不對呢?

首先,和大家介紹下Python爬蟲的工作原理。Python爬蟲是根據一些規則,自動抓取網路資料的程式或指令碼,它能夠快捷的實現採集、整理任務,極大的省去時間成本。因為Python爬蟲的反覆採集,容易導致伺服器壓力過大,伺服器為了保障自身,必然會做一些限制,就是大家平時講的反爬蟲機制,用以防止爬蟲的持續抓取。

Python爬蟲被禁之後,勢必要查處緣由,利用研究反爬機制,不斷的改變爬蟲方式,預防重蹈覆轍。所以,大家一起看看常出現的爬蟲被禁的原因有什麼?

一、檢查JavaScript

要是出現網頁空白、缺少資訊情況,很有可能是因為網站建立頁面的JavaScript出現問題。

二、檢查cookie

要是出現登入不了、無法保持登入狀態情況,請檢查你的cookie.

三、IP地址被封

要是出現頁面無法開啟、403禁止訪問錯誤,很有可能是IP地址被網站封禁,不再接受你的任何請求。

當出現這種情況時,則需要選擇更優秀的代理IP資源,比如掘金網ip代理,日流水量大,千千萬萬個代理IP;可用率高,業務成功率強,提高工作效率;穩定性好,讓Python爬蟲能夠可持續性的工作;安全性高,高匿名代理IP。

除此之外,在進行Python爬蟲抓取頁面資訊時還應儘量放慢速度,過快的抓取頻率,不僅更容易被反爬蟲阻攔,還會對網站造成沉重負擔,這樣是很不好的

所以得出結論,選一個好的穩定的 ip ,會解決這一系列的問題,我來說一下我自己用過好用的 ip (僅提供參考),無不良誘導,根據個人需求來

那就是 Smart smart  ip 用起來很是穩定,不存在呢種網路不純的問題,只要電腦環境不是特別差的話用的妥妥滴

 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70021808/viewspace-2913645/,如需轉載,請註明出處,否則將追究法律責任。

相關文章