使用芝麻代理,爬蟲ip經常被封,該如何解決?

N叔談資料採集發表於2023-01-13

經常看到uu們分享,自己向廠商購買了HTTP代理,但是還是經常被封,導致自己無法按時完成作業,專案無法完成,那該如何解決這一問題呢?


只要思想不滑坡,辦法總比困難多,我們可以嘗試以下方法:


1.User-Agent偽裝和輪換

需要注意的是,不同瀏覽器的不同版本都有不同的User-Agent,所以,我們可以準備多一些的User-Agent,把它們都放在一個列表中,要使用的時候,每次隨機選一個,這樣我們就能達到每次請求的時候使用的都是不同的User-Agent,也可以有效防止反爬。


2.最佳化爬蟲策略

首先,我們要看此前被封的時候返回的是什麼HTTP碼,以此來最佳化我們的爬蟲策略,

使用芝麻代理,爬蟲ip經常被封,該如何解決?

現在的網際網路,很多網站都是設定了反爬機制,如果我們一直使用同一個HTTP代理短期內一直訪問該網站,是非常容易觸發反爬機制,限制這種訪問;或者因為我們的爬蟲抓取的速度過快,網站方能很輕鬆判別我們不是真實使用者……


我們需要做的是:

降低抓取頻率,重新設定訪問時間間隔


我們需要把自己偽裝成一個真實的使用者在訪問,降低訪問的頻率及頻次,把訪問的間隔時間設定成或長或短,即:隨機數。


3.優質的HTTP代理

儘量不要使用免費的HTTP代理,因為免費的HTTP代理反而是最貴的(成本),此類HTTP代理往往是匿名級別是透明的,網站能輕鬆識別到我們的真實IP。所以需要使用高匿的HTTP代理,而向廠商購買,大機率買的都是高匿名的,會比較優質。

整理了一份市面上的動態短效代理表格,給有緣人:


分類

代表廠商

白名單數

基礎套餐

(元/月)

平均IP單價

(元/IP)

按時計費-以IP通道為增量

青果網路

256

29

0.0006

小象代理

5

109

0.0050

按時計費-以每日IP量為增量

巨量代理

5

155

0.0049

豌豆代理

5

300

0.0025

訊代理

1

210

0.0583

品易代理

20

120

0.0070

芝麻代理

5

360

0.0182

按量計費

青果網路

256

30

0.0030

豌豆代理

5

200

0.0200

小象代理

5

100

0.0100

巨量代理

5

75

0.0140

品易代理

20

100

0.0100

芝麻代理

5

420

0.0420

總的來說,從單價來看,按時大概是這個排名:

青果網路<豌豆代理<巨量代理<小象代理<訊代理<品易代理<芝麻代理


按量:

青果網路<小象代理=品易代理<巨量代理<安慰你都代理<芝麻代理


當然,最重要除了成本調控,還有一個就是效果,畢竟也不是大冤種,無論花多少錢,都是想要看到效果的。

索性我是做過了第一家的測試:

使用芝麻代理,爬蟲ip經常被封,該如何解決?

總體而言還不錯。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70025002/viewspace-2932092/,如需轉載,請註明出處,否則將追究法律責任。

相關文章