經常看到uu們分享,自己向廠商購買了HTTP代理,但是還是經常被封,導致自己無法按時完成作業,專案無法完成,那該如何解決這一問題呢?
只要思想不滑坡,辦法總比困難多,我們可以嘗試以下方法:
1.User-Agent偽裝和輪換
需要注意的是,不同瀏覽器的不同版本都有不同的User-Agent,所以,我們可以準備多一些的User-Agent,把它們都放在一個列表中,要使用的時候,每次隨機選一個,這樣我們就能達到每次請求的時候使用的都是不同的User-Agent,也可以有效防止反爬。
2.最佳化爬蟲策略
首先,我們要看此前被封的時候返回的是什麼HTTP碼,以此來最佳化我們的爬蟲策略,
現在的網際網路,很多網站都是設定了反爬機制,如果我們一直使用同一個HTTP代理短期內一直訪問該網站,是非常容易觸發反爬機制,限制這種訪問;或者因為我們的爬蟲抓取的速度過快,網站方能很輕鬆判別我們不是真實使用者……
我們需要做的是:
降低抓取頻率,重新設定訪問時間間隔
我們需要把自己偽裝成一個真實的使用者在訪問,降低訪問的頻率及頻次,把訪問的間隔時間設定成或長或短,即:隨機數。
3.優質的HTTP代理
儘量不要使用免費的HTTP代理,因為免費的HTTP代理反而是最貴的(成本),此類HTTP代理往往是匿名級別是透明的,網站能輕鬆識別到我們的真實IP。所以需要使用高匿的HTTP代理,而向廠商購買,大機率買的都是高匿名的,會比較優質。
整理了一份市面上的動態短效代理表格,給有緣人:
總的來說,從單價來看,按時大概是這個排名:
青果網路<豌豆代理<巨量代理<小象代理<訊代理<品易代理<芝麻代理
按量:
青果網路<小象代理=品易代理<巨量代理<安慰你都代理<芝麻代理
當然,最重要除了成本調控,還有一個就是效果,畢竟也不是大冤種,無論花多少錢,都是想要看到效果的。
索性我是做過了第一家的測試:
總體而言還不錯。