HTTP代理如何爬取?保姆式教程(附測試影片)

N叔談資料採集發表於2023-03-02

在網路爬蟲的應用中,HTTP代理的使用是常見的技術手段之一。透過使用HTTP代理,爬蟲可以模擬不同的訪問來源,避免被目標網站識別出爬蟲行為,從而提高爬蟲的成功率和效率。那麼,如何爬取HTTP代理呢?


1.爬取HTTP代理

我們可以使用Python中的requests和beautifulsoup庫來獲取並解析這些資訊。具體如下:

import requests
from bs4 import BeautifulSoup
# HTTP代理網站的地址
url = 'HTTP代理網站的地址'# 請求頭資訊,模擬瀏覽器訪問
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
# 傳送請求,獲取HTML頁面
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
# 解析HTML頁面,獲取HTTP代理資訊
table = soup.find('table', {'id': 'ip_list'})
tr_list = table.find_all('tr')
for tr in tr_list[1:]:
    td_list = tr.find_all('td')
    ip = td_list[1].text
    port = td_list[2].text
    protocol = td_list[5].text.lower()
    print('{}://{}:{}'.format(protocol, ip, port))

透過requests庫傳送請求,獲取HTML頁面,並使用BeautifulSoup庫解析HTML頁面,從而獲取HTTP代理資訊。解析到的HTTP代理包括IP地址、埠號和協議型別,可以根據需要進行調整和擴充套件。解析完成後,可以將HTTP代理儲存到本地檔案或資料庫中,或者直接用於爬蟲的訪問。


2.驗證HTTP代理的可用性

爬取到的HTTP代理不一定都是可用的,我們需要驗證它們的可用性。我們需要驗證HTTP代理是否可用。

import requests
url = "
proxies = {
    "http": "
    "https": "
}
response = requests.get(url, proxies=proxies)
print(response.status_code)

如果status_code為200,說明HTTP代理可用。

3.篩選可用的HTTP代理

驗證HTTP代理的可用性後,我們可以將可用的HTTP代理儲存到一個列表中,以備後續使用。



值得注意的是,網上免費爬取的HTTP代理,連通性很差,這種方法基本只適合初學者用來練習自己的技術。通常而言,個人我們可以購買付費HTTP代理服務。我們只需要購買HTTP代理廠商提供的服務,就可以直接獲取到高質量的HTTP代理,只要選擇了適合的廠商,HTTP代理的可用性、穩定性、質量和速度等因素就能得到保證。

以下是市面上動態短效代理HTTP代理廠商的價格,主要涉及到如下幾家:

  • 青果網路
  • 芝麻代理
  • 豌豆代理
  • 品易代理
  • 訊代理
  • 小象代理
  • 巨量代理

如圖所示:

HTTP代理型別

分類

代表廠商

白名單數

基礎套餐

(元/月)

平均IP單價

(元/IP)

動態短效HTTP代理

按時計費

青果網路

256

29

0.0006

小象代理

5

109

0.0050

巨量代理

5

155

0.0049

豌豆代理

5

300

0.0025

訊代理

1

210

0.0583

品易代理

20

120

0.0070

芝麻代理

5

360

0.0182

按量計費

青果網路

256

30

0.0030

豌豆代理

5

200

0.0200

小象代理

5

100

0.0100

巨量代理

5

75

0.0140

品易代理

20

100

0.0100

芝麻代理

5

420

0.0420

HTTP代理如何爬取?保姆式教程(附測試影片)

 

不過除了單價,效果才是我們想要看的,要適合我們各自的業務場景才OK,不然低出花來也沒啥用。所以還是建議大家有這方面需求的還是多測試。類似我拿青果網路來測試這樣:

HTTP代理如何爬取?保姆式教程(附測試影片)

影片太大了,傳不上來,大概如圖所示,湊合看唄。


總的來說還不錯,他們也提供測試服務,有需要自取。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70025002/viewspace-2937920/,如需轉載,請註明出處,否則將追究法律責任。

相關文章