在網路爬蟲的應用中，HTTP代理的使用是常見的技術手段之一。透過使用HTTP代理，爬蟲可以模擬不同的訪問來源，避免被目標網站識別出爬蟲行為，從而提高爬蟲的成功率和效率。那麼，如何爬取HTTP代理呢?

1.爬取HTTP代理

我們可以使用Python中的requests和beautifulsoup庫來獲取並解析這些資訊。具體如下：

import requests
from bs4 import BeautifulSoup
# HTTP代理網站的地址
url = 'HTTP代理網站的地址'# 請求頭資訊，模擬瀏覽器訪問
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
# 傳送請求，獲取HTML頁面
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
# 解析HTML頁面，獲取HTTP代理資訊
table = soup.find('table', {'id': 'ip_list'})
tr_list = table.find_all('tr')
for tr in tr_list[1:]:
    td_list = tr.find_all('td')
    ip = td_list[1].text
    port = td_list[2].text
    protocol = td_list[5].text.lower()
    print('{}://{}:{}'.format(protocol, ip, port))

透過requests庫傳送請求，獲取HTML頁面，並使用BeautifulSoup庫解析HTML頁面，從而獲取HTTP代理資訊。解析到的HTTP代理包括IP地址、埠號和協議型別，可以根據需要進行調整和擴充套件。解析完成後，可以將HTTP代理儲存到本地檔案或資料庫中，或者直接用於爬蟲的訪問。

2.驗證HTTP代理的可用性

爬取到的HTTP代理不一定都是可用的，我們需要驗證它們的可用性。我們需要驗證HTTP代理是否可用。

import requests
url = "
proxies = {
    "http": "
    "https": "
}
response = requests.get(url, proxies=proxies)
print(response.status_code)

如果status_code為200，說明HTTP代理可用。

3.篩選可用的HTTP代理

驗證HTTP代理的可用性後，我們可以將可用的HTTP代理儲存到一個列表中，以備後續使用。

值得注意的是，網上免費爬取的HTTP代理，連通性很差，這種方法基本只適合初學者用來練習自己的技術。通常而言，個人我們可以購買付費HTTP代理服務。我們只需要購買HTTP代理廠商提供的服務，就可以直接獲取到高質量的HTTP代理，只要選擇了適合的廠商，HTTP代理的可用性、穩定性、質量和速度等因素就能得到保證。

以下是市面上動態短效代理HTTP代理廠商的價格，主要涉及到如下幾家：

青果網路
芝麻代理
豌豆代理
品易代理
訊代理
小象代理
巨量代理

如圖所示：

HTTP代理型別	分類	代表廠商	白名單數	基礎套餐（元/月）	平均IP單價（元/IP）
動態短效HTTP代理	按時計費	青果網路	256	29	0.0006
		小象代理	5	109	0.0050
		巨量代理	5	155	0.0049
		豌豆代理	5	300	0.0025
		訊代理	1	210	0.0583
		品易代理	20	120	0.0070
		芝麻代理	5	360	0.0182
	按量計費	青果網路	256	30	0.0030
		豌豆代理	5	200	0.0200
		小象代理	5	100	0.0100
		巨量代理	5	75	0.0140
		品易代理	20	100	0.0100
		芝麻代理	5	420	0.0420

HTTP代理如何爬取？保姆式教程（附測試影片）

不過除了單價，效果才是我們想要看的，要適合我們各自的業務場景才OK，不然低出花來也沒啥用。所以還是建議大家有這方面需求的還是多測試。類似我拿青果網路來測試這樣：

HTTP代理如何爬取？保姆式教程（附測試影片）

影片太大了，傳不上來，大概如圖所示，湊合看唄。

總的來說還不錯，他們也提供測試服務，有需要自取。

HTTP代理如何爬取？保姆式教程（附測試影片）

1.爬取HTTP代理

2.驗證HTTP代理的可用性

3.篩選可用的HTTP代理

相關文章