網路爬蟲之關於爬蟲 http 代理的常見使用方式

Laical發表於2020-04-28

原文網址 : https://learnku.com/articles/43865

在做爬蟲的過程中，如果你爬取的頻率過快，不符合人的操作模式。有些網站的反爬蟲機制通過監測到你的IP異常，訪問頻率過高。就會對你進行封IP處理。目前已有比較多的第三方平臺專門進行代理IP的服務，那如何使用平臺提供的http代理呢，一般好的平臺都會提供兩種使用方式：

1傳統的API提取模式： API連結提取格式如下

API就是url連結，例如：ip.16yun.cn:817/**** 使用者的爬蟲程式需要支援API的自動提取代理IP，定期從url中獲取代理IP的相關資訊，格式如下：

（1）預設支援文字

（2）json格式（在API連結後面加上&format=json,返回JSON格式）

（3）在連結後面加上 &part=分隔符 ,分隔符需要使用url轉義

而爬蟲程式通過獲取出來的IP向網站發出請求獲取資料。

2 自動轉發的爬蟲代理：通過固定雲代理服務地址，建立專線網路連結，代理平臺自動實現毫秒級代理IP切換，保證了網路穩定性和速度，避免爬蟲客戶在代理IP策略優化上投入精力。這種方式適用於專做爬蟲的使用者或者第一次使用http代理的使用者，使用方便更加簡單。市面上目前也只有幾家代理平臺有這種使用方式，這種使用方式比較嚴格，使用者必須是研發，嚴格按照自己的爬蟲語言參考平臺呼叫代理資訊的demo修改介面，配置代理資訊使用。每個平臺配置爬蟲代理的代理資訊demo都不一樣，其含義都差不多。

例如python網路爬蟲設定自動轉發代理介面的demo

如下：

#! -- encoding:utf-8 --

import requests

import random

targetUrl = “www.baidu.com"

proxyHost = “t.16yun.cn”

proxyPort = “31111”

proxyUser = “username”

proxyPass = “password”

proxyMeta = “http://%(user)s:%(pass)s@%(host)s:%(port)s” % {

“host” : proxyHost,

“port” : proxyPort,

“user” : proxyUser,

“pass” : proxyPass,

}

proxies = {

“http” : proxyMeta,

“https” : proxyMeta,

}

tunnel = random.randint(1,10000)

headers = {“Proxy-Tunnel”: str(tunnel)}

resp = requests.get(targetUrl, proxies=proxies, headers=headers)

print resp.status_code

print resp.text

這種是比較常見使用自動轉發代理的demo，其他爬蟲語言使用方式也大同小異。

以上是使用http代理的常見的兩種方式，我也是經常使用代理，覺得自動轉發的代理更加好用，方便，簡單，速度快。避免了我在爬蟲使用代理中的很多麻煩。

本作品採用《CC 協議》，轉載必須註明作者和本文連結

新手爬蟲使用http代理有哪些方式？
2021-09-11
爬蟲HTTP
什麼是Python網路爬蟲?常見的網路爬蟲有哪些?
2020-11-27
Python爬蟲
爬蟲中代理IP的常見方案
2021-09-11
爬蟲
網路爬蟲怎麼使用ip代理
2021-09-11
爬蟲
網路爬蟲編寫常見問題
2020-07-30
爬蟲
爬蟲使用海外HTTP代理時常見的錯誤程式碼及解決方法
2022-09-21
爬蟲HTTP
爬蟲如何運用 http 代理
2019-11-12
爬蟲HTTP
python網路爬蟲（14）使用Scrapy搭建爬蟲框架
2019-07-27
Python爬蟲框架
網路爬蟲——爬蟲實戰（一）
2022-01-29
爬蟲
爬蟲常見問題及解決方式
2022-06-10
爬蟲
為什麼使用 HTTP 爬蟲代理更安全？
2020-04-21
HTTP爬蟲
【0基礎學爬蟲】爬蟲基礎之網路請求庫的使用
2023-03-26
爬蟲
網路爬蟲
2018-12-07
爬蟲
網路爬蟲常見問題（個人總結）
2019-01-24
爬蟲
Python3網路爬蟲(十一)：爬蟲黑科技之讓你的爬蟲程式更像人類使用者的行為(代理IP池等)
2019-01-07
Python爬蟲
[Python] 網路爬蟲與資訊提取（1）網路爬蟲之規則
2020-11-06
Python爬蟲
爬蟲代理IP的使用技巧
2022-07-12
爬蟲
爬蟲使用代理是否安全
2022-04-09
爬蟲
實用爬蟲-02-爬蟲真正使用代理 ip
2018-09-08
爬蟲
python和爬蟲代理的關聯
2020-08-05
Python爬蟲
常見網站反爬蟲的解決措施
2021-09-11
網站爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
python網路爬蟲_Python爬蟲：30個小時搞定Python網路爬蟲視訊教程
2020-10-21
Python爬蟲
網路爬蟲的原理
2018-12-02
爬蟲
網路爬蟲示例
2018-10-30
爬蟲
網路爬蟲精要
2019-04-27
爬蟲
爬蟲之代理池維護
2018-08-18
爬蟲
反爬蟲的四種常見方式-JS逆向方法論
2019-08-19
爬蟲JS
網路爬蟲之抓取郵箱
2018-06-18
爬蟲
HTTP代理如何助力爬蟲採集工作？
2022-05-16
HTTP爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
爬蟲之xpath的使用
2024-04-02
爬蟲
反爬蟲之字型反爬蟲
2019-06-27
爬蟲
常見的三種反爬蟲措施
2022-05-31
爬蟲
使用住宅代理去爬蟲的原因
2022-03-29
爬蟲
爬蟲使用代理防封IP
2019-04-17
爬蟲
爬蟲如何使用ip代理池
2021-09-11
爬蟲
如何測試該海外HTTP代理適合爬蟲使用？
2022-09-28
HTTP爬蟲

網路爬蟲之關於爬蟲 http 代理的常見使用方式

1傳統的API提取模式： API連結提取格式如下

相關文章