Python爬蟲使用代理proxy抓取網頁

pythontab發表於2016-11-01

代理型別（proxy）:透明代理匿名代理混淆代理和高匿代理. 這裡寫一些python爬蟲使用代理的知識, 還有一個代理池的類. 方便大家應對工作中各種複雜的抓取問題。

urllib 模組使用代理

urllib/urllib2使用代理比較麻煩, 需要先構建一個ProxyHandler的類, 隨後將該類用於構建網頁開啟的opener的類,再在request中安裝該opener.

代理格式是"http://127.0.0.1:80",如果要賬號密碼是"http://user:password@127.0.0.1:80".

proxy="http://127.0.0.1:80"
# 建立一個ProxyHandler物件
proxy_support=urllib.request.ProxyHandler({'http':proxy})
# 建立一個opener物件
opener = urllib.request.build_opener(proxy_support)
# 給request裝載opener
urllib.request.install_opener(opener)
# 開啟一個url
r = urllib.request.urlopen('http://youtube.com',timeout = 500)

requests 模組使用代理

requests使用代理要比urllib簡單多了…這裡以單次代理為例. 多次的話可以用session一類構建.

如果需要使用代理，你可以透過為任意請求方法提供 proxies 引數來配置單個請求:

import requests
proxies = {
  "http": "http://127.0.0.1:3128",
  "https": "http://127.0.0.1:2080",
}
r=requests.get("http://youtube.com", proxies=proxies)
print r.text

你也可以透過環境變數 HTTP_PROXY 和 HTTPS_PROXY 來配置代理。

export HTTP_PROXY="http://127.0.0.1:3128"
export HTTPS_PROXY="http://127.0.0.1:2080"
python
>>> import requests
>>> r=requests.get("http://youtube.com")
>>> print r.text

若你的代理需要使用HTTP Basic Auth，可以使用 http://user:password@host/ 語法:

proxies = {
    "http": "http://user:pass@127.0.0.1:3128/",
}

python的代理使用非常簡單，最重要的是要找一個網路穩定可靠的代理，有問題歡迎留言提問

用Python爬蟲抓取代理IP
2019-04-17
Python爬蟲
爬蟲抓取網頁資料原理
2021-12-06
爬蟲網頁
Python爬蟲抓取資料，為什麼要使用代理IP？
2022-12-27
Python爬蟲
爬蟲抓取網頁的詳細流程
2023-11-28
爬蟲網頁
使用代理抓取網頁的原因
2021-09-11
網頁
如何讓Python爬蟲一天抓取100萬張網頁
2019-05-09
Python爬蟲網頁
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
Java爬蟲系列二：使用HttpClient抓取頁面HTML
2019-05-23
Java爬蟲HTTPclientHTML
python爬蟲：使用BeautifulSoup修改網頁內容
2020-04-05
Python爬蟲網頁
python 爬蟲網頁登陸
2020-11-30
Python爬蟲網頁
Python爬蟲抓取股票資訊
2021-01-03
Python爬蟲
Python爬蟲二：抓取京東商品列表頁面資訊
2018-06-26
Python爬蟲
如何用Python爬資料？（一）網頁抓取
2018-06-27
Python網頁
python 爬蟲代理池
2019-03-09
Python爬蟲
Python網路爬蟲抓取動態網頁並將資料存入資料庫MYSQL
2019-01-04
Python爬蟲網頁資料庫MySql
Python代理IP爬蟲的簡單使用
2019-03-04
Python爬蟲
《網頁爬蟲》
2018-11-26
網頁爬蟲
網路爬蟲怎麼使用ip代理
2021-09-11
爬蟲
如何使用代理IP進行資料抓取，PHP爬蟲抓取亞馬遜商品資料
2019-05-15
PHP爬蟲亞馬遜
利用Python網路爬蟲抓取網易雲音樂歌詞
2018-05-06
Python爬蟲
網路爬蟲之抓取郵箱
2018-06-18
爬蟲
Python爬蟲教程-11-proxy代理IP，隱藏地址（貓眼電影）
2018-09-06
Python爬蟲
Python爬蟲教程-13-爬蟲使用cookie爬取登入後的頁面(人人網)（下）
2018-09-06
Python爬蟲Cookie
Python爬蟲教程-12-爬蟲使用cookie爬取登入後的頁面(人人網)（上）
2018-09-06
Python爬蟲Cookie
python網路爬蟲（14）使用Scrapy搭建爬蟲框架
2019-07-27
Python爬蟲框架
Python爬蟲抓取技術的門道
2019-09-21
Python爬蟲
Python爬蟲抓取知乎所有使用者資訊
2018-03-14
Python爬蟲
python爬蟲抓取哈爾濱天氣資訊（靜態爬蟲）
2020-04-05
Python爬蟲
爬蟲使用代理是否安全
2022-04-09
爬蟲
爬蟲進階——動態網頁Ajax資料抓取（簡易版）
2024-04-12
爬蟲網頁
編寫web2.0爬蟲——頁面抓取部分
2020-10-09
Web爬蟲
使用 Beautiful Soup 在 Python 中抓取網頁
2021-12-27
Python網頁
網路爬蟲之關於爬蟲 http 代理的常見使用方式
2020-04-28
爬蟲HTTP
python爬蟲之抓取小說(逆天邪神)
2022-03-10
Python爬蟲
手把手教你利用爬蟲爬網頁（Python程式碼）
2019-05-14
爬蟲網頁Python
爬蟲——網頁爬取方法和網頁解析方法
2020-12-07
爬蟲網頁
爬蟲，可用於增加訪問量和抓取網站全頁內容
2018-09-08
爬蟲網站
爬蟲使用代理防封IP
2019-04-17
爬蟲
爬蟲如何使用ip代理池
2021-09-11
爬蟲

Python爬蟲使用代理proxy抓取網頁

urllib 模組使用代理

requests 模組 使用代理

相關文章

requests 模組使用代理