scrapy爬蟲代理池

小杰哥001發表於2018-08-28

原文網址 : https://juejin.im/post/5b84feede51d4538a01ec68c

前言：

在日常爬蟲過程中，如果我們只用一個ip去訪問爬取等操作，很可能就會被瀏覽器給封，所以我們得用一個ip代理池，然後訪問過程隨機切換代理ip，這樣瀏覽器就不會認為我們是惡意攻擊了

獲取ip代理池

我是在github上面看到的，這裡也會把過程記錄下來：

1.下載原始碼：

git clone git@github.com:jhao104/proxy_pool.git

或者直接到https://github.com/jhao104/proxy_pool 下載zip檔案

複製程式碼

2.安裝依賴

pip install -r requirements.txt
複製程式碼

3.配置Config.init:

# Config.ini 為專案配置檔案
# 配置DB
type = SSDB       # 如果使用SSDB或redis資料庫，均配置為SSDB
host = localhost  # db host
port = 8888       # db port
name = proxy      # 預設配置

# 配置 ProxyGetter
freeProxyFirst  = 1  # 這裡是啟動的抓取函式，可在ProxyGetter/getFreeProxy.py 擴充套件
freeProxySecond = 1
....

# 配置 HOST (api服務)
ip = 127.0.0.1       # 監聽ip,0.0.0.0開啟外網訪問
port = 5010          # 監聽埠
# 上面配置啟動後，代理api地址為 http://127.0.0.1:5010
複製程式碼

啟動：

如果前面程式都完成了，接下來你可以啟動程式了，進入Run目錄，

執行： python main.py

檢視

啟動過幾分鐘後就能看到抓取到的代理IP，你可以直接到資料庫中檢視，推薦一個SSDB視覺化工具。也可以通過api訪問http://127.0.0.1:5010 檢視。

Api

/get GET 隨機獲取一個代理 None

/get_all GET 獲取所有代理 None

/get_status GET 檢視代理數量 None

/delete GET 刪除代理 proxy=host:ip

我通過瀏覽器輸入：http://127.0.0.1:5010/get_all/

得到如下效果：

[
    "202.100.83.139:80",
    "117.127.0.197:80",
    "218.60.8.98:3129",
    "117.127.0.197:8080",
    "218.60.8.99:3129",
    "219.141.153.43:80",
    "114.215.95.188:3128",
    "219.141.153.35:80",
    "219.141.153.10:80",
    "219.141.153.3:80",
    "117.127.0.203:8080",
    "116.62.194.248:3128",
    "221.14.140.130:80",
    "223.93.172.248:3128",
    "118.190.95.43:9001",
    "88.99.149.188:31288",
    "140.143.96.216:80",
]
複製程式碼

爬蟲中使用

如果要在爬蟲程式碼中使用的話，可以將此api封裝成函式直接使用，例如：

import requests

def get_proxy():
    return requests.get("http://127.0.0.1:5010/get/").content

def delete_proxy(proxy):
    requests.get("http://127.0.0.1:5010/delete/?proxy={}".format(proxy))

# your spider code

def getHtml():
    # ....
    retry_count = 5
    proxy = get_proxy()
    while retry_count > 0:
        try:
            html = requests.get('https://www.example.com', proxies={"http": "http://{}".format(proxy)})
            # 使用代理訪問
            return html
        except Exception:
            retry_count -= 1
    # 出錯5次, 刪除代理池中代理
    delete_proxy(proxy)
    return None
複製程式碼

python 爬蟲代理池
2019-03-09
Python爬蟲
Scrapy使用入門及爬蟲代理配置
2020-11-11
爬蟲
爬蟲之代理池維護
2018-08-18
爬蟲
如何建立爬蟲代理ip池
2019-04-25
爬蟲
爬蟲如何使用ip代理池
2021-09-11
爬蟲
爬蟲代理 Scrapy 框架詳細介紹 2
2020-06-04
爬蟲框架
爬蟲--Scrapy簡易爬蟲
2020-10-07
爬蟲
【PhpSelenium】3.定時爬蟲 + 多工爬蟲 + 代理池
2019-12-17
PHP爬蟲
[PhpSelenium] 3.定時爬蟲 + 多工爬蟲 + 代理池
2019-12-17
PHP爬蟲
Scrapy爬蟲框架如何使用代理進行採集
2022-02-22
爬蟲框架
Scrapy爬蟲-草稿
2018-09-08
爬蟲
Scrapy爬蟲框架
2024-11-13
爬蟲框架
Python 爬蟲IP代理池的實現
2018-12-17
Python爬蟲
代理ip池對爬蟲有多重要
2021-09-11
爬蟲
爬蟲（9） - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架
2022-07-05
爬蟲框架非同步
Python Scrapy 爬蟲（二）：scrapy 初試
2018-08-13
Python爬蟲
python爬蟲Scrapy框架
2018-11-21
Python爬蟲框架
爬蟲實戰scrapy
2018-03-11
爬蟲
Python爬蟲—Scrapy框架
2020-10-04
Python爬蟲框架
【Python篇】scrapy爬蟲
2020-11-29
Python爬蟲
python爬蟲利用requests製作代理池s
2019-12-04
Python爬蟲
如何用海外HTTP代理設定python爬蟲代理ip池？
2022-08-30
HTTPPython爬蟲
Scrapy框架的使用之Scrapy通用爬蟲
2018-05-21
框架爬蟲
scrapy之分散式爬蟲scrapy-redis
2020-12-24
分散式爬蟲Redis
scrapy + mogoDB 網站爬蟲
2019-05-19
Go網站爬蟲
爬蟲框架-scrapy的使用
2021-04-28
爬蟲框架
Scrapy爬蟲框架的使用
2021-01-17
爬蟲框架
手把手教你爬蟲代理ip池的建立
2021-09-11
爬蟲
代理ip池對爬蟲有什麼好處
2021-09-11
爬蟲
Python爬蟲教程-30-Scrapy 爬蟲框架介紹
2018-09-06
Python爬蟲框架
python網路爬蟲（14）使用Scrapy搭建爬蟲框架
2019-07-27
Python爬蟲框架
爬蟲搭建代理池、爬取某網站影片案例、爬取新聞案例
2023-03-16
爬蟲網站
014-活該你爬蟲被封之Scrapy Ip代理中介軟體
2019-04-02
爬蟲
Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案
2018-09-04
Python爬蟲框架
爬蟲 Scrapy框架爬取圖蟲圖片並下載
2018-08-27
爬蟲框架
爬蟲（14） - Scrapy-Redis分散式爬蟲(1) | 詳解
2022-07-06
爬蟲Redis分散式
爬蟲採集自建代理ip池的三大優勢
2022-05-18
爬蟲
動態IP代理軟體有話說：天下爬蟲框架皆出Scrapy
2018-12-24
爬蟲框架