前言:
在日常爬蟲過程中,如果我們只用一個ip去訪問爬取等操作,很可能就會被瀏覽器給封,所以我們得用一個ip代理池,然後訪問過程隨機切換代理ip,這樣瀏覽器就不會認為我們是惡意攻擊了
獲取ip代理池
我是在github上面看到的,這裡也會把過程記錄下來:
1.下載原始碼:
git clone git@github.com:jhao104/proxy_pool.git
或者直接到https://github.com/jhao104/proxy_pool 下載zip檔案
複製程式碼
2.安裝依賴
pip install -r requirements.txt
複製程式碼
3.配置Config.init:
# Config.ini 為專案配置檔案
# 配置DB
type = SSDB # 如果使用SSDB或redis資料庫,均配置為SSDB
host = localhost # db host
port = 8888 # db port
name = proxy # 預設配置
# 配置 ProxyGetter
freeProxyFirst = 1 # 這裡是啟動的抓取函式,可在ProxyGetter/getFreeProxy.py 擴充套件
freeProxySecond = 1
....
# 配置 HOST (api服務)
ip = 127.0.0.1 # 監聽ip,0.0.0.0開啟外網訪問
port = 5010 # 監聽埠
# 上面配置啟動後,代理api地址為 http://127.0.0.1:5010
複製程式碼
啟動:
如果前面程式都完成了,接下來你可以啟動程式了,進入Run目錄,
執行:
python main.py
檢視
啟動過幾分鐘後就能看到抓取到的代理IP,你可以直接到資料庫中檢視,推薦一個SSDB視覺化工具。 也可以通過api訪問http://127.0.0.1:5010 檢視。
Api
/get GET 隨機獲取一個代理 None
/get_all GET 獲取所有代理 None
/get_status GET 檢視代理數量 None
/delete GET 刪除代理 proxy=host:ip
我通過瀏覽器輸入:http://127.0.0.1:5010/get_all/
得到如下效果:
[
"202.100.83.139:80",
"117.127.0.197:80",
"218.60.8.98:3129",
"117.127.0.197:8080",
"218.60.8.99:3129",
"219.141.153.43:80",
"114.215.95.188:3128",
"219.141.153.35:80",
"219.141.153.10:80",
"219.141.153.3:80",
"117.127.0.203:8080",
"116.62.194.248:3128",
"221.14.140.130:80",
"223.93.172.248:3128",
"118.190.95.43:9001",
"88.99.149.188:31288",
"140.143.96.216:80",
]
複製程式碼
爬蟲中使用
如果要在爬蟲程式碼中使用的話, 可以將此api封裝成函式直接使用,例如:
import requests
def get_proxy():
return requests.get("http://127.0.0.1:5010/get/").content
def delete_proxy(proxy):
requests.get("http://127.0.0.1:5010/delete/?proxy={}".format(proxy))
# your spider code
def getHtml():
# ....
retry_count = 5
proxy = get_proxy()
while retry_count > 0:
try:
html = requests.get('https://www.example.com', proxies={"http": "http://{}".format(proxy)})
# 使用代理訪問
return html
except Exception:
retry_count -= 1
# 出錯5次, 刪除代理池中代理
delete_proxy(proxy)
return None
複製程式碼