使用代理池用py完整的爬取一個網站(尾部有github原始碼)

wangchunbo發表於2020-09-10

一：對返回ip格式的操作，很顯然XX代理是給出json格式的資料，可以直接請求後返回json資料進行操作包過提取，刪除，增加。當然，在實際使用ip代理的時候最好先在瀏覽器中請求一次，複製下來新建一個py檔案練習對其操作。
二：ip的有效期，現在大部分的ip代理都是有有效期的，(本文的ip處理,是一次性拿5個就扔了.所以沒有處理過期,因為我這一個ip只能用幾次就封了),當ip失效後你需要將此ip從ip池中刪除。當ip不夠的時候又要引入新的ip新增到當前的ip池中。要動態維護ip池。
三：python3使用代理ip的方式：下文會介紹，以前我的python3使用代理ip也有格式，你爬取的是http用http，是https用https就行。
四：異常處理，再寫爬蟲的時候一定要對所有可能產生異常的操作進行try except的異常處理。異常又要注意是否為超時異常，還是ip不可用，過期的異常，還是操作dom樹的時候產生的異常。不同的異常要採用不同的策略。（可用狀態碼，全域性變數判斷）。
五：注意使用資訊和要求：我買的那個蘑菇代理不能請求頻率超過5s。還有就要有新增本地ip地址。（可能是基於安全考慮）
六：分析目標網站對ip的需求。你需要設定ip池的最小和請求ip的個數不至於太大或太小，可以預先測試。打個比方你爬的網站同一個時段10個ip更換就不夠了。你不至於開100個ip去爬吧，ip過期而沒咋麼用就是對資源的浪費（當然土豪請隨意。）

自行找一個,人家會給你api. 你呼叫即可.

我這裡用的是json格式的api

使用代理池用py完整的爬取一個網站

程式碼

1.配置環境，匯入包


from bs4 import BeautifulSoup
import requests
import random
 headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'}

2.獲取網頁內容函式

def getHTMLText(url,proxies):
    try:
        r = requests.get(url,proxies=proxies)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
    except:
        return 0
    else:
        return r.text

3.從代理ip網站獲取代理ip列表函式，並檢測可用性，返回ip列表

def get_ip_list(url):
    web_data = requests.get(url,headers)
    soup = BeautifulSoup(web_data.text, 'html')
    ips = soup.find_all('tr')
    ip_list = []
    for i in range(1, len(ips)):
        ip_info = ips[i]
        tds = ip_info.find_all('td')
        ip_list.append(tds[1].text + ':' + tds[2].text)
#檢測ip可用性，移除不可用ip：（這裡其實總會出問題，你移除的ip可能只是暫時不能用，剩下的ip使用一次後可能之後也未必能用）
    for ip in ip_list:
        try:
          proxy_host = "https://" + ip
          proxy_temp = {"https": proxy_host}
          res = urllib.urlopen(url, proxies=proxy_temp).read()
        except Exception as e:
          ip_list.remove(ip)
          continue
    return ip_list

4.從ip池中隨機獲取ip列表

def get_random_ip(ip_list):
    proxy_list = []
    for ip in ip_list:
        proxy_list.append('http://' + ip)
    proxy_ip = random.choice(proxy_list)
    proxies = {'http': proxy_ip}
    return proxies

5.呼叫代理

if __name__ == '__main__':
    url = 'http://www.xicidaili.com/nn/'
    ip_list = get_ip_list(url)
    proxies = get_random_ip(ip_list)
    print(proxies)

gitee.com/bobobobbb/proxy_scraby

本作品採用《CC 協議》，轉載必須註明作者和本文連結

感謝關注上海PHP自學中心-免費程式設計視訊教學|

爬蟲搭建代理池、爬取某網站影片案例、爬取新聞案例
2023-03-16
爬蟲網站
JB的Python之旅-爬取phizhub網站（原始碼）
2019-03-01
Python網站原始碼
簡單用 Lumen 擼一個 GitHub trending 爬取 API
2020-12-12
GithubAPI
爬蟲如何使用ip代理池
2021-09-11
爬蟲
使用 Python 爬取網站資料
2024-07-27
Python網站
爬取某網站寫的python程式碼
2019-11-29
網站Python
網路爬蟲——Urllib模組實戰專案（含程式碼）爬取你的第一個網站
2020-02-12
爬蟲網站
如何用http代理的ip池繞過網站反爬蟲機制？
2023-05-04
HTTP網站爬蟲
分享一個用go寫的爬取非同步載入網站資料的例子
2022-06-01
Go非同步網站
代理ip池對爬蟲有多重要
2021-09-11
爬蟲
爬蟲被封怎麼辦？用Node構建一個私人IP代理池
2019-04-27
爬蟲
動態網站的爬取
2018-08-29
網站
教你使用GitHub搭建個人網站
2021-09-09
Github網站
使用 github 和 Deno Deploy 搭建一個部落格網站
2022-11-22
Github網站
seo-mask -- 為單頁應用建立一個適合蜘蛛爬取的seo網站
2019-01-19
網站
python 爬蟲代理池
2019-03-09
Python爬蟲
scrapy爬蟲代理池
2018-08-28
爬蟲
爬取網站新聞
2020-09-24
網站
使用爬蟲代理採集網站失敗的解決方法
2021-07-09
爬蟲網站
代理ip池對爬蟲有什麼好處
2021-09-11
爬蟲
python 非同步佇列爬取多個網站
2020-11-21
Python非同步佇列網站
如何爬取視訊的爬蟲程式碼原始碼
2020-12-26
爬蟲原始碼
如何使用robots禁止各大搜尋引擎爬蟲爬取網站
2018-08-28
爬蟲網站
Scrapy使用隨機User-Agent爬取網站
2018-08-31
隨機網站
一個高效搜尋github專案的網站
2021-08-11
Github網站
JB的Python之旅-爬取phizhub網站
2019-02-21
Python網站
使用正則編寫簡單的爬蟲爬取某網站的圖片
2018-06-06
爬蟲網站
用ThinkPHP拾的一個企業網站，看有沒有需要的可以直接下載，原始碼開源，可下載
2019-05-11
PHP網站原始碼
Python爬蟲—爬取某網站圖片
2020-11-19
Python爬蟲網站
一時技癢，擼了個動態執行緒池，原始碼放Github了
2020-06-18
執行緒原始碼Github
[譯] 如何使用 Python 和 BeautifulSoup 爬取網站內容
2019-02-23
Python網站
使用puppeteer爬取網站，抓出404無效連結
2018-12-20
網站
YOLOv3 的 TensorFlow 實現，GitHub 完整原始碼解析
2019-01-31
YOLOGithub原始碼
Python 爬蟲IP代理池的實現
2018-12-17
Python爬蟲
Node.js爬取科技新聞網站cnBeta（附前端及服務端原始碼）
2018-12-16
Node.js網站前端服務端原始碼
如何建立爬蟲代理ip池
2019-04-25
爬蟲
爬蟲之代理池維護
2018-08-18
爬蟲
簡單擼了個 GitHub trending 爬取 API
2020-12-12
GithubAPI

使用代理池用py完整的爬取一個網站(尾部有github原始碼)

相關文章