本文分為兩部分：

一、HTTP代理的邏輯

做過python爬蟲的都知道，HTTP代理的設定時要在傳送請求前設定好，那HTTP代理的邏輯點在哪裡呢？實際上，只需要在Scrapy 的專案結構中新增就好，具體程式碼如下：

# Scrapy 內建的 Downloader Middleware 為 Scrapy 供了基礎的功能， 
# 定義一個類，其中(object)可以不寫，效果一樣 
class SimpleProxyMiddleware(object): 
    # 宣告一個陣列
    proxyList = ['你購買的HTTP代理地址'] 
    
    # Downloader Middleware的核心方法，只有實現了其中一個或多個方法才算自定義了一個 Downloader Middleware def process_request(self, request, spider): 
        # 隨機從其中選擇一個，並去除左右兩邊空格 
        proxy = random.choice(self.proxyList).strip() 
        # 列印結果出來觀察 
        print("this is request ip:" + proxy) 
        # 設定request的proxy屬性的內容為代理ip 
        request.meta['proxy'] = proxy 
        # Downloader Middleware的核心方法，只有實現了其中一個或多個方法才算自定義了一個Downloader Middleware def process_response(self, request, response, spider): 
        # 請求失敗不等於200 
        if response.status != 200: 
            # 重新選擇一個代理ip 
            proxy = random.choice(self.proxyList).strip() 
            print("this is response ip:" + proxy) 
            # 設定新的代理ip內容 
            request.mete['proxy'] = proxy 
            return request 
    return response

每個 Downloader Middleware 定義了一個或多個方法的類，核心的方法有如下三個：

1.process_request(request, spider)

2.process_response(request，response, spider)

3.process_exception(request, exception, spider)

找到 setting.py 檔案中的這塊區域：

#DDWNLQADER_MIDDLEWARES = {
#        *images.middlewares.ImagesDownloaderMiddleware": 543，
    #    *images middlewares，LocalProxyMiddleware*: 100
#}

這部分需要修改，也就是取消註釋，加上剛剛寫的Middleware 類的路徑：

#DDWNLQADER_MIDDLEWARES = {
'scrapydownloadertest.middlewares.SimpleProxyMiddleware': 100,
|
}

這樣，我們就配置好了一個簡單的HTTP代理，此時來到httpProxyIp.py 這個檔案，這個檔案是我透過命令 scrapy genspider httpProxyIp icanhazip.com 生成的，建立成功內容如下：

# -*- coding: utf-8 -*-
import scrapy
class HttpproxyipSpider(scrapy.Spider):
    name = 'httpProxyIp'
    allowed_domains = ['icanhazip.com']
    start_urls = [']
    def parse(self, response):
        pass

修改一下，最終程式碼如下所示：

# -*- coding: utf-8 -*-
import scrapy
from scrapy.cmdline import execute
class HttpproxyipSpider(scrapy.Spider):
    # spider 任務名
    name = 'httpProxyIp'
    # 允許訪問的域名
    allowed_domains = ['icanhazip.com']
    # 起始爬取的url
    start_urls = [']
    
    # spider 爬蟲解析的方法，關於內容的解析都在這裡完成; self表示例項的引用，response爬蟲的結果
    def parse(self, response):
        print('代理後的ip: ', response.text)
    # 這個是main函式也是整個程式入口的慣用寫法
    if __name__ == '__main__':
        execute(['scrapy', 'crawl', 'httpbin'])

以上，就完成了Scrapy代理的設定和驗證除錯。

PS：icanhazi是一個顯示當前訪問者ip的網站，可以很方便的用來驗證scrapy的HTTP代理設定是否成功。