Scrapy Kafka的連線使用

NullSpider發表於2018-02-24

完整程式碼在這: Here

以下有什麼說的不對的地方也歡迎各位指出，互相學習.

準備工作

Zookeeper環境（zookeeper-3.4.10） -> 具體安裝下面講安裝步驟
Kafka環境（kafka-1.0.0） -> 具體安裝下面講安裝步驟
系統環境（Win10 x64）
Python環境（Python 3.4.4）

環境依賴

環境
- Python3.4.4（Python2暫未測試,如果有測試過的給我提下issue）
依賴包
- Scrapy
- pykafka
安裝方式:

windows: pip install requirements.txt
linux: pip3 install requiremnets.txt
複製程式碼

專案結構

consumer --- pykafka的消費者模組（測試接收以及之後接收爬蟲資料）
producer --- pykafka的生產者模組（測試傳送）
scrapy_kafka --- Scrapy + pykafka的爬蟲（爬的是我學校的官網的所有a標籤連結）

需要注意的地方

爬蟲部分我就不說了，我就挑特別的地方

kafka需要bytes資料,所以在pipeline接收到資料之後一定要encode;encode裡面的encoding和消費者的decode編碼要一致.
pipeline裡面實現一個方法 close_spider(self, spider) 用來關閉producer;不然Scrapy會一直掛在producer那裡不動.
我在pipeline裡面判斷了KAFKA_IP_PORT這個配置寫的引數:
- 單機部署可以用list或者str表示.
- 偽分佈或者全分佈可以用list,或者用逗號隔開都可以.

Zookeeper安裝

我大致說下Zookeeper的安裝過程(以下都是單點測試, 偽分佈和全分佈還請各位完整學習完後再搭建)

下載zookeeper.下載地址
解壓在conf下把zoo_sample.cfg 複製(或直接重新命名)為zoo.cfg
在系統環境變數中建立ZOOKEEPER_HOME值為zookeeper的Home目錄
在PATH中新增zookeeper的bin目錄.
在cmd中執行 zkServer

Kafka安裝

也一樣是單點

下載kafka並解壓.下載地址
進入解壓後的資料夾, 在conf下修改server.properties檔案中log.dirs指定log目錄
配置系統環境變數KAFKA_HOME
在PATH中新增kafka bin/windows的目錄（linux的不用理windows那個資料夾）
啟動kafka: kafka-server-start <kafka目錄下config裡面的server.properties的路徑>

關於kafka的測試

建立topic：

kafka-topics --create --topic newtest --partitions 1 --replication-factor 1 --zookeeper localhost:2181 
複製程式碼

意思是：建立一個topic; 名字：newtest; 分割槽：1個; 副本數：1個; zookeeper的監聽地址(由於是單點且若未修改zoo.cfg, 則zookeeper預設在2181埠上執行)

建立producer:

kafka-console-producer --broker-list localhost:9092 --topic newtest  
複製程式碼

此時視窗會到達等待輸入的狀態，先別關閉也不著急輸入。啟動consumer先。

建立consumer

kafka-console-consumer  --zookeeper localhost:2181 --topic newtest
複製程式碼

當consumer建立成功後，回到producer的視窗輸入一些字元什麼的，看看consumer有沒有出現(注：中文有可能是亂碼,但不影響測試)

其他操作就請各位去參見kafka的官方文件或者系統學習後看看命令列的使用。

核心程式碼

程式碼部分最好看倉庫: 程式碼倉庫地址
以下是pipeline的程式碼, 主要也就是這部分和Kafka進行資料互動

# -*- coding: utf-8 -*-

# Scrapy
from scrapy.conf import settings

# PyKafka
from pykafka import KafkaClient


class ScrapyKafkaPipeline(object):
    def __init__(self):
        # 判斷下配置裡面個給的是啥
        # 1. 如果長度等於1, list只有一個資料, 如果是字元肯定大於1
        # 2. 否則, 判斷型別是否是list, 是的話用 逗號分隔
        # 3. 否則就是一個字串
        kafka_ip_port = settings['KAFKA_IP_PORT']
        if len(kafka_ip_port) == 1:
            kafka_ip_port = kafka_ip_port[0]
        else:
            if isinstance(kafka_ip_port, list):
                kafka_ip_port = ",".join(kafka_ip_port)
            else:
                kafka_ip_port = kafka_ip_port

        # 初始化client
        self._client = KafkaClient(hosts=kafka_ip_port)

        # 初始化Producer 需要把topic name變成位元組的形式
        self._producer = \
            self._client.topics[
                settings['KAFKA_TOPIC_NAME'].encode(encoding="UTF-8")
            ].get_producer()

    def process_item(self, item, spider):
        """
        寫資料到Kafka
        :param item:
        :param spider:
        :return:
        """
        if spider.name == "KafkaScrapy":
            self._producer.produce(item['url'].encode(encoding="UTF-8"))
            return item

    def close_spider(self, spider):
        """
        結束之後關閉Kafka
        :return:
        """
        if spider.name == "KafkaScrapy":
            self._producer.stop()


複製程式碼

demo裡的消費者的程式碼核心功能, 主要就是接收資訊輸出到控制檯

php連線kafka
2017-11-23
PHPKafka
scrapy軟連線失效和pip軟連線失效
2018-03-19
flink連線消費kafka
2019-01-25
Kafka
php5.X連線kafka
2018-07-26
PHPKafka
在scrapy的pipelines中連線資料庫
2018-06-15
資料庫
在容器外部連線kafka失敗
2024-08-25
Kafka
Linux系統中KafKa安裝和使用方法 java客戶端連線kafka
2021-09-09
LinuxKafkaJava客戶端
長連線和短連線的使用
2019-06-15
Scrapy框架的使用之Scrapy入門
2018-05-02
框架
學習連連看連線線之謎+道具的使用
2018-01-16
Scrapy框架的使用之Scrapy通用爬蟲
2018-05-21
框架爬蟲
Scrapy框架的使用之Scrapy對接Splash
2018-05-18
框架
Scrapy框架的使用之Scrapy框架介紹
2018-05-02
框架
scrapy使用
2024-04-12
Scrapy框架的使用之Scrapy爬取新浪微博
2018-05-23
框架
多表外連線的使用
2015-06-30
使用mysql的長連線
2015-09-10
MySql
oracle 外連線的使用
2009-04-03
Oracle
Java Api Consumer 連線啟用Kerberos認證的Kafka
2018-08-23
JavaAPIROSKafka
Scrapy框架的使用之Scrapyrt的使用
2018-05-21
框架
proxool連線池如何使用SSL方式連線？
2010-08-26
Proxool 連線池的配置使用
2012-06-05
爬蟲框架-scrapy的使用
2021-04-28
爬蟲框架
Scrapy爬蟲框架的使用
2021-01-17
爬蟲框架
使用pyMySql 連線mysql
2018-04-03
MySql
php使用長連線
2017-11-12
PHP
外網無法連線Kafka叢集（報錯：NoBrokersAvailable）
2017-10-18
KafkaAI
SQL的四種連線:內連線左外連線右外連線全連線
2014-04-29
SQL
資料庫連線池的使用
2017-02-04
資料庫
使用iwctl連線無線網路
2024-07-27
【JDBC】使用OracleDataSource建立連線池用於連線Oracle
2021-04-08
JDBCOracle
scrapy 使用的基本流程和例子
2018-08-02
使用telnet連線redis
2018-09-15
Redis
使用表連線替代exists
2014-01-13
使用Xshell連線Ubuntu
2014-12-29
Ubuntu
mysql之使用SSL連線
2012-12-24
MySql
Tomcat連線池使用
2006-04-17
Tomcat
使用mysqlclient庫連線mysql
2024-04-20
MySqlclient

Scrapy Kafka的連線使用

完整程式碼在這: Here

準備工作

環境依賴

專案結構

需要注意的地方

Zookeeper安裝

Kafka安裝

核心程式碼

相關文章