kafka connect,將資料批量寫到hdfs完整過程

zzzzMing發表於2018-03-23

版權宣告:本文為博主原創文章,未經博主允許不得轉載

本文是基於hadoop 2.7.1,以及kafka 0.11.0.0。kafka-connect是以單節點模式執行,即standalone。

 

一. 首先,先對kafka和kafka connect做一個簡單的介紹

  kafka:Kafka是一種高吞吐量的分散式釋出訂閱訊息系統,它可以處理消費者規模的網站中的所有動作流資料。比較直觀的解釋就是其有一個生產者(producer)和一個消費者(consumer)。可以將kafka想象成一個資料容器,生產者負責傳送資料到這個容器中,而消費者從容器中取出資料,在將資料做處理,如儲存到hdfs。

  kafka connect:Kafka Connect是一種用於在Kafka和其他系統之間可擴充套件的、可靠的流式傳輸資料的工具。它使得能夠快速定義將大量資料集合移入和移出Kafka的聯結器變得簡單。即適合批量資料匯入匯出操作。

 

 

二. 下面將介紹如何用kafka connect將資料寫入到hdfs中。包括在這個過程中可能碰到的一些問題說明。

首先啟動kafka-connect:


bin/connect-standalone.sh config/connect-standalone.properties config/connector1.properties
這個命令後面兩個引數,
  第一個是指定啟動的模式,有分散式和單節點兩種,這裡是單節點。kafka自帶,放於config目錄下。
  第二個引數指向描述connector的屬性的檔案,可以有多個,這裡只有一個connector用來寫入到hdfs。需要自己建立。

接下來看看connector1.properties的內容,
name="test"    #該connector的名字
#
將自己按connect介面規範編寫的程式碼打包後放在kafka/libs目錄下,再根據專案結構引用對應connector

connector.class=hdfs.HdfsSinkConnector
#Task是匯入匯出的具體實現,這裡是指定多少個task來並行執行匯入匯出作業,由多執行緒實現。由於hdfs中一個檔案每次只能又一個檔案操作,所以這裡只能是1
tasks.max=1 
#指定從哪個topic讀取資料,這些其實是用來在connector或者task的程式碼中讀取的。
topics=test
#指定key以那種方式轉換,需和Producer傳送方指定的序列化方式一致
key.converter=org.apache.kafka.connect.converters.ByteArrayConverter

value.converter=org.apache.kafka.connect.json.JsonConverter #同上
hdfs.url=hdfs://127.0.0.1:9000  #hdfs的url路徑,在Connector中會被讀取
hdfs.path=/test/file  #hdfs檔案路徑,同樣Connector中被讀取

key.converter.schemas.enable=true  #稍後介紹,可以true也可以false,影響傳輸格式
value.converter.schemas.enable=true  #稍後介紹,可以true也可以false


三. 接下來看程式碼,connect主要是匯入匯出兩個概念,匯入是source,匯出時Sink。這裡只使用Sink,不過Source和Sink的實現其實基本相同。
實現Sink其實不難,實現對應的介面,即
SinkConnector和SinkTask兩個介面,再打包放到kafka/libs目錄下即可。其中SinkConnector只有一個,而Task可以有多
先是Connector
public class HdfsSinkConnector extends SinkConnector {
    //這兩項為配置hdfs的urlh和路徑的配置項,需要在connector1.properties中指定
    public static final String HDFS_URL = "hdfs.url";
    public static final String HDFS_PATH = "hdfs.path";
    private static final ConfigDef CONFIG_DEF = new ConfigDef()
            .define(HDFS_URL, ConfigDef.Type.STRING, ConfigDef.Importance.HIGH, "hdfs url")
            .define(HDFS_PATH, ConfigDef.Type.STRING, ConfigDef.Importance.HIGH, "hdfs path");
    private String hdfsUrl;
    private String hdfsPath;
    @Override
    public String version() {
        return AppInfoParser.getVersion();
    }
  //start方法會再初始的時候執行一次,這裡主要用於配置 @Override
public void start(Map<String, String> props) { hdfsUrl = props.get(HDFS_URL); hdfsPath = props.get(HDFS_PATH); }   //這裡指定了Task的類 @Override public Class<? extends Task> taskClass() { return HdfsSinkTask.class; }   //用於配置Task的config,這些都是會在Task中用到 @Override public List<Map<String, String>> taskConfigs(int maxTasks) { ArrayList<Map<String, String>> configs = new ArrayList<>(); for (int i = 0; i < maxTasks; i++) { Map<String, String> config = new HashMap<>(); if (hdfsUrl != null) config.put(HDFS_URL, hdfsUrl); if (hdfsPath != null) config.put(HDFS_PATH, hdfsPath); configs.add(config); } return configs; }   //關閉時的操作,一般是關閉資源。 @Override public void stop() { // Nothing to do since FileStreamSinkConnector has no background monitoring. } @Override public ConfigDef config() { return CONFIG_DEF; } }

接下來是Task

public class HdfsSinkTask extends SinkTask {
    private static final Logger log = LoggerFactory.getLogger(HdfsSinkTask.class);

    private String filename;

    public static String hdfsUrl;
    public static String hdfsPath;
    private Configuration conf;
    private FSDataOutputStream os;
    private FileSystem hdfs;


    public HdfsSinkTask(){

    }

    @Override
    public String version() {
        return new HdfsSinkConnector().version();
    }
  //Task開始會執行的程式碼,可能有多個Task,所以每個Task都會執行一次
    @Override
    public void start(Map<String, String> props) {
        hdfsUrl = props.get(HdfsSinkConnector.HDFS_URL);
        hdfsPath = props.get(HdfsSinkConnector.HDFS_PATH);
        System.out.println("----------------------------------- start--------------------------------");

        conf = new Configuration();
        conf.set("fs.defaultFS", hdfsUrl);
        //這兩個是與hdfs append相關的設定
        conf.setBoolean("dfs.support.append", true);
        conf.set("dfs.client.block.write.replace-datanode-on-failure.policy", "NEVER");
        try{
            hdfs = FileSystem.get(conf);
//            connector.hdfs = new Path(HDFSPATH).getFileSystem(conf);
            os = hdfs.append(new Path(hdfsPath));
        }catch (IOException e){
            System.out.println(e.toString());
        }

    }
  //核心操作,put就是將資料從kafka中取出,存放到其他地方去
    @Override
    public void put(Collection<SinkRecord> sinkRecords) {
        for (SinkRecord record : sinkRecords) {
            log.trace("Writing line to {}: {}", logFilename(), record.value());
            try{
                System.out.println("write info------------------------" + record.value().toString() + "-----------------");
                os.write((record.value().toString()).getBytes("UTF-8"));
                os.hsync();
            }catch(Exception e){
                System.out.print(e.toString());
            }
        }
    }

    @Override
    public void flush(Map<TopicPartition, OffsetAndMetadata> offsets) {
        try{
            os.hsync();
        }catch (Exception e){
            System.out.print(e.toString());
        }

    }
  //同樣是結束時候所執行的程式碼,這裡用於關閉hdfs資源 @Override
public void stop() { try { os.close(); }catch(IOException e){ System.out.println(e.toString()); } } private String logFilename() { return filename == null ? "stdout" : filename; } }

這裡重點提一下,因為在connector1.propertise中設定了key.converter=org.apache.kafka.connect.converters.ByteArrayConverter,所以不能用命令列形式的
producer傳送資料,而是要用程式的方式,並且在producer總也要設定key的序列化形式為org.apache.kafka.common.serialization.ByteArraySerializer
編碼完成,先用idea以開發程式與依賴包分離的形式打包成jar包,然後將程式對應的jar包(一般就是“專案名.jar”)放到kafka/libs目錄下面,這樣就能被找到。


四. 接下來對這個過程的問題做一個彙總。
1.在connector1.properties中的key.converter.schemas.enable=false和value.converter.schemas.enable=false的問題。
這個選項預設在connect-standalone.properties中是true的,這個時候傳送給topic的Json格式是需要使用avro格式,具體情況可以百度,這裡給出一個樣例。
{
    "schema": {
        "type": "struct",
        "fields": [{
            "type": "int32",
            "optional": true,
            "field": "c1"
        }, {
            "type": "string",
            "optional": true,
            "field": "c2"
        }, {
            "type": "int64",
            "optional": false,
            "name": "org.apache.kafka.connect.data.Timestamp",
            "version": 1,
            "field": "create_ts"
        }, {
            "type": "int64",
            "optional": false,
            "name": "org.apache.kafka.connect.data.Timestamp",
            "version": 1,
            "field": "update_ts"
        }],
        "optional": false,
        "name": "foobar"
    },
    "payload": {
        "c1": 10000,
        "c2": "bar",
        "create_ts": 1501834166000,
        "update_ts": 1501834166000
    }
}  

主要就是schema和payload這兩個,不按照這個格式會報錯如下


org.apache.kafka.connect.errors.DataException: JsonConverter with schemas.enable requires "schema" and "payload" fields and may not contain additional fields. If you are trying to deserialize plain JSON data, set schemas.enable=false in your converter configuration.

   at org.apache.kafka.connect.json.JsonConverter.toConnectData(JsonConverter.java:308)

如果想傳送普通的json格式而不是avro格式的話,很簡單key.converter.schemas.enable和value.converter.schemas.enable設定為false就行。這樣就能傳送普通的json格式資料。

2.在啟動的過程中出現各種各樣的java.lang.ClassNotFoundException。

在啟動connector的時候,一開始總是會報各個各樣的ClassNotFoundException,不是這個包就是那個包,查詢問題一直說要麼缺少包要麼是包衝突。這個是什麼原因呢?

其實歸根結底還是依賴衝突的問題,因為kafka程式自定義的類載入器載入類的目錄是在kafka/libs中,而寫到hdfs需要hadoop的包。

我一開始的做法是將hadoop下的包路徑新增到CLASSPATH中,這樣子問題就來了,因為kafka和hadoop的依賴包是有衝突的,比如hadoop是guava-11.0.2.jar,而kafka是guava-20.0.jar,兩個jar包版本不同,而我們是在kafka程式中呼叫hdfs,所以當jar包衝突時應該優先呼叫kafka的。但是注意kafka用的是程式自定義的類載入器,其優先順序是低於CLASSPATH路徑下的類的,就是說載入類時會優先載入CLASSPATH下的類。這樣子就有問題了。

我的解決方案時將kafka和hadoop載入的jar包路徑都新增到CLASSPATH中,並且kafka的路徑寫在hadoop前面,這樣就可以啟動connector成功。

 

---
推薦閱讀:
大資料儲存的進化史 --從 RAID 到 Hdfs
貝葉斯分類演算法例項 --根據姓名推測男女
從分治演算法到 MapReduce

 

相關文章