Druid.io通過NiFi攝取流資料

Gin.p發表於2018-06-23

原文網址 : https://www.cnblogs.com/ginponson/p/9215651.html

NiFi是一個易於使用，功能強大且可靠的系統來處理和分發資料。

本文講述如何用NiFi將Http的Json資料傳到Druid。國外的一篇文章講到如何用NiFi將推文傳到Druid，https://community.hortonworks.com/articles/177561/streaming-tweets-with-nifi-kafka-tranquility-druid.html，資料來源稍有不同，但是走下來的流程大同小異，國情的原因我們使用自己Http來源代替:)

1、系統和環境

系統環境

centos7
jdk1.8.0_131

Http資料來源

IPProxyTool

關鍵軟體

NiFi.1.2.0漢化版
Druid.0.12.0
tranquility.0.8.0

2、攝取步驟

軟體安裝

略。網上可查，問題不大。

整體流程圖

Druid.io通過NiFi攝取流資料

資料來源

2.1、之所以選用IPProxyTool，一是資料返回json，二是較短時間可以產生新的資料。如果有更好的模擬資料，可以替換這個資料來源。
Druid.io通過NiFi攝取流資料
schedule的tab頁改為10s，即10s後同步一次資料。

2.1、轉換json
使用AttributesToJSON提取相關的json欄位。
Druid.io通過NiFi攝取流資料

2.2、提取json
EvaluateJsonPath只提取json陣列中第一個json物件。Druid不接受json陣列，相關Druid資料格式支援http://druid.io/docs/0.12.1/ingestion/data-formats.html
Druid.io通過NiFi攝取流資料

2.3、扁平化json
ReplaceText將格式化的json轉為單行的json。Druid不能識別格式化的json，相關Druid資料格式支援http://druid.io/docs/0.12.1/ingestion/data-formats.html
Druid.io通過NiFi攝取流資料

2.4、輸出資料到kafka
Druid.io通過NiFi攝取流資料

2.5、kafka建立新的主題

cd /opt/kafka

# 啟動kafka
./bin/kafka-server-start.sh config/server.properties
 
./kafka-topics.sh --create \
    --zookeeper localhost:2181  \
    --replication-factor 1 \
    --partitions 1 \
    --topic proxypool

2.6、建立Druid流任務json

{
  "dataSources" : {
    "proxypool" : {
      "spec" : {
        "dataSchema" : {
          "dataSource" : "proxypool",
          "parser" : {
            "type" : "string",
            "parseSpec" : {
              "timestampSpec" : {
                "column" : "save_time",
                "format" : "yyyy-MM-dd HH:mm:ss"
              },
              "dimensionsSpec" : {
                "dimensions" : [
                  "ip",
                  "port",
                  "https",
                  "anonymity",
                  "id"
                ]
              },
              "format" : "json"
            }
          },
          "granularitySpec" : {
            "type" : "uniform",
            "segmentGranularity" : "day",
            "queryGranularity" : "none"
          },
          "metricsSpec" : [
            {
              "name" : "count",
              "type" : "count"
            },
            {
              "name" : "speed",
              "type" : "doubleSum",
              "fieldName" : "speed"
            }
          ]
        },
        "ioConfig" : {
          "type" : "realtime"
        },
        "tuningConfig" : {
          "type" : "realtime",
          "maxRowsInMemory" : "100000",
          "intermediatePersistPeriod" : "PT10M",
          "windowPeriod" : "PT720000M"
        }
      },
      "properties" : {
        "task.partitions" : "1",
        "task.replicants" : "1",
        "topicPattern" : "proxypool"
      }
    }
  },
  "properties" : {
    "zookeeper.connect" : "localhost:2181",
    "druid.discovery.curator.path" : "/druid/discovery",
    "druid.selectors.indexing.serviceName" : "druid/overlord",
    "commit.periodMillis" : "15000",
    "consumer.numThreads" : "2",
    "kafka.zookeeper.connect" : "localhost:2181",
    "kafka.group.id" : "tranquility-kafka"
  }
}

複製這個json到：

cp proxypool-kafka.json /opt/druid/conf-quickstart/tranquility/

2.7、安裝tranquility

cd /opt/druid/conf-quickstart/tranquility
curl -O http://static.druid.io/tranquility/releases/tranquility-distribution-0.8.0.tgz
tar xzvf tranquility-distribution-0.8.0.tgz
tranquility-distribution-0.8.0
 
cd tranquility-distribution-0.8.0/
bin/tranquility kafka  -configFile ../proxypool-kafka.json

在NiFi右鍵執行，Druid就能間隔10s攝取Http的資料了:)
轉換json的步驟可以視情況去掉（例如非json陣列或者非格式化的json）

大資料流處理：Flume、Kafka和NiFi對比
2019-07-19
大資料KafkaNifi
如果通過流資料實現實時分析？
2022-03-14
獲取Wireshark資料流
2024-03-20
使用Java通過POI讀取EXCEL中的資料
2020-10-11
JavaExcel
Apache NIFI離線同步MySQL資料
2024-11-23
ApacheNifiMySql
通過了解 Redux 簡單原始碼，掌握 Redux 資料流原理
2018-08-08
Redux原始碼
如何通過SQL隱碼攻擊盜取資料庫資訊
2021-02-10
SQL資料庫
Druid.io系列4：索引過程分析
2018-04-30
UI索引
Druid.io系列5：查詢過程
2018-04-30
UI
Nifi：nifi的基本使用
2021-05-22
Nifi
探索前端黑科技——通過 png 圖的 rgba 值快取資料
2018-12-27
前端快取
Android 通過名稱獲取資源ID
2018-09-21
Android
通過web url獲取檔案資訊
2019-05-11
Web
有效資料湖攝取的5個最佳實踐
2018-12-07
VUE 元件間通訊---單向資料流
2019-10-11
Vue元件
RangeBitmap提升Java流資料過濾效能
2022-03-14
Java
JavaCV 採集攝像頭和麥克風資料推流直播
2021-04-10
Java
MySQL 通過 binlog 恢復資料
2018-12-06
MySql
2.3 通過DBCA建立資料庫
2020-02-28
資料庫
indexedDB 通過索引查詢資料
2019-07-27
Index索引
通過duplicat恢復資料庫
2021-11-18
資料庫
通過Web API查詢資料
2020-12-14
WebAPI
通過Websocket與gRPC互動 | gRPC雙向資料流的互動控制系列(2)
2018-10-22
WebRPC
如何通過資料管理影響資料質量
2022-06-06
Mysql資料庫是如何通過索引定位資料
2020-12-12
MySql資料庫索引
通過Vue的過濾器實現資料的資料脫敏
2020-10-12
Vue過濾器
Pinterest使用MemQ、Singer和Kafka最佳化大資料攝取
2022-05-06
RESTMQKafka大資料
Citus 分散式 PostgreSQL 叢集 - SQL Reference(攝取、修改資料 DML)
2022-03-28
分散式SQL
通過用shellcode獲取shell
2020-10-08
通過HTTP Header控制快取
2019-05-15
HTTPHeader快取
通過TCP碼流識別編碼
2020-04-06
TCP
使用 Excel 讀取 SAP ABAP CDS View 通過 ODBC 暴露出來的資料
2021-09-09
ExcelView
C語言讀取通達信資料
2024-04-18
C語言
Intellij IDEA 通過資料庫生成 POJO
2019-04-04
IntelliJIdea資料庫POJO
透過Python SDK 獲取tushare資料
2021-09-09
Python
Spark拉取Kafka的流資料，轉插入HBase中
2018-05-07
SparkKafka
解析大資料：從流資料攝取到互動式視覺化的完整生態系統
2024-03-12
大資料視覺化
檔案的複製通過字元流和緩衝流(Buffered)
2018-05-23
字元

Druid.io通過NiFi攝取流資料

1、系統和環境

系統環境

Http資料來源

關鍵軟體

2、攝取步驟

軟體安裝

整體流程圖

資料來源

相關文章