Hadoop－Drill深度剖析

哥不是小蘿莉發表於2015-11-28

原文網址 : http://www.cnblogs.com/smartloli/p/5002435.html

1.概述

　　在《Hadoop - 實時查詢Drill》一文當中，筆者給大家介紹如何去處理實時查詢這樣的業務場景，也是簡略的提了一下如何去實時查詢HDFS，然起相關細節並未說明。今天給大家細說一下相關細節，其中包含：HDFS，Hive以及HBase等內容。

2.資料來源和檔案格式

　　在使用Drill去做實時查詢，由於其只是一箇中介軟體，其適配的儲存介質是有限制的，目前官方支援以下儲存介質：

FS
HDFS
HBase
Hive
RDBMS
MongoDB
MapR-DB
S3

　　這裡筆者主要給大家介紹HDFS，Hive，HBase這三種介質。另外，Drill支援以下輸入格式的資料來源：

Avro
CSV
TSV
PSV
Parquet
MapR-DB*
Hadoop Sequence Files

2.1 文字型別檔案（CSV，TSV，PSV）

　　下面筆者給大家介紹文字型別的相關細節，文字型別的使用，有其固定的使用方法，通用配置如下：

"formats": {
    "csv": {
      "type": "text",
      "extensions": [
        "txt"
      ],
      "delimiter": "\t"
    },
    "tsv": {
      "type": "text",
      "extensions": [
        "tsv"
      ],
      "delimiter": "\t"
    },
    "parquet": {
      "type": "parquet"
    }
  }

　　這裡以CSV為例子來說明：

"csv"：表示固定的文字格式
"type"：制定檔案的型別，這裡指定為文字型別
"extensions"：副檔名為csv
"delimiter"：文字內容，每行的分隔符為一個tab佔位符

　　上面的配置，這裡我們也可以進行擴充，比如我們的HDFS上的檔案格式如下圖所示：

　　我們要達到以下查詢結果，內容如下所示：

0: jdbc:drill:zk=local> SELECT * FROM hdfs.`/tmp/csv_with_header.csv2`;
+------------------------+
|        columns         |
+------------------------+
| ["hello","1","2","3"]  |
| ["hello","1","2","3"]  |
| ["hello","1","2","3"]  |
| ["hello","1","2","3"]  |
| ["hello","1","2","3"]  |
| ["hello","1","2","3"]  |
| ["hello","1","2","3"]  |
+------------------------+

　　那麼，我們可以對其做以下配置，內容如下所示：

"csv": {
  "type": "text",
  "extensions": [
    "csv2"
  ],
  "skipFirstLine": true,
  "delimiter": ","
},

　　這裡skipFirstLine這個屬性表示忽略一行結果。

　　另外，同樣用到上面的資料來源，我們要實現以下查詢結果，內容如下所示：

0: jdbc:drill:zk=local> SELECT * FROM hdfs.`/tmp/csv_with_header.csv2`;
+-------+------+------+------+
| name  | num1 | num2 | num3 |
+-------+------+------+------+
| hello |   1  |   2  |   3  |
| hello |   1  |   2  |   3  |
| hello |   1  |   2  |   3  |
| hello |   1  |   2  |   3  |
| hello |   1  |   2  |   3  |
| hello |   1  |   2  |   3  |
| hello |   1  |   2  |   3  |
+-------+------+------+------+

　　這該如何去修改CSV的屬性，我們新增以下內容即可：

"csv": {
  "type": "text",
  "extensions": [
    "csv2"
  ],
  "skipFirstLine": false,
  "extractHeader": true,
  "delimiter": ","
},

　　從單詞的意義上可以很直接的讀懂屬性所要表達的意思，這裡就不多做贅述了。由於篇幅問題，這裡就不一一列舉了。

　　其他格式檔案與此類似，填寫指定檔案格式，檔案型別，副檔名，文字分隔符即可，其他擴充套件屬性可按需新增。

3.Plugins

3.1 HDFS

　　整合HDFS的Plugins，新增內容如下所示：

{
  "type": "file",
  "enabled": true,
  "connection": "hdfs://hdfs.company.com:9000/",
  "workspaces": {
    "root": {
      "location": "/opt/drill",
      "writable": true,
      "defaultInputFormat": null
    }
  },
  "formats": {
    "csv": {
      "type": "text",
      "extensions": [
        "txt"
      ],
      "delimiter": "\t"
    },
    "tsv": {
      "type": "text",
      "extensions": [
        "tsv"
      ],
      "delimiter": "\t"
    },
    "parquet": {
      "type": "parquet"
    }
  }
}

　　PS：連線HDFS地址注意要正確。

3.2 Hive

　　整合Hive的Plugins，新增內容如下所示：

{
  "type": "hive",
  "enabled": true,
  "configProps": {
    "hive.metastore.uris": "thrift://hdfs.company.com:9083",
    "fs.default.name": "hdfs://hdfs.company.com/",
    "hive.metastore.sasl.enabled": "false"
  }
}

　　PS：這裡需要指定Hive的metastore的thrift地址，同時也需要指定hdfs的地址。另外，我們需要啟動metastore的thrift服務，命令如下所示：

hive --service metastore

　　這裡需要注意的是，Drill當前不支援寫操作到Hive表，在將Hive表結構中的資料型別做查詢對映時，支援以下型別：

支援的SQL型別	Hive型別
BIGINT	BIGINT
BOOLEAN	BOOLEAN
VARCHAR	CHAR
DATE	DATE
DECIMAL*	DECIMAL
FLOAT	FLOAT
DOUBLE	DOUBLE
INTEGER	INT,TINYINT,SMALLINT
INTERVAL	N/A
TIME	N/A
N/A	TIMESPAMP　　(unix的系統時間)
TIMESPAMP	TIMESPAMP　　(JDBC時間格式：yyyy-mm-dd hh:mm:ss)
None	STRING
VARCHAR	VARCHAR
VARBINARY	BINARY

　　另外，在Drill中，不支援以下Hive型別：

LIST
MAP
STRUCT
TIMESTAMP（Unix Epoch format）
UNION

3.3 HBase

　　整合HBase的Plugins，新增內容如下所示：

{
  "type": "hbase",
  "config": {
    "hbase.zookeeper.quorum": "hbase-zk01,hbase-zk02,hbase-zk03",
    "hbase.zookeeper.property.clientPort": "2181"
  },
  "size.calculator.enabled": false,
  "enabled": true
}

　　PS：在使用ZooKeeper叢集連線資訊時，需要注意的是，Drill在解析HBase的Plugins時，會解析其HBase叢集上的ZK叢集資訊，如：在HBase叢集中的ZK資訊配置使用的時域名，這裡在配置其HBase的Plugins的ZK連線資訊也需使用對應的域名，若是直接填寫IP，解析會失敗。保證解析的一致性。

4.總結

　　另外，在使用JDBC或ODBC去操作Drill的時候，連線資訊的使用是需要注意的，直接按照官方給出的連線方式硬套是有問題的，這裡我們修改以下連線資訊。連線分2種情況，一種指定其Drill的IP和PORT，第二種，使用ZK的連線方式，如jdbc:drill:zk=dn1,dn2,dn3:2181即可。

5.結束語

　　這篇部落格就和大家分享到這裡，如果大家在研究學習的過程當中有什麼問題，可以加群進行討論或傳送郵件給我，我會盡我所能為您解答，與君共勉！

深度剖析 Runtime
2023-05-18
offsetParent、offsetLeft/offsetTop深度剖析
2018-12-22
spark核心原始碼深度剖析
2018-08-15
Spark原始碼
深度剖析Reflect + 實戰案例
2021-03-07
深度剖析Spring Cloud底層原理
2019-04-08
SpringCloud
[Android] Toast問題深度剖析(二)
2018-11-20
AndroidAST
[Android] Toast問題深度剖析(一)
2018-11-20
AndroidAST
Spring AOP 原理原始碼深度剖析
2019-02-27
Spring原始碼
Tinyalsa PCM API 實現深度剖析
2023-10-16
API
深度剖析Saga分散式事務
2021-11-23
分散式
深度剖析分散式事務效能
2021-10-11
分散式
深度剖析isinstance的檢查機制
2019-02-16
Axios原始碼深度剖析 – AJAX新王者
2019-03-03
iOS原始碼
深度剖析卷積神經網路
2018-05-23
卷積神經網路
Axios原始碼深度剖析 - AJAX新王者
2018-05-28
iOS原始碼
DartVM GC 深度剖析｜得物技術
2024-02-06
DartGC
Flutter Dio原始碼分析(三)--深度剖析
2021-08-30
Flutter原始碼
Kafka面試知識點深度剖析
2020-12-23
Kafka面試
整合原始碼深度剖析：Fescar x Spring Cloud
2019-04-09
原始碼SpringCloud
JProfiler for Mac：深度剖析Java應用程式效能
2023-12-22
MacJava
深度剖析免費OA系統是如何盈利
2018-10-16
學JS必看-JavaScript資料結構深度剖析
2019-01-07
JSJavaScript資料結構
深度剖析HBase負載均衡和效能指標
2018-10-13
負載指標
醫療防“統方”技術原理深度剖析
2018-05-25
Golang 定時器底層實現深度剖析
2020-06-19
Golang定時器
深度剖析遊戲直播的黃金時代
2020-09-01
遊戲
Hadoop 3.0 新特性原理及架構深度剖析
2020-04-04
Hadoop架構
【C++】 59_類别範本深度剖析
2019-05-09
C++
東郊到家服務生態的深度剖析
2024-08-06
電商商城創新商業模式深度剖析
2024-07-31
模式
ArrayDeque（JDK雙端佇列）原始碼深度剖析
2022-07-15
JDK佇列原始碼
深度剖析如何才是真正免費OA系統？
2022-12-08
萬字長文深度剖析 RocketMQ 設計原理
2022-05-13
MQ
Hive底層執行引擎的深度剖析（免費）
2020-06-02
Hive
Guava Cache：核心引數深度剖析和原始碼分析
2020-10-04
Guava原始碼
《破壞之王—DDoS攻擊與防範深度剖析》
2020-04-07
深度剖析定時器、提一嘴事件輪循
2019-03-04
定時器事件
PHP一句話木馬深度詳細剖析
2022-06-06
PHP
端智慧研發核心套件：MNN 工作臺深度剖析
2021-10-27
套件