Hadoop - 實時查詢Drill

weixin_34365417發表於2018-05-22

原文網址 : https://blog.csdn.net/weixin_34365417/article/details/87171864

1.概述

　　在現實業務當中，存在這樣的業務場景，需要實時去查詢HDFS上的相關儲存資料，普通的查詢（如：Hive查詢），時延較高。那麼，是否存在時延較小的查詢元件。在業界目前較為成熟的有Cloudera的Impala，Apache的Drill，Hortonworks的Stinger。本篇部落格主要為大家介紹Drill，其他兩種方式大家可以自行下去補充。

2.Drill Architecture

2.1 Cilent

　　使用Drill，可以通過以下方式進入到Drill當中，內容如下所示：

Drill shell：使用客戶端命令去操作
Drill Web Console：Web UI介面去操作相關內容
ODBC/JDBC：使用驅動介面操作
C++ API：C++的API介面

2.2 Drill Query Execution

　　執行流程如下圖所示：

2.3 Core Modules

　　核心模組圖，如下所示：

　　至於詳細的文字描述，這裡就不多做贅述了。大家看圖若是有疑惑的地方，可以去官方網站，檢視詳細的文件描述。［官方文件］

3.Drill使用

　　介紹完Drill的架構流程，下面我們可以去使用Drill去做相關查詢操作。安裝Drill的過程比較簡單，這裡就不多做詳細的贅述了。首先，去Apache的官網下載Drill的安裝包，這裡筆者所使用的本版是drill-1.2.0。可獨立部署在物理機上，不必與Hadoop叢集部署在一起。這裡需要注意的是，物理機的記憶體至少留有4G空閒給Drill去使用。不然，在執行查詢操作的時候會內容溢位，查詢Drill的官方文件，官方給出的解釋是，操作的內容都在內容中完成，不會寫磁碟，除非你強制指明去寫磁碟，但是，一般考慮到響應速度因素，都會在內容中完成。筆者曾試圖降低其記憶體配置小於4G，然並卵。所以，在使用Drill做查詢時，需要保證物理機空閒記憶體大於等於4G。

［JDK下載地址］
［Drill下載地址］

　　目前，Drill迭代版本比較快速。大家在下載Drill版本的時候，可以多多留意下版本內容變化。

　　在解壓Drill的壓縮包後，在其conf資料夾下有一個drill-override.conf檔案，這裡我們在裡面新增Web UI的訪問地址，新增的內容我們可以在drill-override-example.conf模版檔案中查詢對應的內容。新增內容如下所示：

drill.exec: {
  cluster-id: "drillbits1",
  zk.connect: "dn1:2181,dn2:2181,dn2:2181",
  http: {
    enabled: true,
    ssl_enabled: false,
    port: 8047
  }
}

　　這裡需要注意的是，Drill需要用ZK，這裡筆者就直接使用Hadoop叢集的ZooKeeper叢集連線資訊地址。在新增完內容後，可以使用以下命令啟動。

./drillbit.sh start

　　啟動之後，Web UI介面如下所示：

　　目前條件有限，只有單臺物理機，所以只部署了單臺Drill。若是，大家條件允許，可以檢視官網文件去部署Cluster。Drill外掛預設是沒有HDFS的，需要我們主動去建立，預設只有以下外掛，如下圖所示：

　　這裡，筆者已經配置過HDFS的外掛，故上圖出現HDFS外掛資訊，其配置資訊如下所示：

{
  "type": "file",
  "enabled": true,
  "connection": "hdfs://hadoop.company.com:9000/",
  "workspaces": {
    "root": {
      "location": "/opt/drill",
      "writable": true,
      "defaultInputFormat": null
    }
  },
  "formats": {
    "csv": {
      "type": "text",
      "extensions": [
        "csv"
      ],
      "delimiter": ","
    },
    "tsv": {
      "type": "text",
      "extensions": [
        "tsv"
      ],
      "delimiter": "\t"
    },
    "parquet": {
      "type": "parquet"
    }
  }
}

　　PS：這裡要保證HDFS的地址資訊正確。另外，Drill支援的儲存介質較多，大家參考官方文件去新增對應的儲存介質。

　　在新增HDFS外掛之後，我們可以通過Web UI介面的查詢介面進行檔案查詢，也可以使用Drill Shell命令在終端去查詢。查詢方式如下所示：

Web UI查詢命令：

Web UI結果如下：

　　另外，其查詢記錄詳情可以在Profiles模組下檢視。如下圖所示：

Drill Shell查詢：

./sqlline -u jdbc:drill:zk=dn1,dn2,dn3:2181

Drill Shell 查詢結果：

4.總結

　　這裡，筆者做過一個效能測試比較，數量級分別為10W，100W，1000W的不重複資料，其響應時間依次遞增。結果如下圖所示：

　　通過測試結果可以看出，若是數量級在100W時，響應時間平均在秒級別，可以嘗試用Drill去中OLTP業務。若是在1000W以上級別，顯然這個延時做OLTP是難以接受的，這個可以去做OLAP業務。

5.結束語

　　這篇部落格就和大家分享到這裡，如果大家在研究學習的過程當中有什麼問題，可以加群進行討論或傳送郵件給我，我會盡我所能為您解答，與君共勉！

如何實現模糊查詢時間段
2020-12-03
北京實時公交查詢——Flutter 入坑實戰
2019-02-12
Flutter
使用 NineData 實現備份集的實時查詢
2023-01-17
例項講解hadoop中的map/reduce查詢(python語言實現
2021-09-09
HadoopPython
如何使用 Milvus 向量資料庫實現實時查詢
2022-04-01
資料庫
MySQL查詢時間段
2018-12-11
MySql
JPA時間段查詢
2021-09-09
SSH：hiberate實現資料的查詢（單查詢和全查詢）
2019-01-01
概括SQL Server實時查詢Oracle資料庫WS
2022-03-21
SQLServerOracle資料庫
Laravel Query Builder 複雜查詢案例：子查詢實現分割槽查詢 partition by
2018-11-27
LaravelUI
jQuery 條件搜尋查詢實時取值升降序排序
2018-10-18
jQuery排序
查詢https證書到期時間
2018-11-07
HTTP
Oracle日期時間範圍查詢
2019-01-09
Oracle
MySQL字串轉時間戳查詢
2024-12-09
MySql字串時間戳
【搜尋引擎】Solr全文檢索近實時查詢優化
2019-06-27
Solr優化
實踐006-elasticsearch查詢之1-URI Search查詢
2022-05-05
Elasticsearch
PB級資料實時查詢，滴滴Elasticsearch多叢集架構實踐
2022-12-06
Elasticsearch架構
SQL查詢的：子查詢和多表查詢
2020-11-18
SQL
查詢同時附帶查主表的第二列
2024-04-16
BST查詢結構與折半查詢方法的實現與實驗比較
2023-01-05
mysql-分組查詢-子查詢-連線查詢-組合查詢
2020-12-22
MySql
indexdb實現分頁查詢
2022-01-16
Index
python實現查詢糾錯
2021-09-11
Python
mysql多表查詢如何實現
2021-09-11
MySql
折半查詢（C++實現）
2020-12-07
C++
這個實時公交查詢小程式，支援全國 100 個城市
2018-12-13
【手機在網狀態查詢】實時更新，準確率99.99%
2023-03-15
ssl證書到期時間查詢方法
2019-01-21
SQL Server 查詢超時問題排查
2024-05-22
SQLServer
使用.NET查詢日出日落時間
2024-05-09
fastadmin中快速搜尋時執行查詢的欄位預設查詢id
2024-05-31
AST
C/C++,Qt,Python,OpenCV小專案實戰-實時桌面顏色查詢
2020-04-07
C++QTPythonOpenCV
複雜查詢—子查詢
2020-11-16
查詢——二分查詢
2020-09-18
HTML + CSS + JS 利用郵編查詢 API 實現郵編查詢工具
2023-04-26
HTMLCSSJSAPI
實踐007-elasticsearch查詢之2-Request Body與DSL查詢
2022-05-06
Elasticsearch
iPhone序列號和保修期怎麼查？iPhone序列號查詢啟用時間查詢教程
2018-11-26
iPhone
MYSQL學習筆記25: 多表查詢(子查詢)[標量子查詢,列子查詢]
2024-03-10
MySql筆記