Hive架構

尊淵發表於2019-02-12

原文網址 : https://flycode.co/archives/136700

Hive架構

[toc]

概念

按照官網翻譯，Hive是一個使用SQL管理和使用基於分散式儲存的資料集的資料倉儲工具軟體。注意形容詞知道了幾個特點：

使用SQL
資料倉儲、管理資料集（表）
基於Hadoop

Hive的元件包括HCatalog和WebHCat。

HCatalog是Hadoop的表和儲存管理層，它使具有不同資料處理工具（包括Pig和MapReduce）的使用者能夠更輕鬆地在網格上讀寫資料。
WebHCat提供了一種服務，可用於執行Hadoop MapReduce（或YARN），Pig，Hive作業。還可以使用HTTP（REST樣式）介面執行Hive後設資料操作。

架構

照例先說下架構圖
元件架構

這裡可以看到非常明確的元件關係。資料以檔案形式儲存在HDFS，執行期間使用者通過cli提交DDL 或者query SQL，DDL會與MetaStore互動，其中MetaStore負責儲存所有表資訊（meta），二querySQL會提交給Hive QL來做執行，這個通用資料庫都包含這樣的模組。其中包含sql解析，執行計劃生成和MR執行，會將sql以MR來執行。

MetaStore

MetaStore負責儲存所有的表schema和SerDe庫，還有表的HDFS地址等。Hive的表是以HDFS的檔案儲存的，資料模型如下：

執行

通常的sql引擎執行sql的能力其實沒有太多的要說的，hive會將sql解析為一個執行計劃來執行MapReduce，比如對於一個sql

select a,count(1) from t where c=1 group by a;

Hive會將其轉換為一個執行計劃比如下圖：

調優

因為本質上是分散式MapReduce模式，因此在寫Hive SQL時，我們要了解不同表的資料量和資料分佈，在group by聚合以及join操作時避免傾斜。Hive本身LanguageManuel[6]中有對於Join Optimization的介紹，包括了MapJoin的hint以及SMB join優化等。而阿里的ODPS（MaxCompute）服務也在2018年推出了Hash Clustering 和 Range Clustering特性。

總結

這是一篇非常簡略的筆記，因為本身hive就很簡單，但是具體數倉ETL研發過程中的變化和策略是非常多的。開篇後，希望後續有持續的積累和記錄。

圖片和內容引用

[4] https://www.slideshare.net/athusoo/hive-apachecon-2008-presentation?from_action=save
[5] https://www.slideshare.net/namit_jain/hive-demo-paper-at-vldb-2009
[6] https://cwiki.apache.org/confluence/display/Hive/LanguageManual

Hive簡介、應用場景及架構原理
2018-08-20
Hive架構
架構之:serverless架構
2021-07-13
架構Server
【細品架構4/100】架構之架構切分
2018-06-30
架構
SaaS架構：流程架構分析
2024-09-20
架構
單體架構&微服務架構&中臺服務架構
2018-09-06
架構微服務
架構師修煉之道（二）——架構？設計？架構師？
2019-07-22
架構
前端架構之小小node架構
2018-08-10
前端架構
單體架構到垂直架構
2024-03-27
架構
架構之:資料流架構
2021-06-18
架構
架構
2019-10-18
架構
架構演進之「微服務架構」
2019-03-01
架構微服務
MySQL 高可用架構之 MMM 架構
2019-08-12
MySql架構
【架構分析】MESA （EGL/GLES）架構分析
2020-10-13
架構
架構之:軟體架構漫談
2021-06-02
架構
架構之:微服務架構漫談
2021-06-29
架構微服務
解決方案架構、系統架構和企業架構區別
2024-02-26
架構
架構C01: 什麼是架構？為什麼做架構？架構師需要做什麼？
2020-06-04
架構
Hive：資料倉儲構建步驟
2018-10-16
Hive
架構師眼中的高併發架構
2019-03-29
架構
Spring Cloud雲架構-Restful 基礎架構
2019-03-01
SpringCloud架構REST
軟體架構風格——規則架構
2024-03-25
架構
架構設計之架構的演變
2024-06-15
架構
架構設計之一——基礎架構
2022-05-02
架構
軟體架構模式之微服務架構
2022-12-01
架構模式微服務
看阿里P9架構師如何向你定義架構及架構師
2018-03-23
阿里架構
聊聊架構
2019-03-20
架構
架構演化
2018-10-28
架構
架構之路
2018-08-18
架構
Istio架構
2018-08-01
架構
openGauss 架構
2024-05-13
架構
mvc架構
2020-09-30
MVC架構
FreeSWITCH架構
2019-05-20
架構
RocketMQ架構
2019-04-26
MQ架構
ARM架構
2024-11-10
架構
PostgreSQL 架構
2024-07-20
SQL架構
Docker 架構
2022-11-30
Docker架構
presto 架構
2022-06-27
REST架構
MySql架構
2021-04-29
MySql架構

Hive架構

概念

架構

MetaStore

執行

調優

總結

圖片和內容引用

相關文章