Hive的基本介紹以及常用函式

MXC肖某某發表於2020-06-04

原文網址 : https://www.cnblogs.com/bbgs-xc/p/13040600.html

一、Hive的簡介:

　　Hive是基於Hadoop的一個資料倉儲工具，可以將結構化的資料檔案對映為一張表，並提供類SQL查詢功能。

優點：

1) 操作介面採用類SQL語法，提供快速開發的能力（簡單、容易上手）。

2) 避免了去寫MapReduce，減少開發人員的學習成本。

3) Hive的執行延遲比較高，因此Hive常用於資料分析，對實時性要求不高的場合。

4) Hive優勢在於處理大資料，對於處理小資料沒有優勢，因為Hive的執行延遲比較高。

5) Hive支援使用者自定義函式，使用者可以根據自己的需求來實現自己的函式。

缺點：

1）Hive的HQL表達能力有限
2）Hive的效率比較低

二、Hive的架構圖

三、Hive的資料型別

基本資料型別：
　　Hive資料型別    Java資料型別 
　　TINYINT    　　 byte    
　　SMALINT    　　 short    
　　INT            int    
　　BIGINT    　　　long    
　　BOOLEAN    　　 boolean  
　　FLOAT    　　　 float    
　　DOUBLE    　　  double    
　　STRING         string   
　　TIMESTAMP      時間型別    
　　BINARY         位元組陣列    
集合
　　STRUCT  和c語言中的struct類似，都可以通過“點”符號訪問元素內容。例如，如果某個列的資料型別是STRUCT{first STRING, last STRING},那麼第1個元素可以通過欄位.first來引用。    
　　　　　　struct()  例如struct<street:string, city:string>
　　MAP     MAP是一組鍵-值對元組集合，使用陣列表示法可以訪問資料。例如，如果某個列的資料型別是MAP，其中鍵->值對是’first’->’John’和’last’->’Doe’，那麼可以通過欄位名[‘last’]獲取最後一個元素    
　　　　　　map()  例如map<string, int>
　　ARRAY   陣列是一組具有相同型別和名稱的變數的集合。這些變數稱為陣列的元素，每個陣列元素都有一個編號，編號從零開始。例如，陣列值為[‘John’, ‘Doe’]，那麼第2個元素可以通過陣列名[1]進行引用。    
　　　　　　Array()  例如array<string>

四、管理表和外部表

　　預設建立的表為管理表，有時也被稱為內部表。當我們刪除一個管理表時，Hive也會刪除這個表中資料。管理表不適合和其他工具共享資料。　　

　　新增關鍵字external建立的表是外部表，所以Hive並非認為其完全擁有這份資料。刪除該表並不會刪除掉這份資料，不過描述表的後設資料資訊會被刪除掉。

#查詢表的型別
desc formatted stu;
#修改內部表stu為外部表
alter table stuset tblproperties('EXTERNAL'='TRUE');
#修改外部表stu為內部表
alter table stuset tblproperties('EXTERNAL'='FALSE');
注意：('EXTERNAL'='TRUE')和('EXTERNAL'='FALSE')為固定寫法，區分大小寫！

清空表資料：

　管理表：truncate table stu;

　外部表：alter table stuset tblproperties('EXTERNAL'='FALSE'); 先改成內部表再執行清空：truncate table stu;

　　場景：每天將收集到的網站日誌定期流入HDFS文字檔案。在外部表（原始日誌表）的基礎上做大量的統計分析，用到的中間表、結果表使用內部表儲存，資料通過SELECT+INSERT進入內部表。

五、查詢常用函式

1，空欄位賦值

　　NVL( value，default_value)

2，when

　　case 欄位 when 值 then 替換值 else 替換值 end 同 if(boolean,值,另外值)

3，行轉列

CONCAT(string A/col, string B/col…)：返回輸入字串連線後的結果，支援任意個輸入字串; 
CONCAT_WS(separator, str1, str2,...)：它是一個特殊形式的 CONCAT()。第一個引數剩餘引數間的分隔符。分隔符可以是與剩餘引數一樣的字串。如果分隔符是 NULL，返回值也將為 NULL。這個函式會跳過分隔符引數後的任何 NULL 和空字串。分隔符將被加到被連線的字串之間;
COLLECT_SET(col)：函式只接受基本資料型別，它的主要作用是將某欄位的值進行去重彙總，產生array型別欄位。

4，列轉行

EXPLODE(col)：將hive一列中複雜的array或者map結構拆分成多行。
LATERAL VIEW
用法：LATERAL VIEW udtf(expression) tableAlias AS columnAlias
解釋：用於和split, explode等UDTF一起使用，它能夠將一列資料拆成多行資料，在此基礎上可以對拆分後的資料進行聚合。

5，視窗函式

OVER()：指定分析函式工作的資料視窗大小，這個資料視窗大小可能會隨著行的變而變化。
CURRENT ROW：當前行
n PRECEDING：往前n行資料
n FOLLOWING：往後n行資料
UNBOUNDED：起點，UNBOUNDED PRECEDING 表示從前面的起點， UNBOUNDED FOLLOWING表示到後面的終點
LAG(col,n,default_val)：往前第n行資料
LEAD(col,n, default_val)：往後第n行資料
NTILE(n)：把有序分割槽中的行分發到指定資料的組中，各個組有編號，編號從1開始，對於每一行，NTILE返回此行所屬的組的編號。注意：n必須為int型別。

6，Rank

RANK() 排序相同時會重複，總數不會變
DENSE_RANK() 排序相同時會重複，總數會減少
ROW_NUMBER() 會根據順序計算

7，時間

#均只適合yyyy-MM-dd HH:mm:ss格式的時間，當然時分秒可以省略
date_format:格式化時間select date_format('2020-06-04','yyyy-MM');2020-06
date_add:   時間跟天數相加select date_add('2020-06-04',5);2020-06-09
date_sub:   時間跟天數相減select date_sub('2020-06-04',5);2020-05-30
datediff:   兩個時間相減select datediff('2020-06-04','2020-05-10');25
year:       獲取年select year('2020-06-04');2020
month:      獲取月份select month('2020-06-04');04
day:        獲取日select day('2020-06-04');04

格式轉換
regexp_replace: 欄位,原格式,替換的格式;select regexp_replace('2020/05/04','/','-');2020-05-04

oracle常用函式介紹
2018-10-21
Oracle函式
Hive（五）常用函式
2024-10-09
Hive函式
Tensorflow教程（2）Tensorflow的常用函式介紹
2019-07-14
函式
java的基本函式（介紹）--過載概念、基本應用
2020-10-03
Java函式
機器學習基本函式介紹
2020-12-05
機器學習函式
Hive常用函式及自定義函式
2018-06-08
Hive函式
einsum函式介紹-張量常用操作
2022-05-08
函式
介紹4個大神常用而你不常用的python函式
2018-11-08
Python函式
Aspose.Words for .NET基本介紹以及功能介紹
2018-08-14
函式程式設計基本原理介紹
2018-11-18
函式程式設計
match函式簡單介紹以及與index函式結合應用
2018-08-20
函式Index
Python資料分析--Numpy常用函式介紹(3)
2022-05-23
Python函式
Python資料分析--Numpy常用函式介紹(2)
2022-05-21
Python函式
Fiddler（1）基本介紹以及工作原理
2024-03-26
stoi函式介紹
2024-11-16
函式
HIVE基本語法以及HIVE分割槽
2018-09-20
Hive
Python資料分析--Numpy常用函式介紹(5)--Numpy中的相關性函式
2022-06-01
Python函式
javascript函式中with的介紹
2018-10-26
JavaScript函式
Hue-hive sql常用函式詳解
2020-04-05
HiveSQL函式
【重溫基礎】JS中的常用高階函式介紹
2019-02-16
JS函式
Hadoop Hive介紹
2018-07-11
HadoopHive
funclib函式庫介紹
2018-07-31
函式
cuda函式庫介紹
2024-05-25
函式
分散式賬本基本介紹
2022-05-18
分散式
javascript中generator函式的介紹
2021-09-11
JavaScript函式
javascript高階函式的介紹
2021-09-11
JavaScript函式
Stream流的基本介紹以及在工作中的常用操作（去重、排序以及數學運算等）
2022-01-30
排序
hive常用的一些高階函式彙總
2023-05-04
Hive函式
hive函式
2020-12-14
Hive函式
Python資料分析--Numpy常用函式介紹(7)--Numpy中矩陣和通用函式
2022-06-08
Python函式矩陣
Java集合框架的概念以及常用介面的介紹
2018-03-28
Java框架
Dart建構函式介紹
2019-07-30
Dart函式
Python之函式的相關介紹
2021-09-11
Python函式
Angular 14 新的 inject 函式介紹
2022-11-06
Angular函式
Hive函式大全
2018-08-20
Hive函式
【hive】中的concat函式
2018-12-19
Hive函式
RabbitMQ 的應用場景以及基本原理介紹
2019-04-13
MQ
RabbitMQ的應用場景以及基本原理介紹
2020-07-03
MQ