在hive中建立幾種表

榴芒姐姐發表於2020-11-14

1.建立內部表

create table 表名(
    屬性名 屬性型別,
    ...
    比如:
    name struct<first:string,last:string>,
    age int,
    hobbies array<string>,
    deliveryAdd map<string,string>
)
row format delimited
fields terminated by '|'
collection items terminated by ','
map keys terminated by ':'
lines terminated by '\n'
stored as textfile
;

2.建立外部表:

create external table 表名(
    屬性名 屬性型別,
    ...
    比如:
    name struct<first:string,last:string>,
    age int,
    hobbies array<string>,
    deliveryAdd map<string,string>
)
row format delimited
fields terminated by '|'
collection items terminated by ','
map keys terminated by ':'
lines terminated by '\n'
stored as textfile
;

建立外部表需要注意的是,表中的資料檔案存在hdfs檔案系統上,所以在資料庫中刪除只會刪除表結構,表中資料依然存在。如需刪除,需要使用以下命令:

hdfs dfs -rm -rf /檔案路徑;

3.建立分割槽表

create external table 表名(
    屬性名 屬性型別,
    ...
    比如:
    age int,
    hobbies array<string>,
    deliveryAdd map<string,string>
)
partitioned by(username string)
row format delimited
fields terminated by '|'
collection items terminated by ','
map keys terminated by ':'
lines terminated by '\n'
stored as textfile
;

這裡需要注意的是,上述分割槽是按照username來分割槽的。上傳檔案時使用以下命令:

load data local inpath '/檔案路徑/表1.log' into table 表名partition(username='表1');
load data local inpath '/檔案路徑/表2.log' [overwrite覆蓋] into table 表名partition(username='表2');

若需要檢視分割槽表結構,使用以下命令:

show partitions 表名;

4.建立分桶表(抽象的,方便抽樣,提高join查詢效率)

二選一:
set hive.enforce.bucketing = true;//優化
set mapreduce.reduce.tasks = num;//優化。設定mapreduce的數量和分桶數量一致

create external table 表名(
    屬性名 屬性型別,
    ...
    比如:
    name struct<first:string,last:string>,
    age int,
    hobbies array<string>,
    deliveryAdd map<string,string>
)
clustered by(name) into n buckets
row format delimited
fields terminated by '|'
collection items terminated by ','
map keys terminated by ':'
lines terminated by '\n'
stored as textfile
;

建立表之後,需要做以下操作:

在表建立好後,需要將表中資料上傳,放至表中:

load data [local] inpath '檔案路徑' into table 表名;

local:本地上傳

將資料檔案掛到hdfs檔案系統上用以下命令:

hdfs dfs -put 資料檔案 /目錄

5.with語法:可以理解成檢視。目的:封裝重用。是一個臨時結果集

with
臨時表名 as (select ... from 表名 where 屬性名=' '),
select *from 臨時表名;

 

相關文章