hive學習筆記之三:內部表和外部表

程式設計師欣宸發表於2021-07-01

歡迎訪問我的GitHub

https://github.com/zq2599/blog_demos

內容:所有原創文章分類彙總及配套原始碼,涉及Java、Docker、Kubernetes、DevOPS等;

《hive學習筆記》系列導航

  1. 基本資料型別
  2. 複雜資料型別
  3. 內部表和外部表
  4. 分割槽表
  5. 分桶
  6. HiveQL基礎
  7. 內建函式
  8. Sqoop
  9. 基礎UDF
  10. 使用者自定義聚合函式(UDAF)
  11. UDTF

本篇概覽

  • 本文是《hive學習筆記》系列的第三篇,要學習的是各種型別的表及其特點,主要內容如下:
  1. 建庫
  2. 內部表(也叫管理表或臨時表)
  3. 外部表
  4. 表的操作
    接下來從最基本的建庫開始

建庫

  1. 建立名為test的資料庫(僅當不存在時才建立),新增備註資訊test database
create database if not exists test 
comment 'this is a database for test';
  1. 檢視資料庫列表(名稱模糊匹配):
hive> show databases like 't*';
OK
test
test001
Time taken: 0.016 seconds, Fetched: 2 row(s)
  1. describe database命令檢視此資料庫資訊:
hive> describe database test;
OK
test	this is a database for test	hdfs://node0:8020/user/hive/warehouse/test.db	hadoop	USER	
Time taken: 0.035 seconds, Fetched: 1 row(s)
  1. 上述命令可見,test資料庫在hdfs上的儲存位置是hdfs://node0:8020/user/hive/warehouse/test.db,開啟hadoop的web頁面,檢視hdfs目錄,如下圖,該路徑的資料夾已經建立,並且是以.db結尾的:

在這裡插入圖片描述
5. 新建資料庫的資料夾都在/user/hive/warehouse下面,這是在中配置的,如下圖紅框:

在這裡插入圖片描述
6. 刪除資料庫,加上if exists,當資料庫不存在時,執行該語句不會返回Error:

hive> drop database if exists test;
OK
Time taken: 0.193 seconds

以上就是常用的庫相關操作,接下來實踐表相關操作;

內部表

  1. 按照表資料的生命週期,可以將表分為內部表和外部表兩類;
  2. 內部表也叫管理表或臨時表,該型別表的生命週期時由hive控制的,預設情況下資料都存放在/user/hive/warehouse/下面;
  3. 刪除表時資料會被刪除;
  4. 以下命令建立的就是內部表,可見前面兩篇文章中建立的表都是內部表:
create table t6(id int, name string)
row format delimited 
fields terminated by ',';
  1. t6表新增一條記錄:
insert into t6 values (101, 'a101');
  1. 使用hadoop命令檢視hdfs,可見t6表有對應的資料夾,裡面的檔案儲存著該表資料:
[hadoop@node0 bin]$ ./hadoop fs -ls /user/hive/warehouse/t6
Found 1 items
-rwxr-xr-x   3 hadoop supergroup          9 2020-10-31 11:14 /user/hive/warehouse/t6/000000_0
  1. 檢視這個000000_0檔案的內容,如下可見,就是表內的資料:
[hadoop@node0 bin]$ ./hadoop fs -cat /user/hive/warehouse/t6/000000_0
101	a101
  1. 執行命令drop table t6;刪除t6表,再次檢視t6表對應的檔案,發現整個資料夾都不存在了:
[hadoop@node0 bin]$ ./hadoop fs -ls /user/hive/warehouse/
Found 5 items
drwxr-xr-x   - hadoop supergroup          0 2020-10-27 20:42 /user/hive/warehouse/t1
drwxr-xr-x   - hadoop supergroup          0 2020-10-29 00:13 /user/hive/warehouse/t2
drwxr-xr-x   - hadoop supergroup          0 2020-10-29 00:14 /user/hive/warehouse/t3
drwxr-xr-x   - hadoop supergroup          0 2020-10-29 13:04 /user/hive/warehouse/t4
drwxr-xr-x   - hadoop supergroup          0 2020-10-29 16:47 /user/hive/warehouse/t5

外部表

  1. 建立表的SQL語句中加上external,建立的就是外部表了;
  2. 外部表的資料生命週期不受Hive控制;
  3. 刪除外部表的時候不會刪除資料;
  4. 外部表的資料,可以同時作為多個外部表的資料來源共享使用;
  5. 接下來開始實踐,下面是建表語句:
create external table t7(id int, name string)
row format delimited 
fields terminated by ','
location '/data/external_t7';
  1. 檢視hdfs檔案,可見目錄/data/external_t7/已經建立:
[hadoop@node0 bin]$ ./hadoop fs -ls /data/
Found 1 items
drwxr-xr-x   - hadoop supergroup          0 2020-10-31 12:02 /data/external_t7
  1. 新增一條記錄:
insert into t7 values (107, 'a107');
  1. 在hdfs檢視t7表對應的資料檔案,可以見到新增的內容:
[hadoop@node0 bin]$ ./hadoop fs -ls /data/external_t7
Found 1 items
-rwxr-xr-x   3 hadoop supergroup          9 2020-10-31 12:06 /data/external_t7/000000_0
[hadoop@node0 bin]$ ./hadoop fs -cat /data/external_t7/000000_0
107,a107
  1. 試試多個外部表共享資料的功能,執行以下語句再建個外部表,名為t8,對應的儲存目錄和t7是同一個:
create external table t8(id_t8 int, name_t8 string)
row format delimited 
fields terminated by ','
location '/data/external_t7';
  1. 建好t8表後立即檢視資料,發現和t7表一模一樣,可見它們已經共享了資料:
hive> select * from t8;
OK
107	a107
Time taken: 0.068 seconds, Fetched: 1 row(s)
hive> select * from t7;
OK
107	a107
Time taken: 0.074 seconds, Fetched: 1 row(s)
  1. 接下來刪除t7表,再看t8表是否還能查出資料,如下可見,資料沒有被刪除,可以繼續使用:
hive> drop table t7;
OK
Time taken: 1.053 seconds
hive> select * from t8;
OK
107	a107
Time taken: 0.073 seconds, Fetched: 1 row(s)
  1. 把t8表也刪掉,再去看資料檔案,如下所示,依然存在:
[hadoop@node0 bin]$ ./hadoop fs -cat /data/external_t7/000000_0
107,a107
  1. 可見外部表的資料不會在刪除表的時候被刪除,因此,在實際生產業務系統開發中,外部表是我們主要應用的表型別;

表的操作

  1. 再次建立t8表:
create table t8(id int, name string)
row format delimited 
fields terminated by ',';
  1. 修改表名:
alter table t8 rename to t8_1;
  1. 可見修改表名已經生效:
hive> alter table t8 rename to t8_1;
OK
Time taken: 0.473 seconds
hive> show tables;
OK
alltype
t1
t2
t3
t4
t5
t6
t8_1
values__tmp__table__1
values__tmp__table__2
Time taken: 0.029 seconds, Fetched: 10 row(s)
  1. 新增欄位:
alter table t8_1 add columns(remark string);

檢視錶結構,可見已經生效:

hive> desc t8_1;
OK
id                  	int                 	                    
name                	string              	                    
remark              	string              	                    
Time taken: 0.217 seconds, Fetched: 3 row(s)

至此,我們們對內部表和外部表已經有了基本瞭解,接下來的文章學習另一種常見的表類:分割槽表;

你不孤單,欣宸原創一路相伴

  1. Java系列
  2. Spring系列
  3. Docker系列
  4. kubernetes系列
  5. 資料庫+中介軟體系列
  6. DevOps系列

歡迎關注公眾號:程式設計師欣宸

微信搜尋「程式設計師欣宸」,我是欣宸,期待與您一同暢遊Java世界...
https://github.com/zq2599/blog_demos

相關文章