HIVE學習之(三)

愛吃串串的瘦子發表於2018-07-25

    Hive 是基於Hadoop 構建的一套資料倉儲分析系統,它提供了豐富的SQL查詢方式來分析儲存在Hadoop 分散式檔案系統中的資料,可以將結構

化的資料檔案對映為一張資料庫表,並提供完整的SQL查詢功能,可以將SQL語句轉換為MapReduce任務進行執行,通過自己的SQL 去查詢分析需

要的內容,這套SQL 簡稱Hive SQL,使不熟悉mapreduce 的使用者很方便的利用SQL 語言查詢,彙總,分析資料。而mapreduce開發人員可以把

己寫的mapper 和reducer 作為外掛來支援Hive 做更復雜的資料分析。


     它與關係型資料庫的SQL 略有不同,但支援了絕大多數的語句如DDL、DML 以及常見的聚合函式、連線查詢、條件查詢。HIVE不適合用於聯機

online)事務處理,也不提供實時查詢功能。它最適合應用在基於大量不可變資料的批處理作業。

    HIVE的特點:可伸縮(在Hadoop的叢集上動態的新增裝置),可擴充套件,容錯,輸入格式的鬆散耦合。

 

     Hive 的官方文件中對查詢語言有了很詳細的描述,請參考:http://wiki.apache.org/hadoop/Hive/LanguageManual ,本文的內容大部分翻譯自該頁面,期間加入了一些在使用過程中需要注意到的事項。

 

 

1.  DDL 操作

 

DDL

•建表

•刪除表

•修改表結構

•建立/刪除檢視

•建立資料庫

•顯示命令

 

建表:

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name 
  [(col_name data_type [COMMENT col_comment], ...)] 
  [COMMENT table_comment] 
  [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] 
  [CLUSTERED BY (col_name, col_name, ...) 
  [SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] 
  [ROW FORMAT row_format] 
  [STORED AS file_format] 
  [LOCATION hdfs_path]

•CREATE TABLE 建立一個指定名字的表。如果相同名字的表已經存在,則丟擲異常;使用者可以用 IF NOT EXIST 選項來忽略這個異常

•EXTERNAL 關鍵字可以讓使用者建立一個外部表,在建表的同時指定一個指向實際資料的路徑(LOCATION)

•LIKE 允許使用者複製現有的表結構,但是不復制資料

•COMMENT可以為表與欄位增加描述

 

•ROW FORMAT

    DELIMITED [FIELDS TERMINATED BY char] [COLLECTION ITEMS TERMINATED BY char]

        [MAP KEYS TERMINATED BY char] [LINES TERMINATED BY char]

   | SERDE serde_name [WITH SERDEPROPERTIES (property_name=property_value, property_name=property_value, ...)]

         使用者在建表的時候可以自定義 SerDe 或者使用自帶的 SerDe。如果沒有指定 ROW FORMAT 或者 ROW FORMAT DELIMITED,將會使用自帶的 SerDe。在建表的時候,使用者還需要為表指定列,使用者在指定表的列的同時也會指定自定義的 SerDe,Hive 通過 SerDe 確定表的具體的列的資料。

•STORED AS

            SEQUENCEFILE

            | TEXTFILE

            | RCFILE    

            | INPUTFORMAT input_format_classname OUTPUTFORMAT             output_format_classname

       如果檔案資料是純文字,可以使用 STORED AS TEXTFILE。如果資料需要壓縮,使用 STORED AS SEQUENCE 。

 

建立簡單表:

hive> CREATE TABLE pokes (foo INT, bar STRING); 

 

建立外部表:

 

CREATE EXTERNAL TABLE page_view(viewTime INT, userid BIGINT,

     page_url STRING, referrer_url STRING,

     ip STRING COMMENT 'IP Address of the User',

     country STRING COMMENT 'country of origination')

 COMMENT 'This is the staging page view table'

 ROW FORMAT DELIMITED FIELDS TERMINATED BY '\054'

 STORED AS TEXTFILE

 LOCATION '<hdfs_location>';

建分割槽表

CREATE TABLE par_table(viewTime INT, userid BIGINT,

     page_url STRING, referrer_url STRING,

     ip STRING COMMENT 'IP Address of the User')

 COMMENT 'This is the page view table'

 PARTITIONED BY(date STRING, pos STRING)

ROW FORMAT DELIMITED ‘\t’

   FIELDS TERMINATED BY '\n'

STORED AS SEQUENCEFILE;

建Bucket表

CREATE TABLE par_table(viewTime INT, userid BIGINT,

     page_url STRING, referrer_url STRING,

     ip STRING COMMENT 'IP Address of the User')

 COMMENT 'This is the page view table'

 PARTITIONED BY(date STRING, pos STRING)

 CLUSTERED BY(userid) SORTED BY(viewTime) INTO 32 BUCKETS

 ROW FORMAT DELIMITED ‘\t’

   FIELDS TERMINATED BY '\n'

STORED AS SEQUENCEFILE;

 

 

建立表並建立索引欄位ds

hive> CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING); 

 

複製一個空表

CREATE TABLE empty_key_value_store

LIKE key_value_store;

 

 

例子

create table  user_info (user_id int, cid string, ckid string, username string) 

row format delimited 

fields terminated by '\t'

 lines terminated by '\n';

匯入資料表的資料格式是:欄位之間是tab鍵分割,行之間是斷行。

及要我們的檔案內容格式:

100636  100890  c5c86f4cddc15eb7        yyyvybtvt
100612  100865  97cc70d411c18b6f        gyvcycy
100078  100087  ecd6026a15ffddf5        qa000100

 

顯示所有表:

hive> SHOW TABLES;

按正條件(正規表示式)顯示錶,

hive> SHOW TABLES '.*s';

 

修改表結構

•增加分割槽、刪除分割槽

•重新命名錶

•修改列的名字、型別、位置、註釋

•增加/更新列

•增加表的後設資料資訊

 

 

表新增一列 :

hive> ALTER TABLE pokes ADD COLUMNS (new_col INT);

新增一列並增加列欄位註釋

hive> ALTER TABLE invites ADD COLUMNS (new_col2 INT COMMENT 'a comment');

更改表名:

hive> ALTER TABLE events RENAME TO 3koobecaf;

刪除列:

hive> DROP TABLE pokes;

 

 

增加、刪除分割槽

•增加

ALTER TABLE table_name ADD [IF NOT EXISTS] partition_spec [ LOCATION 'location1' ] partition_spec [ LOCATION 'location2' ] ...

      partition_spec:

  : PARTITION (partition_col = partition_col_value, partition_col = partiton_col_value, ...)

•刪除

ALTER TABLE table_name DROP partition_spec, partition_spec,...

重新命名錶

•ALTER TABLE table_name RENAME TO new_table_name 

修改列的名字、型別、位置、註釋:

•ALTER TABLE table_name CHANGE [COLUMN] col_old_name col_new_name column_type [COMMENT col_comment] [FIRST|AFTER column_name]

•這個命令可以允許改變列名、資料型別、註釋、列位置或者它們的任意組合

表新增一列 :

hive> ALTER TABLE pokes ADD COLUMNS (new_col INT);

新增一列並增加列欄位註釋

hive> ALTER TABLE invites ADD COLUMNS (new_col2 INT COMMENT 'a comment');

 

增加/更新列

•ALTER TABLE table_name ADD|REPLACE COLUMNS (col_name data_type [COMMENT col_comment], ...)  

    

• ADD是代表新增一欄位,欄位位置在所有列後面(partition列前)

     REPLACE則是表示替換表中所有欄位。

增加表的後設資料資訊

•ALTER TABLE table_name SET TBLPROPERTIES table_properties table_properties:

         :[property_name = property_value…..]

 

•使用者可以用這個命令向表中增加metadata

改變表檔案格式與組織

•ALTER TABLE table_name SET FILEFORMAT file_format

•ALTER TABLE table_name CLUSTERED BY(userid) SORTED BY(viewTime) INTO num_buckets BUCKETS

 

•這個命令修改了表的物理儲存屬性

建立/刪除檢視

•CREATE VIEW [IF NOT EXISTS] view_name [ (column_name [COMMENT column_comment], ...) ][COMMENT view_comment][TBLPROPERTIES (property_name = property_value, ...)] AS SELECT

•增加檢視

•如果沒有提供表名,檢視列的名字將由定義的SELECT表示式自動生成

•如果修改基本表的屬性,檢視中不會體現,無效查詢將會失敗

•檢視是隻讀的,不能用LOAD/INSERT/ALTER

•DROP VIEW view_name

•刪除檢視

建立資料庫

•CREATE DATABASE name

顯示命令

•show tables;

•show databases;

•show partitions ;

•show functions

•describe extended table_name dot col_name

 

 

 

 

2.  DML 操作:後設資料儲存

 

 

     hive不支援用insert語句一條一條的進行插入操作,也不支援update操作。資料是以load的方式載入到建立好的表中。資料一旦匯入就不可以修改。
 

DML包括:INSERT插入、UPDATE更新、DELETE刪除

 

•向資料表內載入檔案

•將查詢結果插入到Hive表中

•0.8新特性 insert into

 

向資料表內載入檔案

•LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]

•Load 操作只是單純的複製/移動操作,將資料檔案移動到 Hive 表對應的位置。

•filepath

•相對路徑,例如:project/data1

•絕對路徑,例如: /user/hive/project/data1

•包含模式的完整 URI,例如:hdfs://namenode:9000/user/hive/project/data1

例如:

hive> LOAD DATA LOCAL INPATH './examples/files/kv1.txt' OVERWRITE INTO TABLE pokes;

 

 

載入本地資料,同時給定分割槽資訊

•載入的目標可以是一個表或者分割槽。如果表包含分割槽,必須指定每一個分割槽的分割槽名

•filepath 可以引用一個檔案(這種情況下,Hive 會將檔案移動到表所對應的目錄中)或者是一個目錄(在這種情況下,Hive 會將目錄中的所有檔案移動至表所對應的目錄中)

LOCAL關鍵字

•指定了LOCAL,即本地

•load 命令會去查詢本地檔案系統中的 filepath。如果發現是相對路徑,則路徑會被解釋為相對於當前使用者的當前路徑。使用者也可以為本地檔案指定一個完整的 URI,比如:file:///user/hive/project/data1.

•load 命令會將 filepath 中的檔案複製到目標檔案系統中。目標檔案系統由表的位置屬性決定。被複制的資料檔案移動到表的資料對應的位置

 

例如:載入本地資料,同時給定分割槽資訊:

hive> LOAD DATA LOCAL INPATH './examples/files/kv2.txt' OVERWRITE INTO TABLE invites PARTITION (ds='2008-08-15');

 

• 沒有指定LOCAL

         如果 filepath 指向的是一個完整的 URI,hive 會直接使用這個 URI。 否則

•如果沒有指定 schema 或者 authority,Hive 會使用在 hadoop 配置檔案中定義的 schema 和 authority,fs.default.name 指定了 Namenode 的 URI

•如果路徑不是絕對的,Hive 相對於 /user/ 進行解釋。 Hive 會將 filepath 中指定的檔案內容移動到 table (或者 partition)所指定的路徑中

 

載入DFS資料 ,同時給定分割槽資訊:

hive> LOAD DATA INPATH '/user/myname/kv2.txt' OVERWRITE INTO TABLE invites PARTITION (ds='2008-08-15');
The above command will load data from an HDFS file/directory to the table. Note that loading data from HDFS will result in moving the file/directory. As a result, the operation is almost instantaneous.

 

OVERWRITE

•指定了OVERWRITE

•目標表(或者分割槽)中的內容(如果有)會被刪除,然後再將 filepath 指向的檔案/目錄中的內容新增到表/分割槽中。

 

•如果目標表(分割槽)已經有一個檔案,並且檔名和 filepath 中的檔名衝突,那麼現有的檔案會被新檔案所替代。

 

將查詢結果插入Hive表

•將查詢結果插入Hive表

•將查詢結果寫入HDFS檔案系統

•基本模式

     INSERT OVERWRITE TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val2 ...)] select_statement1 FROM from_statement

•多插入模式

 FROM from_statement

INSERT OVERWRITE TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val2 ...)] select_statement1

[INSERT OVERWRITE TABLE tablename2 [PARTITION ...] select_statement2] ...

•自動分割槽模式

 INSERT OVERWRITE TABLE tablename PARTITION (partcol1[=val1], partcol2[=val2] ...) select_statement FROM from_statement

將查詢結果寫入HDFS檔案系統

•INSERT OVERWRITE [LOCAL] DIRECTORY directory1 SELECT ... FROM ...

        FROM from_statement

        INSERT OVERWRITE [LOCAL] DIRECTORY directory1 select_statement1

     [INSERT OVERWRITE [LOCAL] DIRECTORY directory2 select_statement2]

•資料寫入檔案系統時進行文字序列化,且每列用^A 來區分,\n換行

INSERT INTO 

•INSERT INTO  TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val2 ...)] select_statement1 FROM from_statement

 

 

 

 

3.  DQL 操作:資料查詢SQL

 

SQL操作

•基本的Select 操作

•基於Partition的查詢

•Join

 

3.1 基本的Select 操作

SELECT [ALL | DISTINCT] select_expr, select_expr, ...

FROM table_reference

[WHERE where_condition]

[GROUP BY col_list [HAVING condition]]

[   CLUSTER BY col_list

  | [DISTRIBUTE BY col_list] [SORT BY| ORDER BY col_list]

]

[LIMIT number]

•使用ALL和DISTINCT選項區分對重複記錄的處理。預設是ALL,表示查詢所有記錄。DISTINCT表示去掉重複的記錄

•Where 條件

•類似我們傳統SQL的where 條件

•目前支援 AND,OR ,0.9版本支援between

•IN, NOT IN

•不支援EXIST ,NOT EXIST

ORDER BY與SORT BY的不同

•ORDER BY 全域性排序,只有一個Reduce任務

•SORT BY 只在本機做排序

 

Limit

•Limit 可以限制查詢的記錄數

SELECT * FROM t1 LIMIT 5

•實現Top k 查詢

•下面的查詢語句查詢銷售記錄最大的 5 個銷售代表。

SET mapred.reduce.tasks = 1 
  SELECT * FROM test SORT BY amount DESC LIMIT 5

•REGEX Column Specification

SELECT 語句可以使用正規表示式做列選擇,下面的語句查詢除了 ds 和 hr 之外的所有列:

SELECT `(ds|hr)?+.+` FROM test

 

例如

按先件查詢

hive> SELECT a.foo FROM invites a WHERE a.ds='<DATE>';

將查詢資料輸出至目錄:

hive> INSERT OVERWRITE DIRECTORY '/tmp/hdfs_out' SELECT a.* FROM invites a WHERE a.ds='<DATE>';

將查詢結果輸出至本地目錄:

hive> INSERT OVERWRITE LOCAL DIRECTORY '/tmp/local_out' SELECT a.* FROM pokes a;

選擇所有列到本地目錄 :

hive> INSERT OVERWRITE TABLE events SELECT a.* FROM profiles a;
hive> INSERT OVERWRITE TABLE events SELECT a.* FROM profiles a WHERE a.key < 100;
hive> INSERT OVERWRITE LOCAL DIRECTORY '/tmp/reg_3' SELECT a.* FROM events a;
hive> INSERT OVERWRITE DIRECTORY '/tmp/reg_4' select a.invites, a.pokes FROM profiles a;
hive> INSERT OVERWRITE DIRECTORY '/tmp/reg_5' SELECT COUNT(1) FROM invites a WHERE a.ds='<DATE>';
hive> INSERT OVERWRITE DIRECTORY '/tmp/reg_5' SELECT a.foo, a.bar FROM invites a;
hive> INSERT OVERWRITE LOCAL DIRECTORY '/tmp/sum' SELECT SUM(a.pc) FROM pc1 a;

將一個表的統計結果插入另一個表中:

hive> FROM invites a INSERT OVERWRITE TABLE events SELECT a.bar, count(1) WHERE a.foo > 0 GROUP BY a.bar;
hive> INSERT OVERWRITE TABLE events SELECT a.bar, count(1) FROM invites a WHERE a.foo > 0 GROUP BY a.bar;
JOIN
hive> FROM pokes t1 JOIN invites t2 ON (t1.bar = t2.bar) INSERT OVERWRITE TABLE events SELECT t1.bar, t1.foo, t2.foo;

將多表資料插入到同一表中:

FROM src
INSERT OVERWRITE TABLE dest1 SELECT src.* WHERE src.key < 100
INSERT OVERWRITE TABLE dest2 SELECT src.key, src.value WHERE src.key >= 100 and src.key < 200
INSERT OVERWRITE TABLE dest3 PARTITION(ds='2008-04-08', hr='12') SELECT src.key WHERE src.key >= 200 and src.key < 300
INSERT OVERWRITE LOCAL DIRECTORY '/tmp/dest4.out' SELECT src.value WHERE src.key >= 300;

將檔案流直接插入檔案:

hive> FROM invites a INSERT OVERWRITE TABLE events SELECT TRANSFORM(a.foo, a.bar) AS (oof, rab) USING '/bin/cat' WHERE a.ds > '2008-08-09';
This streams the data in the map phase through the script /bin/cat (like hadoop streaming). Similarly - streaming can be used on the reduce side (please see the Hive Tutorial or examples)

 

 

 

3.2 基於Partition的查詢

•一般 SELECT 查詢會掃描整個表,使用 PARTITIONED BY 子句建表,查詢就可以利用分割槽剪枝(input pruning)的特性

•Hive 當前的實現是,只有分割槽斷言出現在離 FROM 子句最近的那個WHERE 子句中,才會啟用分割槽剪枝

 

3.3 Join

Syntax

join_table: 
   table_reference JOIN table_factor [join_condition] 
  | table_reference {LEFT|RIGHT|FULL} [OUTER] JOIN table_reference join_condition 
  | table_reference LEFT SEMI JOIN table_reference join_condition 

table_reference: 
    table_factor 
  | join_table 

table_factor: 
    tbl_name [alias] 
  | table_subquery alias 
  | ( table_references ) 

join_condition: 
    ON equality_expression ( AND equality_expression )* 

equality_expression: 
    expression = expression

•Hive 只支援等值連線(equality joins)、外連線(outer joins)和(left semi joins)。Hive 不支援所有非等值的連線,因為非等值連線非常難轉化到 map/reduce 任務

 

•LEFT,RIGHT和FULL OUTER關鍵字用於處理join中空記錄的情況

•LEFT SEMI JOIN 是 IN/EXISTS 子查詢的一種更高效的實現

•join 時,每次 map/reduce 任務的邏輯是這樣的:reducer 會快取 join 序列中除了最後一個表的所有表的記錄,再通過最後一個表將結果序列化到檔案系統

•實踐中,應該把最大的那個表寫在最後

join 查詢時,需要注意幾個關鍵點

•只支援等值join

•SELECT a.* FROM a JOIN b ON (a.id = b.id)

•SELECT a.* FROM a JOIN b 
    ON (a.id = b.id AND a.department = b.department)

•可以 join 多於 2 個表,例如

  SELECT a.val, b.val, c.val FROM a JOIN b 
    ON (a.key = b.key1) JOIN c ON (c.key = b.key2)

 

•如果join中多個表的 join key 是同一個,則 join 會被轉化為單個 map/reduce 任務

LEFT,RIGHT和FULL OUTER

•例子

•SELECT a.val, b.val FROM a LEFT OUTER JOIN b ON (a.key=b.key)

 

•如果你想限制 join 的輸出,應該在 WHERE 子句中寫過濾條件——或是在 join 子句中寫

•容易混淆的問題是表分割槽的情況

• SELECT c.val, d.val FROM c LEFT OUTER JOIN d ON (c.key=d.key) 
  WHERE a.ds='2010-07-07' AND b.ds='2010-07-07‘

•如果 d 表中找不到對應 c 表的記錄,d 表的所有列都會列出 NULL,包括 ds 列。也就是說,join 會過濾 d 表中不能找到匹配 c 表 join key 的所有記錄。這樣的話,LEFT OUTER 就使得查詢結果與 WHERE 子句無關

•解決辦法

•SELECT c.val, d.val FROM c LEFT OUTER JOIN d 
  ON (c.key=d.key AND d.ds='2009-07-07' AND c.ds='2009-07-07')

LEFT SEMI JOIN

•LEFT SEMI JOIN 的限制是, JOIN 子句中右邊的表只能在 ON 子句中設定過濾條件,在 WHERE 子句、SELECT 子句或其他地方過濾都不行

•SELECT a.key, a.value 
  FROM a 
  WHERE a.key in 
   (SELECT b.key 
    FROM B);

       可以被重寫為:

      SELECT a.key, a.val 
   FROM a LEFT SEMI JOIN b on (a.key = b.key)

UNION ALL

•用來合併多個select的查詢結果,需要保證select中欄位須一致

•select_statement UNION ALL select_statement UNION ALL select_statement ...

 

 

 

 

 

4.  從SQL到HiveQL應轉變的習慣

 

1、Hive不支援等值連線 

•SQL中對兩表內聯可以寫成:

•select * from dual a,dual b where a.key = b.key;

•Hive中應為

•select * from dual a join dual b on a.key = b.key; 

而不是傳統的格式:

SELECT t1.a1 as c1, t2.b1 as c2FROM t1, t2 WHERE t1.a2 = t2.b2

2、分號字元

•分號是SQL語句結束標記,在HiveQL中也是,但是在HiveQL中,對分號的識別沒有那麼智慧,例如:

•select concat(key,concat(';',key)) from dual;

•但HiveQL在解析語句時提示:

        FAILED: Parse Error: line 0:-1 mismatched input '<EOF>' expecting ) in function specification

•解決的辦法是,使用分號的八進位制的ASCII碼進行轉義,那麼上述語句應寫成:

•select concat(key,concat('\073',key)) from dual;

 

3、IS [NOT] NULL

•SQL中null代表空值, 值得警惕的是, 在HiveQL中String型別的欄位若是空(empty)字串, 即長度為0, 那麼對它進行IS NULL的判斷結果是False.

4、Hive不支援將資料插入現有的表或分割槽中,

僅支援覆蓋重寫整個表,示例如下:

 


 
  1. INSERT OVERWRITE TABLE t1

  2. SELECT * FROM t2;


 

4、hive不支援INSERT INTO, UPDATE, DELETE操作

    這樣的話,就不要很複雜的鎖機制來讀寫資料。
     INSERT INTO syntax is only available starting in version 0.8。INSERT INTO就是在表或分割槽中追加資料。

 

5、hive支援嵌入mapreduce程式,來處理複雜的邏輯

如:

 


 
  1. FROM (

  2. MAP doctext USING 'python wc_mapper.py' AS (word, cnt)

  3. FROM docs

  4. CLUSTER BY word

  5. ) a

  6. REDUCE word, cnt USING 'python wc_reduce.py';


--doctext: 是輸入

 

--word, cnt: 是map程式的輸出

--CLUSTER BY: 將wordhash後,又作為reduce程式的輸入

 

並且map程式、reduce程式可以單獨使用,如:

 


 
  1. FROM (

  2. FROM session_table

  3. SELECT sessionid, tstamp, data

  4. DISTRIBUTE BY sessionid SORT BY tstamp

  5. ) a

  6. REDUCE sessionid, tstamp, data USING 'session_reducer.sh';

 

--DISTRIBUTE BY: 用於給reduce程式分配行資料

 

6、hive支援將轉換後的資料直接寫入不同的表,還能寫入分割槽、hdfs和本地目錄。

這樣能免除多次掃描輸入表的開銷。

 


 
  1. FROM t1

  2.  
  3. INSERT OVERWRITE TABLE t2

  4. SELECT t3.c2, count(1)

  5. FROM t3

  6. WHERE t3.c1 <= 20

  7. GROUP BY t3.c2

  8.  
  9. INSERT OVERWRITE DIRECTORY '/output_dir'

  10. SELECT t3.c2, avg(t3.c1)

  11. FROM t3

  12. WHERE t3.c1 > 20 AND t3.c1 <= 30

  13. GROUP BY t3.c2

  14.  
  15. INSERT OVERWRITE LOCAL DIRECTORY '/home/dir'

  16. SELECT t3.c2, sum(t3.c1)

  17. FROM t3

  18. WHERE t3.c1 > 30

  19. GROUP BY t3.c2;

 

 

 

 

 

 

5.  實際示例

建立一個表

CREATE TABLE u_data (
userid INT,
movieid INT,
rating INT,
unixtime STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '/t'
STORED AS TEXTFILE;


下載示例資料檔案,並解壓縮
wget http://www.grouplens.org/system/files/ml-data.tar__0.gz
tar xvzf ml-data.tar__0.gz

載入資料到表中:

LOAD DATA LOCAL INPATH 'ml-data/u.data'
OVERWRITE INTO TABLE u_data;

統計資料總量:

SELECT COUNT(1) FROM u_data;

現在做一些複雜的資料分析:

建立一個 weekday_mapper.py: 檔案,作為資料按周進行分割 
import sys
import datetime

for line in sys.stdin:
line = line.strip()
userid, movieid, rating, unixtime = line.split('/t')

生成資料的周資訊

weekday = datetime.datetime.fromtimestamp(float(unixtime)).isoweekday()
print '/t'.join([userid, movieid, rating, str(weekday)])

使用對映指令碼

//建立表,按分割符分割行中的欄位值
CREATE TABLE u_data_new (
userid INT,
movieid INT,
rating INT,
weekday INT)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '/t';
//將python檔案載入到系統
add FILE weekday_mapper.py;

將資料按周進行分割

INSERT OVERWRITE TABLE u_data_new
SELECT
TRANSFORM (userid, movieid, rating, unixtime)
USING 'python weekday_mapper.py'
AS (userid, movieid, rating, weekday)
FROM u_data;

SELECT weekday, COUNT(1)
FROM u_data_new
GROUP BY weekday;

處理Apache Weblog 資料

將WEB日誌先用正規表示式進行組合,再按需要的條件進行組合輸入到表中
add jar ../build/contrib/hive_contrib.jar;

CREATE TABLE apachelog (
host STRING,
identity STRING,
user STRING,
time STRING,
request STRING,
status STRING,
size STRING,
referer STRING,
agent STRING)
ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'
WITH SERDEPROPERTIES (
"input.regex" = "([^ ]*) ([^ ]*) ([^ ]*) (-|//[[^//]]*//]) ([^ /"]*|/"[^/"]*/") (-|[0-9]*) (-|[0-9]*)(?: ([^ /"]*|/"[^/"]*/") ([^ /"]*|/"[^/"]*/"))?",
"output.format.string" = "%1$s %2$s %3$s %4$s %5$s %6$s %7$s %8$s %9$s"
)
STORED AS TEXTFILE;

相關文章