電商大資料學習筆記:實戰

獵手家園發表於2016-05-02

1、YARN:將資源管理和作業排程/監控分成兩個獨立的程式。

   包含兩個元件:ResourceManager和ApplicationMaster

2、YARN的特性:

   1)可擴充套件性;2)高可用性(HA);3)相容性(1.0版本的作業也可以執行);4)提高叢集利用率;

5)支援MapReduce程式設計正規化。

3、Hadoop的程式:

   1)NameNode HDFS的守護程式;

   2)Secondary NameNode 監控HDFS狀態的輔助後臺程式,備用NameNode;

   3)DataNode 負責把HDFS的資料塊寫到本地檔案系統,資料塊大小預設64MB;

   4)ResourceManager 是一箇中心服務,它負責排程、啟動每一個Job與資源分配;

   5)NodeManager 管理YARN叢集的每一個節點,它負責Container狀態的維護(CPU、記憶體、硬碟、網路),並向ResourceManager保持心跳;

   6)ApplicationMaster 負責一個Job生命週期內的所有工作。

4、HDFS常用命令(略)

5、Hadoop常用配置引數詳解(略)

6、Hive的三個主要介面:命令列Cli、客戶端Client和Web介面WUI

   1)最常用CLI,啟動的時候會同時啟動一個Hive服務,將寫好的指令碼放到Cli中執行。

   2)Clinet是Hive的客戶端,使用者連線至HiveServer。

   3)WUI是透過瀏覽器訪問Hive的Web工具。

7、Hive後設資料一般儲存在資料庫中,如MySQL(多使用者)或Derby嵌入式資料庫(單使用者)中。

8、Hive的資料是儲存在HDFS中的(包括外部表和內部表),大部分查詢由MapReduce完成。

9、Hive的常用程式和服務:使用hive –service help命令可以看到Hive提供的服務。

   cli:命令列介面。

   hiveserver:客戶端介面。

   hwi:Hive的Web介面。

   jar:與Hadoop jar等價的Hive介面。

   metastore:後設資料提供的服務。

10、Metastore的三種連線方式:單使用者(Derby)、多使用者(MySQL)和遠端連線(如使用Thrift)

11、Hive語言,不支援Insert和Update,因為資料倉儲的內容是讀多寫少,所有的資料要在載入時確定好,他的資料都是儲存在HDFS中。

12、Hive沒有專門定義的資料格式,格式由使用者指定,使用者在定義資料格式需要指定三個屬性。

1)列分隔符(通常用空格、“\t”)

2)行分隔符(“\n”)

3)讀取檔案資料的方式(預設有三種:TextFile、SequenceFile、RCFile)

13、Hive不會對資料進行任何處理,也不會對資料進行掃描,因此不會建立索引。

14、Hive的查詢是透過Hadoop來實現的,不是透過自己的執行引擎。

15、Hive的執行延遲較高,通常都是離線執行的,但是處理的資料量大。

16、Hive的擴充套件性非常好,可以擴充套件到上千臺Hadoop。

17、Hive --database temp 直接進入temp資料庫。

18、set -v / reset 設定或重置引數變數。

    如:set mapred.reduce.tasks=10;

19、!執行外部shell命令。如:! ls  --列出當前目錄下的檔案。

20、dfs 執行HDFS命令。

    如:dfs -mkdir /user/Hadoop/warehouse;

21、add file / list file / delete file管理分步緩衝區資源,這些資源在所有的機器上都可以使用。

22、Hive -S 靜默不輸出。

23、插入資料:insert overwrite table HUserInfo select * from old_userinfo   --從另一張表匯入資料

24、hive -e ‘set;’ | grep mapred.reduce.tasks;  //-e表示在外部直接執行後面的命令。    

25、hive -d sitename=www.baidu.com  //定義一個變數

26、跨庫查詢:select * from hive.Huserinfo;

27、假如外部有一個sql指令碼get_order_sum.sql

    hive -f /home/hadoopuser/scripts/get_order_sum.sql;    //可以直接執行這個指令碼

    hive -v -f /home/hadoopuser/scripts/get_order_sum.sql;  //可以把指令碼里的sql也顯示出來

    hive -S -f /home/hadoopuser/scripts/get_order_sum.sql > test.txt;  //靜默執行 並把結果輸出到txt中

28、Hive常用配置引數(略)在檔案.hiverc中配置

29、Hive清資料,Hive不支援Delete

使用truncate table tablename;

清一個分割槽的資料:truncate table tablename partition dt=’2015-10-6’;

30、刪除的資料到了回收站:.trash

31、建立索引,和SQL一樣。

    CREATE INDEX index_name ON TABLE tablename(col_name)AS index_type;

32、角色管理,對許可權控制最好使用角色來控制。(略)

33、DESC命令,檢視資料庫或表的一些基本資訊。

34、Hive四種匯入資料的方式:

1)load data local inpath '1234.txt' into table mytable;

2)load data inpath '/home/hadoopuser/1234.txt' into table mytable;

3)insert overwrite table mytable

    > PARTITION (age)

    > select id, name, tel, age

    > from oldtable;

4)create table mytable

    > as

    > select id, name, tel

    > from oldtable;

35、建立Hive表的時候如何建立動態分割槽?

36、Hive資料查詢支援正則,當你不知道列名的時候可以用。

    SELECT ‘正則’ FROM mytable;

39、資料排序

order by全域性排序

sort by只在一個reducer中排序

distribyte by將指定的內容分到同一個reducer中

cluster by = distribyte by + sort by

40、實用的寫法

    SELECT * FROM table1 t1,table2 t2,table3 t3 WHERE t1.id=t2.id AND t2.id=t3.id;

41、semi-join比一般的inner join更為高效。

42、CTE

WITH q1 AS (SELECT * FROM src WHERE key>50)

下面就可以直接使用q1這個臨時表。

43、什麼是UDF?UDAF?UDTF?

    User Defined Function(使用者自定義函式)

44、什麼是分析函式?

45、Hive儲存的三種格式:

TextFile:不壓縮,磁碟開銷大;

SequenceFile:使用方便、可分割、可壓縮、併發讀取,但是佔用空間比較大;

RCFile:壓縮,但是載入時消耗大。

46、HiveSQL的join實現過程:

47、Hive的執行生命週期

48、舉例:訂單埠模組

49、HiveSQL實戰

    將下面指令碼建立成.sh檔案,直接呼叫即可。

50、HiveSQL實戰2

 

相關文章