電商大資料學習筆記：實戰

獵手家園發表於2016-05-02

大資料筆記

1、YARN：將資源管理和作業排程/監控分成兩個獨立的程式。

包含兩個元件：ResourceManager和ApplicationMaster

2、YARN的特性：

1）可擴充套件性；2）高可用性（HA）；3）相容性（1.0版本的作業也可以執行）；4）提高叢集利用率；

5）支援MapReduce程式設計正規化。

3、Hadoop的程式：

1）NameNode HDFS的守護程式；

2）Secondary NameNode 監控HDFS狀態的輔助後臺程式，備用NameNode；

3）DataNode 負責把HDFS的資料塊寫到本地檔案系統，資料塊大小預設64MB；

4）ResourceManager 是一箇中心服務，它負責排程、啟動每一個Job與資源分配；

5）NodeManager 管理YARN叢集的每一個節點，它負責Container狀態的維護（CPU、記憶體、硬碟、網路），並向ResourceManager保持心跳；

6）ApplicationMaster 負責一個Job生命週期內的所有工作。

4、HDFS常用命令（略）

5、Hadoop常用配置引數詳解（略）

6、Hive的三個主要介面：命令列Cli、客戶端Client和Web介面WUI

1）最常用CLI，啟動的時候會同時啟動一個Hive服務，將寫好的指令碼放到Cli中執行。

2）Clinet是Hive的客戶端，使用者連線至HiveServer。

3）WUI是透過瀏覽器訪問Hive的Web工具。

7、Hive後設資料一般儲存在資料庫中，如MySQL（多使用者）或Derby嵌入式資料庫（單使用者）中。

8、Hive的資料是儲存在HDFS中的（包括外部表和內部表），大部分查詢由MapReduce完成。

9、Hive的常用程式和服務：使用hive –service help命令可以看到Hive提供的服務。

cli：命令列介面。

hiveserver：客戶端介面。

hwi：Hive的Web介面。

jar：與Hadoop jar等價的Hive介面。

metastore：後設資料提供的服務。

10、Metastore的三種連線方式：單使用者（Derby）、多使用者（MySQL）和遠端連線（如使用Thrift）

11、Hive語言，不支援Insert和Update，因為資料倉儲的內容是讀多寫少，所有的資料要在載入時確定好，他的資料都是儲存在HDFS中。

12、Hive沒有專門定義的資料格式，格式由使用者指定，使用者在定義資料格式需要指定三個屬性。

1）列分隔符（通常用空格、“\t”）

2）行分隔符（“\n”）

3）讀取檔案資料的方式（預設有三種：TextFile、SequenceFile、RCFile）

13、Hive不會對資料進行任何處理，也不會對資料進行掃描，因此不會建立索引。

14、Hive的查詢是透過Hadoop來實現的，不是透過自己的執行引擎。

15、Hive的執行延遲較高，通常都是離線執行的，但是處理的資料量大。

16、Hive的擴充套件性非常好，可以擴充套件到上千臺Hadoop。

17、Hive --database temp 直接進入temp資料庫。

18、set -v / reset 設定或重置引數變數。

如：set mapred.reduce.tasks=10;

19、！執行外部shell命令。如：! ls --列出當前目錄下的檔案。

20、dfs 執行HDFS命令。

如：dfs -mkdir /user/Hadoop/warehouse;

21、add file / list file / delete file管理分步緩衝區資源，這些資源在所有的機器上都可以使用。

22、Hive -S 靜默不輸出。

23、插入資料：insert overwrite table HUserInfo select * from old_userinfo --從另一張表匯入資料

24、hive -e ‘set;’ | grep mapred.reduce.tasks; //-e表示在外部直接執行後面的命令。

25、hive -d sitename=www.baidu.com //定義一個變數

26、跨庫查詢：select * from hive.Huserinfo;

27、假如外部有一個sql指令碼get_order_sum.sql

hive -f /home/hadoopuser/scripts/get_order_sum.sql; //可以直接執行這個指令碼

hive -v -f /home/hadoopuser/scripts/get_order_sum.sql; //可以把指令碼里的sql也顯示出來

hive -S -f /home/hadoopuser/scripts/get_order_sum.sql > test.txt; //靜默執行並把結果輸出到txt中

28、Hive常用配置引數（略）在檔案.hiverc中配置

29、Hive清資料，Hive不支援Delete

使用truncate table tablename;

清一個分割槽的資料：truncate table tablename partition dt=’2015-10-6’;

30、刪除的資料到了回收站：.trash

31、建立索引，和SQL一樣。

CREATE INDEX index_name ON TABLE tablename（col_name）AS index_type;

32、角色管理，對許可權控制最好使用角色來控制。（略）

33、DESC命令，檢視資料庫或表的一些基本資訊。

34、Hive四種匯入資料的方式：

1）load data local inpath '1234.txt' into table mytable;

2）load data inpath '/home/hadoopuser/1234.txt' into table mytable;

3）insert overwrite table mytable

> PARTITION (age)

> select id, name, tel, age

> from oldtable;

4）create table mytable

> as

> select id, name, tel

> from oldtable;

35、建立Hive表的時候如何建立動態分割槽？

36、Hive資料查詢支援正則，當你不知道列名的時候可以用。

SELECT ‘正則’ FROM mytable;

39、資料排序

order by全域性排序

sort by只在一個reducer中排序

distribyte by將指定的內容分到同一個reducer中

cluster by = distribyte by + sort by

40、實用的寫法

SELECT * FROM table1 t1,table2 t2,table3 t3 WHERE t1.id=t2.id AND t2.id=t3.id;

41、semi-join比一般的inner join更為高效。

42、CTE

WITH q1 AS (SELECT * FROM src WHERE key>50)

下面就可以直接使用q1這個臨時表。

43、什麼是UDF？UDAF？UDTF？

User Defined Function（使用者自定義函式）

44、什麼是分析函式？

45、Hive儲存的三種格式：

TextFile：不壓縮，磁碟開銷大；

SequenceFile：使用方便、可分割、可壓縮、併發讀取，但是佔用空間比較大；

RCFile：壓縮，但是載入時消耗大。

46、HiveSQL的join實現過程：

47、Hive的執行生命週期

48、舉例：訂單埠模組

49、HiveSQL實戰

將下面指令碼建立成.sh檔案，直接呼叫即可。

50、HiveSQL實戰2

電商大資料學習筆記：理論
2016-05-02
大資料筆記
電商大資料學習筆記：使用者畫像
2016-05-02
大資料筆記
大資料學習筆記（四）
2018-01-27
大資料筆記
大資料學習筆記（五）
2018-01-27
大資料筆記
大資料學習筆記（六）
2018-01-29
大資料筆記
基於python的大資料分析實戰學習筆記-Anaconda
2019-08-28
Python大資料筆記
基於python的大資料分析實戰學習筆記-pandas（資料分析包）
2019-08-28
Python大資料筆記
大資料學習筆記（十七）-MapReduce
2018-01-04
大資料筆記
大資料學習筆記（十八）-MRUnit
2018-01-05
大資料筆記
基於python的大資料分析實戰學習筆記-pandas之DataFrame
2019-08-29
Python大資料筆記
大資料學習筆記（十五）-大資料排程框架
2017-12-27
大資料筆記框架
大資料教程分享Actor學習筆記
2020-06-04
大資料筆記
大資料之 Hadoop學習筆記
2018-12-14
大資料Hadoop筆記
大資料學習筆記（十四）-Sqoop
2017-12-25
大資料筆記OOP
DDD實戰課（實戰篇）--學習筆記
2021-06-19
筆記
開始學習電商實戰
2018-12-27
大資料學習筆記（十三）-Hive高階
2017-12-20
大資料筆記Hive
大資料實戰：電商該如何利用大資料獲取流量？
2019-06-03
大資料
《Netty實戰》-學習筆記1
2019-01-06
Netty筆記
《Node.js實戰》學習筆記
2015-01-22
Node.js筆記
資料庫學習筆記
2018-10-18
資料庫筆記
(五)numpy知識學習2-python資料分析與機器學習實戰(學習筆記)
2018-05-02
Python機器學習筆記
學習筆記(30):Python資料清洗實戰-Excel檔案讀寫
2020-02-21
筆記PythonExcel
go實戰web入門學習筆記
2021-06-19
GoWeb筆記
dubbo學習筆記---dubbo開發實戰
2020-10-14
筆記
學習筆記（6):搞定大資料平臺：從入門到實戰-叢集JDK安裝配置
2020-10-03
筆記大資料JDK
大資料學習筆記500條【第一彈】，記得收藏！
2019-05-27
大資料筆記
PHP 資料加密 (學習筆記)
2019-07-30
PHP加密筆記
MySQL資料庫學習筆記
2020-12-10
MySql資料庫筆記
資料結構學習筆記
2018-04-22
資料結構筆記
AS 學習筆記載入資料
2013-12-09
筆記
webpack 學習筆記：實戰之 babel 編碼
2020-09-27
Web筆記Babel
大資料3.2 -- 實時筆記
2018-04-03
大資料筆記
大資料學習筆記之十二雲端計算資源管理
2017-01-11
大資料筆記
資料庫mysql學習筆記記錄
2021-09-09
資料庫MySql筆記
好程式設計師大資料學習路線分享Map學習筆記
2019-09-28
程式設計師大資料筆記
好程式設計師大資料學習路線分享Actor學習筆記
2019-08-19
程式設計師大資料筆記
大資料測試學習筆記之測試工具集
2019-05-15
大資料筆記

電商大資料學習筆記：實戰

相關文章