電商大資料學習筆記:理論

獵手家園發表於2016-05-02

1、大資料部門:資料中心、資料平臺、資料部……

2、每個部門都有:架構人員、資料分析人員、開發人員、運營人員……

3、團隊:資料倉儲組、BI組、架構組、資料專家組……

4、團隊分的更細:需求組、推薦組、情報組、挖掘組、資料組、營銷組……

5、大資料有哪些重要的專案:

1)資料倉儲建設;

2)經營分析報表;

3)客戶精準營銷;

4)推薦系統;

5)移動端資料分析。

6、大資料有哪些重點方向:

   1)流量資料;

   2)交易資料;

   3)會員與活動資料;

   4)物流與配送資料;

   5)內部財務資料。

7、代表產品:淘寶資料魔方、騰訊使用者畫像、京東資料羅盤

8、企業的需求:

1)實時監控企業的運轉情況;

2)決策未來的發展戰略;

3)預測哪些是值得發展的優質客戶。

   傳統資料,分散、資料格式不一致不相容、應用系統孤立。

   BI誕生,整合實時與歷史資料,將分析轉化為執行力。關鍵效益:洞察力和協同一致。

9、源資料庫 à ODS à ETL à DW à DM à OLAP à Client

10、注意:BI是不產生決策的,它是提供給使用者的是報表或圖視,但是它不同於傳統的靜態報表,它可以任意旋轉組合報表或圖視,是當場計算。

11、資料倉儲:是一個面向主題的、整合的、相對穩定的、反映歷史變化的資料集合,用於支撐管理決策。

主題:顧客、供應商等

整合:多個異種資料,統一整合在一起。
相對穩定:不更新,只新增。

反應歷史變化:資料倉儲記錄的是一段時間的資訊,不是一點的資訊。

12、SCD問題處理方法?

13、ODS是什麼,在資料倉儲中起的作用?

14、ETL載入策略與舉例?

15、事實表:儲存了大量業務度量資料的表,事實表的度量值一般稱為事實。例如:訂單金額、銷量等可度量的。

粒度:

1)事務粒度事實表:比如股票按秒來變化;

2)週期快照:按天、按周、按月等;

3)累積快照事實表:記錄確定週期的資料;

4)原子事實表:細粒度事實表;

5)聚集事實表:彙總事實表;

6)合併事實表;

7)旋轉事實表;

8)預連線聚集表;

9)非事實型事實表:沒有確定的事實,存的是外來鍵;

10)切片事實表:把一張大表切成一段時間的;

11)蜈蚣事實表:維度很多;

12)一致性事實。

16、資料集市:小資料倉儲,面向部門。它是資料倉儲的子集,一般只面向某個主題,緩解訪問資料倉儲的瓶頸。DM一般儲存經過彙總的資料,資料都是經過很多加工後的表。

17、後設資料:是關於資料的資料,可以看作是資料倉儲系統的“資料字典”,但是這個字典比傳統意義上的資料字典強大。他可以幫助管理員和開發人員方便找到他們所關係的資料,並告訴使用者資料倉儲中有哪些資料,這些資料從哪裡來。

   分為技術後設資料和業務/商業後設資料。

18、ETL是將業務系統的資料經過抽取(Extract)清洗轉換(Transform)之後載入(Load)到資料倉儲的過程。

19、OLAP是聯機分析處理,它可以滿足決策支援或多維環境特定的查詢和報表需求,它的技術核心是“維”,因此OLAP也可以說是多維資料分析工具的集合。

20、維:是人們觀察資料的特定角度,是考慮問題時的一類屬性,屬性集合構成一個維。如:時間維、地理維等。

21、維度表:可以看作是使用者分析資料的視窗,維度表包含事實資料表中事實記錄的特性。

事實表與維表的關係如下圖:

粒度:資料細化的級別,粒度越細,資料量越大,儲存所需的空間越大,查詢效能越慢。

層次:舉例如:國家-省-市-縣等;年-季-月-周-日。

三種模型:星形模型、雪花模型和多維模型。

星形模型如下圖:它的維度表沒有被新的表連線

22、建模的一般過程

1)確定業務過程每個事實表的粒度;

2)確定維度屬性;

3)確定維度層次;

4)確定每個事實所需要關聯的維度;

5)確定數字型事實,包括預先計算的;

6)確定緩慢變化維:一種是直接覆蓋,另一種是保留歷史產品的維度,即追加。

23、

24、資料抽取與裝載策略

抽取:每天凌晨會把昨天的資料抽取一份放入資料倉儲中,所以資料是T+1的。

1)抽取分為全量抽取和增量資料。小表全量,大表增量。

2)增量抽取可以透過時間戳來控制。

3)每次抽取近一個月有變更的資料,然後和目標表做全外關聯得到最新的資料。

4)注意:不要用其它的表的時間戳來控制自己增量。

裝載:將落地的檔案裝入到Hive資料表中。注意欄位的順序,極其重要。

抽取裝載:一般使用sqoop來完成。

相關文章