1、大資料部門:資料中心、資料平臺、資料部……
2、每個部門都有:架構人員、資料分析人員、開發人員、運營人員……
3、團隊:資料倉儲組、BI組、架構組、資料專家組……
4、團隊分的更細:需求組、推薦組、情報組、挖掘組、資料組、營銷組……
5、大資料有哪些重要的專案:
1)資料倉儲建設;
2)經營分析報表;
3)客戶精準營銷;
4)推薦系統;
5)移動端資料分析。
6、大資料有哪些重點方向:
1)流量資料;
2)交易資料;
3)會員與活動資料;
4)物流與配送資料;
5)內部財務資料。
7、代表產品:淘寶資料魔方、騰訊使用者畫像、京東資料羅盤
8、企業的需求:
1)實時監控企業的運轉情況;
2)決策未來的發展戰略;
3)預測哪些是值得發展的優質客戶。
傳統資料,分散、資料格式不一致不相容、應用系統孤立。
BI誕生,整合實時與歷史資料,將分析轉化為執行力。關鍵效益:洞察力和協同一致。
9、源資料庫 à ODS à ETL à DW à DM à OLAP à Client
10、注意:BI是不產生決策的,它是提供給使用者的是報表或圖視,但是它不同於傳統的靜態報表,它可以任意旋轉組合報表或圖視,是當場計算。
11、資料倉儲:是一個面向主題的、整合的、相對穩定的、反映歷史變化的資料集合,用於支撐管理決策。
主題:顧客、供應商等
整合:多個異種資料,統一整合在一起。
相對穩定:不更新,只新增。
反應歷史變化:資料倉儲記錄的是一段時間的資訊,不是一點的資訊。
12、SCD問題處理方法?
13、ODS是什麼,在資料倉儲中起的作用?
14、ETL載入策略與舉例?
15、事實表:儲存了大量業務度量資料的表,事實表的度量值一般稱為事實。例如:訂單金額、銷量等可度量的。
粒度:
1)事務粒度事實表:比如股票按秒來變化;
2)週期快照:按天、按周、按月等;
3)累積快照事實表:記錄確定週期的資料;
4)原子事實表:細粒度事實表;
5)聚集事實表:彙總事實表;
6)合併事實表;
7)旋轉事實表;
8)預連線聚集表;
9)非事實型事實表:沒有確定的事實,存的是外來鍵;
10)切片事實表:把一張大表切成一段時間的;
11)蜈蚣事實表:維度很多;
12)一致性事實。
16、資料集市:小資料倉儲,面向部門。它是資料倉儲的子集,一般只面向某個主題,緩解訪問資料倉儲的瓶頸。DM一般儲存經過彙總的資料,資料都是經過很多加工後的表。
17、後設資料:是關於資料的資料,可以看作是資料倉儲系統的“資料字典”,但是這個字典比傳統意義上的資料字典強大。他可以幫助管理員和開發人員方便找到他們所關係的資料,並告訴使用者資料倉儲中有哪些資料,這些資料從哪裡來。
分為技術後設資料和業務/商業後設資料。
18、ETL是將業務系統的資料經過抽取(Extract)清洗轉換(Transform)之後載入(Load)到資料倉儲的過程。
19、OLAP是聯機分析處理,它可以滿足決策支援或多維環境特定的查詢和報表需求,它的技術核心是“維”,因此OLAP也可以說是多維資料分析工具的集合。
20、維:是人們觀察資料的特定角度,是考慮問題時的一類屬性,屬性集合構成一個維。如:時間維、地理維等。
21、維度表:可以看作是使用者分析資料的視窗,維度表包含事實資料表中事實記錄的特性。
事實表與維表的關係如下圖:
粒度:資料細化的級別,粒度越細,資料量越大,儲存所需的空間越大,查詢效能越慢。
層次:舉例如:國家-省-市-縣等;年-季-月-周-日。
三種模型:星形模型、雪花模型和多維模型。
星形模型如下圖:它的維度表沒有被新的表連線
22、建模的一般過程
1)確定業務過程每個事實表的粒度;
2)確定維度屬性;
3)確定維度層次;
4)確定每個事實所需要關聯的維度;
5)確定數字型事實,包括預先計算的;
6)確定緩慢變化維:一種是直接覆蓋,另一種是保留歷史產品的維度,即追加。
23、
24、資料抽取與裝載策略
抽取:每天凌晨會把昨天的資料抽取一份放入資料倉儲中,所以資料是T+1的。
1)抽取分為全量抽取和增量資料。小表全量,大表增量。
2)增量抽取可以透過時間戳來控制。
3)每次抽取近一個月有變更的資料,然後和目標表做全外關聯得到最新的資料。
4)注意:不要用其它的表的時間戳來控制自己增量。
裝載:將落地的檔案裝入到Hive資料表中。注意欄位的順序,極其重要。
抽取裝載:一般使用sqoop來完成。