阿里雲Clouder認證
六、基於阿里雲數加構建企業級資料分析平臺
1. 課程目標
(1) 瞭解資料分析的步驟和目的
(2) 熟悉資料分析平臺搭建的組成部分
(3) 掌握阿里雲數加不同產品及其使用場景
(4) 靈活使用數加的不同產品搭建資料分析平臺
(5)目錄
- 資料分析介紹
- 阿里雲數加介紹
- 常用的數加產品
- 任務:搭建企業級的資料分析平臺
複製程式碼
2. 資料分析介紹
(1)資料分析的基本介紹
- 資料分析是基於商業目的,有目的的進行收集、整理、加工和分析資料,提煉有價值資訊的過程。
- <1>.明確目的:
- <2>.資料收集:
- <3>.資料處理:
- <4>.資料分析:
- <5>.資料展現:
- <6>.分析報告:
(2)資料分析的目的
- 獲得使用者
- 留住使用者
- 增加收益
- 市場營銷
- 產品運營
- 客戶服務
- 業務優化
- 流程改進
- 發現機會
(3)資料分析平臺的組成部分
- 分析需求
- 確認資料來源
- ETL處理(資料的抽取、轉換、載入)
- 資料整合/彙總
- 資料建模
- 資料分析/展現
(4)資料分析平臺對應的場景
- 源資料:進行資料的獲取
- 資料倉儲:資料儲存、組織;資料計算;資料建模
- 資料應用:資料分析
3. 阿里雲數加介紹
(1)“數加”是什麼
- 數加是阿里雲大資料的品牌名,旗下包含一系列的大資料產品及服務,是上萬名工程師實戰檢驗過的一站式大資料平臺。
- “數加”是阿里雲大資料的核心能力
4. 常用的數加產品
(1)資料分析平臺常用的數加產品
- **Maxcompute:**快速、完全託管的TB/PB級資料倉儲解決方案。提供了針對海量資料儲存、運算的能力。
- **DataIDE:**基於Maxcompute提供海量資料的離線加工分析、展現、資料探勘的能力,一站式開發、運維工具。
- **QuickBI:**提供海量資料線上分析服務,支援拖拽式操作,可完成資料分析、業務資料探查、報表製作等工作。
(2)MaxCompute介紹
- 大資料計算服務(MaxCompute,原ODPS)由阿里雲自主研發,提供針對TB/PB級資料、離線式實時性要求不高的分散式處理能力,應用於資料分析、挖掘、商業智慧等領域。阿里巴巴的資料業務都執行在ODPS上。
- **分散式:**採用分散式叢集架構、跨叢集技術突破、機群規模可以根據需要靈活擴充套件
- **安全:**自動儲存容錯機制、所有計算在沙箱中執行、保障資料高安全性、高可靠性
- **易用:**準API的方式提供服務、高併發高吞吐量數後上傳下載、全面支援基於SQL的資料處理
- **管理與授權:**支援多使用者管理協同分析資料、支特多種方式對使用者許可權管理、配置靈活的資料訪問控制策略
- MaxCompute的應用特點:
- **海量運算觸手可得:**根據資料規模自動調整叢集儲存和計算能力,最大化發揮資料的價值。
- 服務“開箱即用”:又需簡單的幾步操作,就可以上傳資料、分析資料並得到分析結果。
- **資料儲存安全可靠:**二重備份、讀寫鑑權、應用沙箱、系統沙箱等多層次安全機制。
- **多使用者協作:**保障資料安全的前提下最大化工作效率。
- **按量付費:**根據實際使用收費,最大化降低資料使用成本。
(3)DataIDE介紹
- 阿里雲大資料開發套件(Data IDE)提供了一個高效、安全的離線資料開發環境。
- DataIDE的應用特點:
- **基於Max Compute:**一套基於Max Compute(原ODPS)的資料開發、資料管理工具。
- **一站式資料開發:**提供數框同步、數加工、一健釋出、排程引擎等一站式大資料開發服務。
- **清晰可見的血緣:**基於統一的後設資料服務提供資料資源管理檢視、視覺化的資料血緣分析,清晰展現資料表的輸入與輸出,方便追溯其處理過程。
- **視覺化開發介面:**面向資料開發者、資料運組人員,項日管理者,提供了視覺化的開發介面。
(4)QuickBI介紹
- QuickBI(商務/商業智慧)提供海量資料實時線上分析,拖拽式操作、豐富的視覺化效果,可以幫助輕鬆自如地完成資料分析、業務資料探查。它不止是業務人員看資料的工具,更是資料化運營的助推器,解決大資料應用“最後一公里”的問題,實現人人都是資料分析師。
- QuickBI的應用特點:
- **多:**支援多種型別資料來源、支援多種視覺化元件
- **快:**海量資料的實時分析、提供智慧的一鍵加速
- **好:**靈活的報表整合方案、嚴密的安全許可權管理
- **省:**門檻低易上手省時間、雲端計算費用低省成本
(5)常見的應用場景:從業務系統到資料分析
- 雲資料庫RDS搭配大資料計算服務MaxCompute,實現對大資料的分散式分析處理,並通過QuickBI以報表的形式將結果展現出來,適用於商業分析、挖掘等大資料處理場景。