阿里雲大資料認證——基於阿里雲數加構建企業級資料分析平臺-課堂筆記

YBCarry發表於2019-02-25

阿里雲Clouder認證

六、基於阿里雲數加構建企業級資料分析平臺

1. 課程目標

(1) 瞭解資料分析的步驟和目的
(2) 熟悉資料分析平臺搭建的組成部分
(3) 掌握阿里雲數加不同產品及其使用場景
(4) 靈活使用數加的不同產品搭建資料分析平臺

(5)目錄
  - 資料分析介紹
  - 阿里雲數加介紹
  - 常用的數加產品
  - 任務:搭建企業級的資料分析平臺
複製程式碼

2. 資料分析介紹

(1)資料分析的基本介紹

  • 資料分析是基於商業目的,有目的的進行收集、整理、加工和分析資料,提煉有價值資訊的過程。
  • <1>.明確目的:
    • 資料物件是?
    • 商業目的是?
    • 解決業務問題?
  • <2>.資料收集:
    • 確定資料範圍
    • 獲取目標資料
    • 整合相關資料
  • <3>.資料處理:
    • 處理缺失資料
    • 清洗不一致資料
    • 關聯、彙總資料
  • <4>.資料分析:
    • 基本資料分析
    • 資料探索
    • 複雜資料分析
  • <5>.資料展現:
    • 整理組合資訊
    • 整合資訊、觀點
    • 圖表展現資訊
  • <6>.分析報告:
    • 簡單可靠
    • 清晰明瞭
    • 邏輯性強

(2)資料分析的目的

  • 獲得使用者
  • 留住使用者
  • 增加收益

  • 市場營銷
  • 產品運營
  • 客戶服務

  • 業務優化
  • 流程改進
  • 發現機會

(3)資料分析平臺的組成部分

  • 分析需求
  • 確認資料來源
  • ETL處理(資料的抽取、轉換、載入)
  • 資料整合/彙總
  • 資料建模
  • 資料分析/展現

(4)資料分析平臺對應的場景

  • 源資料:進行資料的獲取
  • 資料倉儲:資料儲存、組織;資料計算;資料建模
  • 資料應用:資料分析

3. 阿里雲數加介紹

(1)“數加”是什麼

  • 數加是阿里雲大資料的品牌名,旗下包含一系列的大資料產品及服務,是上萬名工程師實戰檢驗過的一站式大資料平臺。
  • “數加”是阿里雲大資料的核心能力

4. 常用的數加產品

(1)資料分析平臺常用的數加產品

  • **Maxcompute:**快速、完全託管的TB/PB級資料倉儲解決方案。提供了針對海量資料儲存、運算的能力。
  • **DataIDE:**基於Maxcompute提供海量資料的離線加工分析、展現、資料探勘的能力,一站式開發、運維工具。
  • **QuickBI:**提供海量資料線上分析服務,支援拖拽式操作,可完成資料分析、業務資料探查、報表製作等工作。

(2)MaxCompute介紹

  • 大資料計算服務(MaxCompute,原ODPS)由阿里雲自主研發,提供針對TB/PB級資料、離線式實時性要求不高分散式處理能力,應用於資料分析、挖掘、商業智慧等領域。阿里巴巴的資料業務都執行在ODPS上。
  • **分散式:**採用分散式叢集架構、跨叢集技術突破、機群規模可以根據需要靈活擴充套件
  • **安全:**自動儲存容錯機制、所有計算在沙箱中執行、保障資料高安全性、高可靠性
  • **易用:**準API的方式提供服務、高併發高吞吐量數後上傳下載、全面支援基於SQL的資料處理
  • **管理與授權:**支援多使用者管理協同分析資料、支特多種方式對使用者許可權管理、配置靈活的資料訪問控制策略
  • MaxCompute的應用特點:
    • **海量運算觸手可得:**根據資料規模自動調整叢集儲存和計算能力,最大化發揮資料的價值。
    • 服務“開箱即用”:又需簡單的幾步操作,就可以上傳資料、分析資料並得到分析結果。
    • **資料儲存安全可靠:**二重備份、讀寫鑑權、應用沙箱、系統沙箱等多層次安全機制。
    • **多使用者協作:**保障資料安全的前提下最大化工作效率。
    • **按量付費:**根據實際使用收費,最大化降低資料使用成本。

(3)DataIDE介紹

  • 阿里雲大資料開發套件(Data IDE)提供了一個高效、安全的離線資料開發環境。
  • DataIDE的應用特點:
    • **基於Max Compute:**一套基於Max Compute(原ODPS)的資料開發、資料管理工具。
    • **一站式資料開發:**提供數框同步、數加工、一健釋出、排程引擎等一站式大資料開發服務。
    • **清晰可見的血緣:**基於統一的後設資料服務提供資料資源管理檢視、視覺化的資料血緣分析,清晰展現資料表的輸入與輸出,方便追溯其處理過程。
    • **視覺化開發介面:**面向資料開發者、資料運組人員,項日管理者,提供了視覺化的開發介面。

(4)QuickBI介紹

  • QuickBI(商務/商業智慧)提供海量資料實時線上分析,拖拽式操作、豐富的視覺化效果,可以幫助輕鬆自如地完成資料分析、業務資料探查。它不止是業務人員看資料的工具,更是資料化運營的助推器,解決大資料應用“最後一公里”的問題,實現人人都是資料分析師。
  • QuickBI的應用特點:
    • **多:**支援多種型別資料來源、支援多種視覺化元件
    • **快:**海量資料的實時分析、提供智慧的一鍵加速
    • **好:**靈活的報表整合方案、嚴密的安全許可權管理
    • **省:**門檻低易上手省時間、雲端計算費用低省成本

(5)常見的應用場景:從業務系統到資料分析

  • 雲資料庫RDS搭配大資料計算服務MaxCompute,實現對大資料的分散式分析處理,並通過QuickBI以報表的形式將結果展現出來,適用於商業分析、挖掘等大資料處理場景。

相關文章