大資料技術體系1(清華:大資料技術體系)

Xindolia_Ring發表於2018-11-02

【1】採集與整合

【2】儲存與管理

【3】分析與挖掘

【4】視覺化

【5】計算範型

【6】隱私與安全

 

01資料質量-無法迴避的挑戰

傳統資料質量僅通過EFL方式執行,即抽取、轉換、載入,包括解析、模式分析等。

沒有完全覆蓋資料質量的基本性質

挑戰

分散式環境中,如何保證全域性資料的一致性、精確性、完整性

流體環境中,如何保證時效性(e.g 時序一致性)

在大資料中,保證絕對的資料質量並不現實

高維、異質、模糊、海量、多變

02儲存的老問題、新挑戰

一些轉變:

Hash大於掃描

單副本轉向多副本

單階段轉向多階段

壓縮不再解壓

03大資料分析的特點

  傳統BI 資料科學&大資料分析
焦點 發生了什麼 將要發生什麼
資料 小規模、乾淨資料,簡單的統計模型 大規模、多樣化、無關聯資料,語義模糊、複雜的預測模型
支援 因果分析:事件及其將要發生的原因 關聯分析:利用多個若關聯資料來源發現有潛在價值的結果

主要問題

監控動態流資料,跟蹤變化趨勢;而非僅僅考慮靜態資料

和資料科學家一起工作,而非僅僅靠資料工程師

將大資料分析工具整合到核心業務和運營環節

04視覺化的挑戰

將大規模資料中蘊含的資訊、知識與規律,利用計算機軟體更好的揭示出來

通過人來的互動和反饋,觸發新一輪的知識發現過程,是大資料分析的關鍵。因此,視覺化是人類實現資料洞察的關鍵的互動通道。在大資料時代起到重要的技術支撐作用。

05計算範型

資料找程式 -> 程式找資料

Scale Up -> Scale Out

傳統計算 -> 雲端計算

Virtual Machine & Multi Tenants

CPU -> HPU(Crowdsourcing)

相關文章