大資料技術體系1(清華:大資料技術體系)
【1】採集與整合
【2】儲存與管理
【3】分析與挖掘
【4】視覺化
【5】計算範型
【6】隱私與安全
01資料質量-無法迴避的挑戰
傳統資料質量僅通過EFL方式執行,即抽取、轉換、載入,包括解析、模式分析等。
沒有完全覆蓋資料質量的基本性質
挑戰
分散式環境中,如何保證全域性資料的一致性、精確性、完整性
流體環境中,如何保證時效性(e.g 時序一致性)
在大資料中,保證絕對的資料質量並不現實
高維、異質、模糊、海量、多變
02儲存的老問題、新挑戰
一些轉變:
Hash大於掃描
單副本轉向多副本
單階段轉向多階段
壓縮不再解壓
03大資料分析的特點
傳統BI | 資料科學&大資料分析 | |
焦點 | 發生了什麼 | 將要發生什麼 |
資料 | 小規模、乾淨資料,簡單的統計模型 | 大規模、多樣化、無關聯資料,語義模糊、複雜的預測模型 |
支援 | 因果分析:事件及其將要發生的原因 | 關聯分析:利用多個若關聯資料來源發現有潛在價值的結果 |
主要問題
監控動態流資料,跟蹤變化趨勢;而非僅僅考慮靜態資料
和資料科學家一起工作,而非僅僅靠資料工程師
將大資料分析工具整合到核心業務和運營環節
04視覺化的挑戰
將大規模資料中蘊含的資訊、知識與規律,利用計算機軟體更好的揭示出來
通過人來的互動和反饋,觸發新一輪的知識發現過程,是大資料分析的關鍵。因此,視覺化是人類實現資料洞察的關鍵的互動通道。在大資料時代起到重要的技術支撐作用。
05計算範型
資料找程式 -> 程式找資料
Scale Up -> Scale Out
傳統計算 -> 雲端計算
Virtual Machine & Multi Tenants
CPU -> HPU(Crowdsourcing)
相關文章
- 大資料簡介,技術體系分類整理大資料
- 大資料全系技術概覽大資料
- HCR大資料戰略之二:適合研究洞察的大資料技術體系大資料
- 大資料系列 1:大資料技術發展歷程大資料
- 大資料技術 - Directus大資料
- 大資料技術 - Azkaban大資料
- 大資料技術 - Airflow大資料AI
- 大資料技術 - DataX大資料
- 大資料技術 - Canal大資料
- 大資料技術 - Maxwell大資料
- 大資料技術 - Phoenix大資料
- 大資料技術 - StarRocks大資料
- 大資料技術 - StreamX大資料
- 大資料技術 - Debezium大資料
- 大資料技術 - SuperSQL大資料SQL
- 大資料技術 - Hive大資料Hive
- 大資料技術 - Hbase大資料
- 大資料技術 - Zookeeper大資料
- 大資料技術 - Kyuubi大資料
- 大資料技術簡介大資料
- 大資料技術包括哪些大資料
- 大資料技術趨勢大資料
- 大資料技術概論大資料
- 大資料技術 - Manticore Search大資料
- 大資料技術 - DolphinScheduler大資料
- 大資料技術 - Ververica大資料
- 大資料技術 - Apache Doris大資料Apache
- 大資料技術有哪些大資料
- 大資料技術 - DragonflyDB大資料Go
- 大資料技術 - Druid大資料UI
- 大資料技術現狀大資料
- 大資料技術綜述大資料
- 大資料六大核心技術大資料
- 大資料技術之大資料概論大資料
- 大資料技術原理與應用——大資料概述大資料
- 大資料競賽技術分享大資料
- 大資料建模、分析、挖掘技術大資料
- 大資料探勘有哪些技術大資料