讀資料湖倉02資料抽象

躺柒發表於2024-09-28

1. 不同型別的資料

1.1. 不同型別的資料在儲存方面有各自的特性,這些特性極大地影響了資料在資料湖倉中的儲存和使用方式

1.2. 結構化資料

  • 1.2.1. 在企業等組織中,只有少量的資料是結構化資料

  • 1.2.2. 結構化資料是基於事務的資料,是組織日常業務的副產品

1.3. 文字資料

  • 1.3.1. 存在於許多地方,如合同、電子郵件、電話交談、醫療記錄等

1.4. 機器生成的模擬/物聯網資料

  • 1.4.1. 這類機器包括攝像頭、無人機、手錶、鬧鐘、車輛等

  • 1.4.2. 由機器生成的資料無處不在

2. 資料量

2.1. 在組織中,對於不同型別的資料有不同的度量維度

2.2. 最重要的維度是資料量,而儲存和管理不同資料量所使用的技術也各不相同

2.3. 與文字資料相比,結構化資料的資料量相對較小

2.4. 由機器生成的資料的資料量要遠遠超過文字資料的資料量

3. 資料的業務價值

3.1. 僅僅有大量的資料並不意味著所有的資料都具有業務價值

  • 3.1.1. 有些資料的業務價值很高

  • 3.1.2. 有些資料的業務價值則相對較低

3.2. 由機器生成的模擬/物聯網資料

  • 3.2.1. 只有一小部分具有巨大的業務價值

  • 3.2.2. 大部分由機器生成的資料都是機械式的記錄,它們很少或根本沒有業務價值

    • 3.2.2.1. 如果有一天車床由於異常導致無法正常工作,那麼我們需要高度關注該車床當天生成的資料

    • 3.2.2.2. 車床在工作過程中生成的有用資料的比例非常低

4. 資料的訪問機率

4.1. 資料的訪問機率與其蘊藏的業務價值密切相關

  • 4.1.1. 資料被訪問的機率集中在有業務價值的資料中

4.2. 資料湖倉中資料的訪問機率與資料的業務價值呈正相關

4.3. 將不常被訪問的資料與訪問機率較高的資料儲存在同一個地方是沒有意義的,應該將其儲存到不同的資料儲存器中

4.4. 將不同型別的資料儲存在一起不僅會影響儲存器的效能、增加成本,而且會降低資料分析工程師處理資料的效率

  • 4.4.1. 將訪問機率較高的資料與訪問機率較低的資料儲存在資料湖倉中的同一位置並不明智

4.5. 在對資料進行分隔儲存時,我們需要考慮是否檢索儲存在大容量儲存器中的資料

  • 4.5.1. 需要考慮將資料儲存到大容量儲存器中後,在未來出現未知需求時,我們能否查詢和分析已存入大容量儲存器中的資料

  • 4.5.2. 在大容量儲存器中找到所需的資料後,就可以很容易地將該資料儲存到高效能儲存器中

5. 資料降級

5.1. 隨著時間的推移,所有型別的資料都會發生資料降級(Data Degradation)

5.2. 資料的訪問機率會隨著時間的推移而降低

5.3. 儲存時間越久的資料,對解決當前問題有幫助的機率就越低

6. 基於大容量儲存器的資料歸檔機制

6.1. 隨著時間的推移,資料的訪問機率和業務價值都會降低,為了提高資料的儲存能力,將大容量儲存器作為歸檔資料的載體是必要的

6.2. 資料被儲存在歸檔儲存區,當需要用到相關資料時,可以在歸檔儲存區進行檢索

6.3. 如果資料歸檔處理得當,那麼幾乎不需要在歸檔儲存區中檢索資料

7. 資料抽象

7.1. 資料抽象是資料湖倉的基礎,它是許多依賴企業資料的應用程式的基礎設施

  • 7.1.1. 正確的資料抽象使資料湖倉中的各方可以方便地訪問和使用資料,也能使資料更易於理解

7.2. 資料抽象(Data Abstraction)是一種處理大量複雜資料的非常有用且必要的方法

7.3. 人們在日常生活中經常使用抽象的方法來處理規模龐大且複雜的事物

7.4. 使用抽象的方式引用物件比單獨提及每個物件更簡便

7.5. 資料型別不同,抽象模式和方法也不同

  • 7.5.1. 結構化資料透過資料模型進行抽象

  • 7.5.2. 文字資料透過本體(Ontology)和分類標準進行抽象

  • 7.5.3. 模擬/物聯網資料透過蒸餾演算法進行抽象

7.6. 經過初步觀察,可以發現,資料模型和本體似乎是一回事

7.7. 這兩種抽象型別之間也存在一些重要且明顯的區別

  • 7.7.1. 資料模型面向內部,著眼於組織的內部執行

  • 7.7.2. 本體面向外部,用於描述外部世界

  • 7.7.3. 資料模型描述的資料可在必要時進行更改

  • 7.7.4. 本體所抽象的文字則不能更改

  • 7.7.5. 資料模型所使用的資料是有限的

  • 7.7.6. 文字以及文字所依據的外部世界的描述卻不是有限的

    • 7.7.6.1. 外部世界可以永遠存在

7.8. 資料模型和本體是對資料的抽象,而蒸餾演算法則是對處理過程的描述

7.9. 基礎資料中還有另一種重要的抽象概念,即資料在組織流程中流動時對資料血緣的抽象

  • 7.9.1. 資料是作為事務的一部分被採集的

  • 7.9.2. 資料一旦被採集,就會與其他同類資料彙集在一起

  • 7.9.3. 資料到達用於分析處理的位置後,分析人員需要全面瞭解資料經歷的整個過程,只有這樣他們才能成功進行分析處理

8. 結構化資料模型

8.1. 實體關係圖(Entity Relationship Diagram,ERD)

  • 8.1.1. 實體關係圖描述了組織的主要主題領域及實體之間的關係

8.2. 資料項集(Data Item Set,DIS)

  • 8.2.1. 資料項集則將實體擴充套件為其組成部分,包括特定實體的鍵、屬性以及資料項集中實體的從屬資料

8.3. 資料庫模式(Database Schema)

  • 8.3.1. 資料庫模式是資料項集的映象,它描述了資料的物理屬性、索引和唯一鍵值等特徵

  • 8.3.2. 只是在資料項集的基礎上增加了一些細節

8.4. 資料模型的不同組成部分是相互關聯的,實體關係圖中的每個實體都有一個對應的資料項集,並且每個資料項集都有一個對應的資料庫模式

8.5. 資料模型通常不包括派生資料(Derived Data)或彙總資料(Summarized Data),僅包含粒度資料(Granular Data)

8.6. 資料模型的元素可用於為資料模型內部的資料提供上下文情境

9. 本體和分類標準

9.1. 本體是一組相關的分類標準

  • 9.1.1. 本體是無限的,建立本體是為了滿足特定群體的需求

    • 9.1.1.1. 本體的元素可以無限擴充套件
  • 9.1.2. 本體中的每個分類標準都是獨一無二的

  • 9.1.3. 第一種型別的本體是通用的,適用於任何主題

    • 9.1.3.1. “我喜歡……”

    • 9.1.3.2. “我愛……”​

  • 9.1.4. 第二種型別的本體是針對某一學科的

    • 9.1.4.1. 醫生有醫學術語

    • 9.1.4.2. 律師有法律術語

    • 9.1.4.3. 建築工人有建築術語

  • 9.1.5. 第三種型別的本體是針對某個組織特定術語的本體

    • 9.1.5.1. 某家石油公司會使用一些只在其內部使用的術語

9.2. 分類標準是對相似事物的分類

  • 9.2.1. 每個分類標準中的元素都與其他分類標準中的元素存在著某種關係

  • 9.2.2. 分類標準中的每個元素都與分類標準的一般值有著相同的關係

  • 9.2.3. 分類標準用於對同類物件進行分類

  • 9.2.4. 分類標準是用來描述外部世界的

  • 9.2.5. 分類標準是一種固定的文字抽象,不會隨意改變

10. 蒸餾演算法

10.1. 從大量模擬/物聯網資料中蒸餾有用的資料

10.2. 蒸餾演算法的形式多種多樣,如何選擇取決於模擬/物聯網資料自身的業務價值和最終業務價值之間的差異

10.3. 隨著時間的推移,蒸餾演算法也會隨條件的變化而改變

相關文章