讀資料湖倉04資料架構與資料工程

躺柒發表於2024-10-02

1. 大容量儲存器

1.1. 幾乎是到最後時刻,大容量儲存器才被引入基礎資料的基礎設施中

  • 1.1.1. 分析人員通常不會直接在大容量儲存器中進行資料分析

  • 1.1.2. 大容量儲存器在基礎資料中扮演的角色也特別重要,它能夠在許多方面支援資料分析人員自由靈活地完成工作,也為資料湖倉的高效使用奠定了基礎

1.2. 大容量儲存器可以利用大量廉價的儲存介質儲存資料

1.3. 儘管大容量儲存器的訪問速度不夠快,效率也不夠高,但大容量儲存器可以持久儲存資料,而且還可以透過應用程式直接訪問

1.4. 大容量儲存器在許多方面與棒球比賽中的替補投手角色類似,儘管大容量儲存器在系統架構中可能不會起到突出作用,但也是絕對必要的

1.5. 優勢

  • 1.5.1. 由於資料是以數字化形式儲存的,因此使用者仍然可以隨時訪問資料,並且能夠長期儲存

  • 1.5.2. 在大多數情況下不會隨著時間的推移而產生資料異常問題

  • 1.5.3. 大容量儲存器的真正優勢在於價格便宜

    • 1.5.3.1. 採用大容量儲存器方案的使用者則可以承擔幾乎無限量的資料儲存

    • 1.5.3.2. 大容量儲存器能夠有效降低整個組織的儲存成本

1.6. 缺點

  • 1.6.1. 通常無法直接訪問資料

    • 1.6.1.1. 在大容量儲存器中檢索資料時,我們需要按順序訪問
  • 1.6.2. 當需要在大容量儲存器中檢索資料時,通常需要開發大量自定義應用程式,這嚴重限制了對大容量儲存器的使用

    • 1.6.2.1. 不應該使用大容量儲存器來支援OLTP

1.7. 大容量儲存器適合儲存訪問機率較低的資料

1.8. 許多型別的資料都屬於低訪問機率的範疇

  • 1.8.1. 法律要求組織長期儲存相關資料,即使這些資料被訪問的可能性很低

  • 1.8.2. 在其他情況下,資料只是隨著時間的推移而變得陳舊和過時

1.9. 大容量儲存器也是儲存大多數機器生成資料的理想選擇,這些資料很可能不會被頻繁訪問或以其他方式用於分析,因為當機器正常執行並生成正常結果時,所生成的測量資料並不重要

1.10. 儘管大容量儲存器並非基礎資料的核心關注點,但它仍然是基礎資料重要和必要的組成部分

  • 1.10.1. 大容量儲存器是高效能儲存器的基礎和補充

2. 訪問機率

2.1. 將訪問機率較低的資料儲存在大容量儲存器中,這樣,當系統需要檢索訪問機率較高的資料時,就無需檢索大容量儲存器中的資料,從而提高工作效率

2.2. 在實際場景中,當需要處理大量資料時,訪問機率較高的資料可能會“隱藏”在其他資料之後

2.3. 在低訪問機率的資料叢林中,確保高訪問機率的資料不被埋沒則非常重要

2.4. 提供高訪問機率的可用資料可以簡化分析人員的操作,加快檢索速度,降低資料檢索的處理成本

2.5. 透過區分資料訪問機率的高低,可以實現更高的收益

  • 2.5.1. 需要確定哪些資料被訪問的機率高,哪些資料被訪問的機率低

2.6. 使用詞語並非確定訪問機率的唯一標準,更常見的方法是透過資料的年齡(Age of Data)來衡量

  • 2.6.1. 隨著時間的推移,資料被訪問的機率會逐漸降低,不同資料降低的速度可能不同

  • 2.6.2. 所有資料的訪問機率都會降低,當訪問機率降低時,就應該考慮採用大容量儲存器進行歸檔

3. 索引

3.1. 索引的作用是更高效地訪問資料,如果我們對資料的訪問機率有較高的預期,則可以為對應資料生成索引

3.2. 儘管大容量儲存器中資料的訪問機率較低,但仍然存在被訪問的可能性

  • 3.2.1. 需要為大容量儲存器中的資料建立索引,這都是為了“以防萬一”

  • 3.2.2. 這種型別的索引通常可以建立在有空閒的機器上

  • 3.2.3. 如果需要檢索大容量儲存器中的資料,建立索引能夠節省大量時間

3.3. 當需要檢索大量資料時,檢索過程必須快速完成,而直接在大容量儲存器中進行檢索則無法滿足這個需求,因為這種方式是無法快速完成的

  • 3.3.1. 在這種情況下,使用索引則可能解決這個問題

4. 後設資料

4.1. 大容量儲存器的另一個重要特點是對後設資料的需求

4.2. 雖然大容量儲存器中資料的訪問機率不高,但並不意味著大容量儲存器不需要後設資料

4.3. 如果我們在沒有後設資料的情況下將資料轉存到大容量儲存器中,那麼將很難再次找到並使用這些資料

4.4. 後設資料描述對於大容量儲存器和高效能儲存器同樣必不可少

5. 資料架構與資料工程

5.1. 資料架構與資料工程就像是技術領域的陰陽兩面

5.2. 沒有資料架構的資料工程就像沒有舵的船

  • 5.2.1. 沒有資料架構的資料工程毫無意義

5.3. 架構師與工程師會共同構建複雜的資訊系統

  • 5.3.1. 架構師注重考慮長期因素

  • 5.3.2. 工程師則更關注戰術性的問題

5.4. 資料架構師與資料工程師之間同樣也是合作互補的關係,他們能夠融合彼此的技能和視角,共同建立一個現代化的資訊系統環境

5.5. 資料架構師和資料工程師共同合作建立了資料基礎——資料湖倉

  • 5.5.1. 建立一個成功的資訊系統環境

  • 5.5.2. 將自己的工作建立在另一角色所創造的基礎之上

6. 資料架構師和資料工程師共同興趣點

6.1. 結構化資料只是資料架構師與資料工程師的第一個共同興趣點

  • 6.1.1. 資料架構師著眼於專案的大局和長期視野

    • 6.1.1.1. 是在最高階別的模型中定義的

    • 6.1.1.2. 在需要轉換時可以進行轉換

    • 6.1.1.3. 具有完整的資料血緣

    • 6.1.1.4. 被正確歸檔

    • 6.1.1.5. 被設計用於容納大量資料

  • 6.1.2. 資料工程師要關注專案的具體細節,包括程式碼、資料庫以及作業系統等方面的實現細節

    • 6.1.2.1. 資料的標準化

    • 6.1.2.2. 彙總和派生資料

    • 6.1.2.3. 選擇正確的資料來源

    • 6.1.2.4. 明確定義的轉換

6.2. 第二個共同興趣點是文字資料

  • 6.2.1. 資料架構師與資料工程師在本體、分類標準、情感分析、相關性分析、語言、多義詞和縮略語等方面有共同的興趣點

  • 6.2.2. 資料架構師對本體的完整性、大容量儲存器的使用以及將資料轉換為基礎資料等方面感興趣

    • 6.2.2.1. 本體的來源

    • 6.2.2.2. 分類標準的相互關係

    • 6.2.2.3. 分類標準的重疊部分

    • 6.2.2.4. 分類標準的層次級別

    • 6.2.2.5. 分類標準的維護

  • 6.2.3. 資料工程師對將文字轉換為資料庫的ETL、將要使用的資料庫、資料從大容量儲存器到高效能儲存器的流動等方面感興趣

    • 6.2.3.1. 分類標準的新鮮度

    • 6.2.3.2. 本體與組織實體之間的關係

    • 6.2.3.3. 分類標準的完整性

    • 6.2.3.4. 分類標準的具體程度

6.3. 第三個共同興趣點是組織中的模擬/物聯網資料

  • 6.3.1. 都對用於資料蒸餾的演算法、模擬/物聯網環境中不同型別資料的資料結構和組成部分、大容量儲存器管理等方面感興趣

  • 6.3.2. 資料架構師關注的方面包括即將面對的資料量、用於蒸餾的演算法、儲存在高效能儲存器中的資料內容和結構等

    • 6.3.2.1. 模擬/物聯網資料建立的速率

    • 6.3.2.2. 模擬/物聯網資料的粒度級別

    • 6.3.2.3. 模擬/物聯網資料滿足的業務需求

    • 6.3.2.4. 蒸餾演算法的效率

  • 6.3.3. 資料工程師關注蒸餾演算法的實際編碼、將資料載入到大容量儲存器和高效能儲存器的過程、將高效能儲存器提供給終端使用者使用等方面

    • 6.3.3.1. 對蒸餾後的資料進行維護的能力

    • 6.3.3.2. 蒸餾演算法的精度

    • 6.3.3.3. 蒸餾後的資料所經歷的分析處理過程

    • 6.3.3.4. 偶爾需要重新定義蒸餾的引數

6.4. 第四個共同興趣點是跨不同資料型別跟蹤和移動資料的能力

  • 6.4.1. 儘管並非所有資料都可以被用於跨資料型別的應用,但如果資料能夠在不同資料型別之間流動,就存在巨大的可能性

6.5. 第五個共同興趣點是資料血緣

  • 6.5.1. 資料在組織內通常是流動的

  • 6.5.2. 當我們移動資料時,就會發生資料轉換,而且一些資料會被反覆移動

  • 6.5.3. 在整個組織的資料流中,我們需要考慮進行資料轉換的演算法和選擇用於轉換的資料

    • 6.5.3.1. 當資料從一種資料型別轉換為另一種資料型別時,就會引發許多問題,這也是資料架構師與資料工程師都非常關心的問題

相關文章