圖書《資料資產管理核心技術與應用》分享

张永清發表於2024-08-02

《資料資產管理核心技術與應用》是由清華大學出版社出版的一本圖書,該圖書主要特點如下:

1、依託於大資料技術,獨家解密資料血緣的底層技術實現

2、詳解資料資產管理的知識體系和核心技術

3、應用後設資料管理和資料建模技術,充分發揮出資料資產的更大潛力和價值。

4、全書從後設資料、資料血緣、資料質量、資料服務、資料監控、資料建模、資料架構等多個維度來剖析大資料資產管理的核心技術與應用。

5、全書配套了PPT課件以及作者微信答疑服務

核心章節介紹如下:全書依託於大資料技術,獨家解密資料血緣的底層技術實現

通常來說,資料血緣的來源可以包括資料來源自身、資料處理的任務、資料任務的編排系統等。

  • 資料來源自身:比如像Hive,由於其本身就是支援透過HQL做資料處理的,所以其本身就可以透過資料處理的過程來分析從而獲取血緣。
  • 資料處理的任務:這點很容易理解,因為不管是實時任務還是離線任務,都會涉及到資料邏輯的處理,從資料任務的底層實現技術上來說,不管是Hadoop的Map-Reduce 任務還是Spark任務還是Flink任務,本質也都是在做資料的轉換處理,有資料的轉換,就可能會有資料血緣的變化。
  • 資料任務的編排系統:這點也很容易理解,如下圖3-1-1所示,在任務編排時,可能會將很多不同的任務節點按照依賴順序串聯起來。前一個任務節點的資料輸出會是下一個任務節點的資料輸入,所以肯定也會產生資料的轉換,就肯定也會存在血緣。

  • 重點介紹了資料血緣的底層技術實現,包括:
  1. 如何從Hive中獲取資料血緣
  2. 從Spark 執行計劃中獲取資料血緣
  3. 從Spark SQL語句中獲取資料血緣
  4. 從Flink中獲取資料血緣
  5. 從資料任務的編排系統中獲取數

相關文章