基於MaxCompute InformationSchema進行血緣關係分析
一、需求場景分析
在實際的資料平臺運營管理過程中,資料表的規模往往隨著更多業務資料的接入以及資料應用的建設而逐漸增長到非常大的規模,資料管理人員往往希望能夠利用後設資料的分析來更好地掌握不同資料表的血緣關係,從而分析出資料的上下游依賴關係。
本文將介紹如何去根據MaxCompute InformationSchema中作業ID的輸入輸出表來分析出某張表的血緣關係。
二、方案設計思路
MaxCompute Information_Schema提供了訪問表的作業明細資料tasks_history,該表中有作業ID、input_tables、output_tables欄位記錄表的上下游依賴關係。根據這三個欄位統計分析出表的血緣關係
1、根據某1天的作業歷史,通過獲取tasks_history表裡的input_tables、output_tables、作業ID欄位的詳細資訊,然後分析統計一定時間內的各個表的上下游依賴關係。
2、根據表上下游依賴推測出血緣關係。
三、方案實現方法
參考示例一:
(1)根據作業ID查詢某表上下游依賴SQL處理如下:
結果如下圖所示:
(2)根據結果可以分析得出每張表張表的輸入表輸出表以及連線的作業ID,即每張表的血緣關係。
血緣關係點陣圖如下圖所示:
中間連線為作業ID,連線起始為輸入表,箭頭所指方向為輸出表。
參考示例二:
以下方式是通過設定分割槽,結合DataWorks去分析血緣關係:
(1)設計儲存結果表Schema
(2)關鍵解析sql
(3)任務依賴關係
(4)最終血緣關係
以上血緣關係的分析是根據自己的思路實踐去完成。真實的業務場景需要大家一起去驗證。所以希望大家有需要的可以根據自己的業務需求去做相應的sql修改。如果有發現處理不當的地方希望多多指教。我在做相應的調整。
本文作者:劉-建偉
本文為阿里雲內容,未經允許不得轉載。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69915408/viewspace-2669981/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 基於圖資料庫的後設資料血緣關係分析技術研究與實踐資料庫
- 易混淆親緣關係統計量(血緣係數、親緣係數、近交係數)介紹
- 基於MaxCompute的拉鍊表設計
- 基於java的客戶關係管理系統Java
- 邊緣計算|Hadoop——邊緣計算和Hadoop是什麼關係?Hadoop
- 基於MaxCompute的數倉資料質量管理
- 基於Python進行小波分析Python
- 基於d3.js的關係拓撲圖JS
- 基於路徑的實體圖關係抽取模型模型
- ArrayList繼承關係分析繼承
- 基於MaxCompute構建企業使用者畫像
- 關於LOL成就係統對玩家影響的簡略分析
- AAAI 2019 | 基於分層強化學習的關係抽取AI強化學習
- 多程式命名管通通訊【無血緣關係程式】PHP 版本PHP
- 數倉血緣關係資料的儲存與讀寫
- 基於 Nebula Graph 構建百億關係知識圖譜實踐
- JSP規範、Servlet關係、基礎JSServlet
- 設計模式-UML關係基礎設計模式
- CRM客戶關係管理如何進行?
- Activity、View、Window之間關係的分析View
- 經營分析、資料分析、財務分析有什麼關係?
- 基於MaxCompute打造輕盈的人人車移動端資料平臺
- 基於ossec logstash es大資料安全關聯分析大資料
- 大資料基礎(一)——關係+文章大資料
- 一個關於wait/notify與鎖關係的探究AI
- CRM客戶關係管理怎麼進行?
- 基於SSM的小程式中後端各結構層作用及關係SSM後端
- 用 NetworkX + Gephi + Nebula Graph 分析人物關係(下篇)
- 用 NetworkX + Gephi + Nebula Graph 分析人物關係(上篇)
- OLAP引擎:基於Druid元件進行資料統計分析UI元件
- 阿里雲的“終端雲化”實踐,基於ENS進行邊緣架構構建阿里架構
- IoT 邊緣叢集基於 Kubernetes Events 的告警通知實現(二):進一步配置
- 將圖卷積應用於關係推理卷積
- ACL 2019開源論文 | 基於Attention的知識圖譜關係預測
- 後端分析/前端分析/邊緣分析後端前端
- gcc 標頭檔案依賴關係 分析工具GC
- 分析客戶關係管理系統有哪些功能?
- OLAP引擎:基於Presto元件進行跨資料來源分析REST元件