前瞻|Amundsen的資料血緣功能

獨孤風發表於2021-03-26

目前,Amundsen並不支援表級別和列級別的資料血緣功能,也沒有辦法展示資料的來龍去脈。

作為Amundsen一項非常核心的功能,Lineage功能早已經提上日程,並進入設計與研發階段。本位將展示此功能的一些基本設計。

概述

初步設計是通過表詳情頁,進入到相關頁面,來展示表的來源與輸出。

作為這項新的功能,就涉及到了幾個新的概念。

新的概念

Lineage:這是一個術語,代表了資料流的傳遞過程,從一個實體到另一個實體。特別是ETL的過程,重點關注表到表,列到列的資料流轉過程。

Upstream:資料從上游流向下游,Upstream就代表著當前的資料來源。

Downstream:代表了使用了當前資料的相關實體。

表級別

頁面分為Upstream以及Downstream兩個選項卡。

每個選項卡將包含從中繼承或使用資料的表的列表。這允許使用者以非常簡單的方式檢視。

列級別

和表級別相似,可通過擴充套件列的後設資料來檢視。

當然這還只是初步的設計,未來可能會有更多的變化,我們會持續關注~

附一張Apache Atlas此功能的實現圖

相關文章