目前,Amundsen並不支援表級別和列級別的資料血緣功能,也沒有辦法展示資料的來龍去脈。
作為Amundsen一項非常核心的功能,Lineage功能早已經提上日程,並進入設計與研發階段。本位將展示此功能的一些基本設計。
概述
初步設計是通過表詳情頁,進入到相關頁面,來展示表的來源與輸出。
作為這項新的功能,就涉及到了幾個新的概念。
新的概念
Lineage:這是一個術語,代表了資料流的傳遞過程,從一個實體到另一個實體。特別是ETL的過程,重點關注表到表,列到列的資料流轉過程。
Upstream:資料從上游流向下游,Upstream就代表著當前的資料來源。
Downstream:代表了使用了當前資料的相關實體。
表級別
頁面分為Upstream以及
Downstream兩個選項卡。
每個選項卡將包含從中繼承或使用資料的表的列表。這允許使用者以非常簡單的方式檢視。
列級別
和表級別相似,可通過擴充套件列的後設資料來檢視。
當然這還只是初步的設計,未來可能會有更多的變化,我們會持續關注~
附一張Apache Atlas此功能的實現圖