Github 1.9K Star的資料治理框架-Amundsen

獨孤風發表於2021-03-25

Amundsen的使命,整理有關資料的所有資訊,並使其具有普遍適用性

這是Amundsen官網的一句話,對於後設資料的管理工作,複雜且繁瑣。可用的工具很多各有千秋,資料血緣做的較好的應該是Apache Atlas,而資料視覺化做的較好的應該是Apache Superset。業界一直需要一個可以整合這些功能,讓資料治理更加的簡單便捷,而這正是Amundsen的使命。

類似於Atlas (Apache),Datahub (LinkedIn)。Amundsen主要在於提高資料分析師,資料科學家和資料工程師的工作效率。它可以通過為資料資源建立索引,並通過一定的機制來支援在頁面上進行排名搜尋。可以將其視為搜尋功能,但搜尋的是後設資料。該專案以挪威探險家Roald Amundsen(第一個發現南極的人)的名字命名。

Amundsen由LF AI&Data基金會維護。LF AI&Data是Linux Foundation的保護基金會,支援人工智慧,機器學習,深度學習和資料方面的開源創新。

目前Amundsen在github有1.9kStar,還沒有Releases的版本,專案正處於蒸蒸日上的上升期。

架構

下圖顯示了Amundsen的總體架構。

可見,Hive,Presto等資料來源通過Databuilder ingestion框架獲取後設資料,寫入Elasticsearch和Neo4j,通過搜尋服務與後設資料服務提供給前端。

主要模組如下:

前端服務

作為使用者互動的web頁面。

這是基於Flask的Web應用程式,頁面是React構建的。

搜尋服務

搜尋服務採用Elasticsearch的搜尋功能(或者Apache Atlas),並提供一個RESTful API服務。

後設資料服務

後設資料服務目前使用的Neo4j的圖資料庫進行互動。

功能展示

Amundsen提供了搜尋,推薦,表描述,資料預覽在內的非常多的功能,資料血緣功能正在研發中。

以上是部分功能展示:

登陸頁面:Amundsen的登陸頁面

搜尋預覽:檢視搜尋結果

表的詳細頁面:Hive 等表的視覺化

列詳細資訊:主要是一些列的統計資訊

資料預覽頁面:表資料預覽的視覺化,可以與Apache Superset或其他資料視覺化工具整合。

整合

Amundsen支援的資料來源非常多。

Apache Druid,Apache Hive,CSV,Oracle,

Mysql,Delta Lake等等。

Amundsen還可以連線到任何提供dbapisql_alchemy介面的資料庫。

同時Amundsen還支援和一些儀表盤的整合,比如

Redash,Tableau。

ETL工具的整合,Apache Airflow。

BI視覺化工具,Apache Superset。

未來規劃

作為資料治理領域的未來之星,Amundsen有著非常好的計劃。

2021年願景

可以和所有的資料來源進行整合,解決越來越多的資料治理問題。

近期工作重點

資料血緣(設計完成)

整合資料質量系統(進行中)

列值過濾(已開始)

搜尋結果層次結構(計劃中)

當然,還有很多計劃中的功能,這裡不一一列舉。

期待未來Amundsen的發展,我們也將對其新版本與新功能的釋出持續關注!

相關文章