Amundsen的使命,整理有關資料的所有資訊,並使其具有普遍適用性。
這是Amundsen官網的一句話,對於後設資料的管理工作,複雜且繁瑣。可用的工具很多各有千秋,資料血緣做的較好的應該是Apache Atlas,而資料視覺化做的較好的應該是Apache Superset。業界一直需要一個可以整合這些功能,讓資料治理更加的簡單便捷,而這正是Amundsen的使命。
類似於Atlas (Apache),Datahub (LinkedIn)。Amundsen主要在於提高資料分析師,資料科學家和資料工程師的工作效率。它可以通過為資料資源建立索引,並通過一定的機制來支援在頁面上進行排名搜尋。可以將其視為搜尋功能,但搜尋的是後設資料。該專案以挪威探險家Roald Amundsen(第一個發現南極的人)的名字命名。
Amundsen由LF AI&Data基金會維護。LF AI&Data是Linux Foundation的保護基金會,支援人工智慧,機器學習,深度學習和資料方面的開源創新。
目前Amundsen在github有1.9kStar,還沒有Releases的版本,專案正處於蒸蒸日上的上升期。
架構
下圖顯示了Amundsen的總體架構。
可見,Hive,Presto等資料來源通過Databuilder ingestion框架獲取後設資料,寫入Elasticsearch和Neo4j,通過搜尋服務與後設資料服務提供給前端。
主要模組如下:
前端服務
作為使用者互動的web頁面。
這是基於Flask的Web應用程式,頁面是React構建的。
搜尋服務
搜尋服務採用Elasticsearch的搜尋功能(或者Apache Atlas),並提供一個RESTful API服務。
後設資料服務
後設資料服務目前使用的Neo4j的圖資料庫進行互動。
功能展示
Amundsen提供了搜尋,推薦,表描述,資料預覽在內的非常多的功能,資料血緣功能正在研發中。
以上是部分功能展示:
登陸頁面:Amundsen的登陸頁面
搜尋預覽:檢視搜尋結果
表的詳細頁面:Hive 等表的視覺化
列詳細資訊:主要是一些列的統計資訊
資料預覽頁面:表資料預覽的視覺化,可以與Apache Superset或其他資料視覺化工具整合。
整合
Amundsen支援的資料來源非常多。
Apache Druid,Apache Hive,CSV,Oracle,
Mysql,Delta Lake等等。
Amundsen還可以連線到任何提供dbapi
或sql_alchemy
介面的資料庫。
同時Amundsen還支援和一些儀表盤的整合,比如
Redash,Tableau。
ETL工具的整合,Apache Airflow。
BI視覺化工具,Apache Superset。
未來規劃
作為資料治理領域的未來之星,Amundsen有著非常好的計劃。
2021年願景
可以和所有的資料來源進行整合,解決越來越多的資料治理問題。
近期工作重點
資料血緣(設計完成)
整合資料質量系統(進行中)
列值過濾(已開始)
搜尋結果層次結構(計劃中)
當然,還有很多計劃中的功能,這裡不一一列舉。
期待未來Amundsen的發展,我們也將對其新版本與新功能的釋出持續關注!