Github 1.9K Star的資料治理框架-Amundsen

獨孤風發表於2021-03-25

原文網址 : https://www.cnblogs.com/tree1123/p/14570240.html

Amundsen的使命，整理有關資料的所有資訊，並使其具有普遍適用性。

這是Amundsen官網的一句話，對於後設資料的管理工作，複雜且繁瑣。可用的工具很多各有千秋，資料血緣做的較好的應該是Apache Atlas，而資料視覺化做的較好的應該是Apache Superset。業界一直需要一個可以整合這些功能，讓資料治理更加的簡單便捷，而這正是Amundsen的使命。

類似於Atlas (Apache)，Datahub (LinkedIn)。Amundsen主要在於提高資料分析師，資料科學家和資料工程師的工作效率。它可以通過為資料資源建立索引，並通過一定的機制來支援在頁面上進行排名搜尋。可以將其視為搜尋功能，但搜尋的是後設資料。該專案以挪威探險家Roald Amundsen（第一個發現南極的人）的名字命名。

Amundsen由LF AI＆Data基金會維護。LF AI＆Data是Linux Foundation的保護基金會，支援人工智慧，機器學習，深度學習和資料方面的開源創新。

目前Amundsen在github有1.9kStar，還沒有Releases的版本，專案正處於蒸蒸日上的上升期。

架構

下圖顯示了Amundsen的總體架構。

可見，Hive，Presto等資料來源通過Databuilder ingestion框架獲取後設資料，寫入Elasticsearch和Neo4j，通過搜尋服務與後設資料服務提供給前端。

主要模組如下：

前端服務

作為使用者互動的web頁面。

這是基於Flask的Web應用程式，頁面是React構建的。

搜尋服務

搜尋服務採用Elasticsearch的搜尋功能（或者Apache Atlas），並提供一個RESTful API服務。

後設資料服務

後設資料服務目前使用的Neo4j的圖資料庫進行互動。

功能展示

Amundsen提供了搜尋，推薦，表描述，資料預覽在內的非常多的功能，資料血緣功能正在研發中。

以上是部分功能展示：

登陸頁面：Amundsen的登陸頁面

搜尋預覽：檢視搜尋結果

表的詳細頁面：Hive 等表的視覺化

列詳細資訊：主要是一些列的統計資訊

資料預覽頁面：表資料預覽的視覺化，可以與Apache Superset或其他資料視覺化工具整合。

整合

Amundsen支援的資料來源非常多。

Apache Druid，Apache Hive，CSV，Oracle，

Mysql，Delta Lake等等。

Amundsen還可以連線到任何提供dbapi或sql_alchemy介面的資料庫。

同時Amundsen還支援和一些儀表盤的整合，比如

Redash，Tableau。

ETL工具的整合，Apache Airflow。

BI視覺化工具，Apache Superset。

未來規劃

作為資料治理領域的未來之星，Amundsen有著非常好的計劃。

2021年願景

可以和所有的資料來源進行整合，解決越來越多的資料治理問題。

近期工作重點

資料血緣（設計完成）

整合資料質量系統（進行中）

列值過濾（已開始）

搜尋結果層次結構（計劃中）

當然，還有很多計劃中的功能，這裡不一一列舉。

期待未來Amundsen的發展，我們也將對其新版本與新功能的釋出持續關注！

PowerJob 從 0 到 1.9k star 的經歷
2020-09-23
前瞻|Amundsen的資料血緣功能
2021-03-26
最流行的 Go Web 框架： GitHub Star 數量排行（2019）
2019-11-29
GoWeb框架Github
資料治理：管理資料資產的最佳實踐框架
2022-03-30
框架
1.9K star 推薦web 版 Linux、資料庫、Redis、MongoDB 等統一管理平臺
2024-04-20
WebLinux資料庫RedisMongoDB
我成了 GitHub Star
2021-07-01
Github
開源 Amundsen：資料發現和後設資料平臺
2022-10-24
資料治理的興與衰，如何進行資料治理？
2022-05-25
資料治理 VS 公司治理、IT治理、數倉治理
2022-12-28
[資源分享] Github上八千Star的深度學習500問教程
2018-11-05
Github深度學習
資料治理的關鍵：後設資料治理如何開展
2023-04-17
石錘 github 買 star 行為
2018-09-03
Github
Github 上那些開源專案的 star 數
2019-03-01
Github
GitHub 上四萬 Star 大佬的求職回憶
2018-11-23
Github求職
大資料時代的資料治理！
2023-12-14
大資料
怎樣畫一張人見人愛的資料治理框架圖？
2023-01-04
框架
GitHub 1W star 成就達成！
2018-08-17
Github
Tailwind CSS：最受歡迎的實用類CSS框架!Github Star達到了驚人的82.5K!
2024-10-17
AICSS框架Github
資料治理--模板
2024-06-07
資料治理怪象
2022-12-23
資料安全治理
2022-04-15
資料治理之資料的“管”與“用”
2023-12-21
資料治理的資料質量知多少
2022-05-12
如何打造一個上千Star的Github專案
2019-08-17
Github
GitHub 上四萬 Star 大佬的BATT求職回憶
2019-02-12
GithubBAT求職
資料治理--資料質量
2024-06-04
資料治理--後設資料
2024-06-04
資料護航安全立方—海泰方圓資料安全治理立體式框架
2022-12-21
框架
API Star：一個 Python 3 的 API 框架
2018-09-07
APIPython框架
在github上優雅管理star專案
2018-10-29
Github
Vue 專案推薦，GitHub 過萬 Star
2020-07-07
VueGithub
揭秘資料治理系統的資料流程圖
2024-03-04
流程圖
資料治理的成功要素：資料戰略管理
2023-12-18
資料治理：資料整合的關鍵技術
2023-12-14
資料治理：資料整合架構的演進
2022-07-04
架構
資料治理：走出資料孤島
2022-08-04
⭐️ GitHub Star 數量前十的工作流專案
2024-11-22
Github
資料治理的價值有哪些
2022-03-21