開源 Amundsen:資料發現和後設資料平臺

banq發表於2022-10-24

在像 Lyft 這樣的現代資料驅動型公司中,平臺上的每一次互動都是由資料驅動的。複雜資料生成、ETL 流程和分析帶來的挑戰使後設資料變得非常重要。

此外,資料資源的種類也在不斷增加。在 Lyft,這些資源包括 Redshift、Presto、Hive、PostgreSQL 中的 SQL 表和檢視,以及 Mode、Superset 和 Tableau 等商業智慧工具中的儀表板。隨著資料資源的增長,瞭解存在哪些資料資源、如何訪問它們以及這些資源中有哪些可用資訊變得越來越困難。

Lyft 開源了 Amundsen,並詳細介紹了支援資料發現引擎的架構。文中比較了用於提取後設資料的拉取模型與推送模型,以及它對拉取模型的好處。

Amundsen 由一個通用資料攝取框架 DataBuilder、一個前端服務、一個處理來自前端的請求的後設資料服務和一個由 ElasticSearch 支援的
搜尋服務組成。

詳細點選標題

相關文章