Amundsen在REA Group公司的應用實踐

獨孤風發表於2021-03-29

原文網址 : https://www.cnblogs.com/tree1123/p/14593213.html

REA Group是一家專門面向房地產與實業資產的跨國數字廣告公司。

他們主要為消費者提供房地產購買、出售與租賃服務，同時釋出各類房產新聞、裝修技巧以及生活方式層面的內容。每一天，都有數百萬消費者訪問REA Group網站。

REA Group每天都需要進行大量的資料分析工作，去分析使用者，財務等資訊，該公司也掌握了大量的資料。

但是要使用資料，就必須先找到資料所在。在資料工作中面臨做多的問題是：這些資料是否存在？我該如何訪問？資料存在哪？最後更新時間是什麼時候？

實際上，資料科學家和分析人員將大約20％的時間僅用於查詢所需的資料，這佔用了他們大量的時間和精力。

很多公司都存在類似的問題，也有很多資料治理的解決方案，但是沒有一個完美的解決方案。在評估了多種方案以後，REA Group公司最終選擇了Lyft的開源後設資料引擎Amundsen。本文將介紹其應用實現過程，以及如何進行了定製化的改造。

為什麼選擇Amundsen

選擇合適的解決方案最重要的是充分了解自己的需求，選擇最合適自己的。

每一種方案擅長的領域不同，而此次需要的重點是幫助使用者搜尋資料，獲取有關該資料的基本資訊，以及知道該問誰尋找更多的資訊。

所以選擇Amundsen是基於以下因素：

適合想要的大多數功能，包括與BigQuery和Airflow的整合，都已經在Amundsen中提供。在搜尋結果中設定優先順序，以檢視最常用的表也是可以使用的功能。還需要使用者可以檢視所有表的後設資料。這些都是Amundsen開箱即用的功能。
自動化 Amundsen專注於顯示自動生成的後設資料。這樣可以節約大量的人力去手工維護。
易於使用 Amundsen具有清晰，直觀，快速的UI。
開源開源的優勢不僅僅是免費，而且可以靈活的進行定製化研發，而且Amundsen的社群非常活躍，正處於上升期。

但是，在選擇Amundsen時，也有很多問題沒有解決。

例如，Amundsen當前缺少資料血緣功能，無法顯示資料的來龍去脈。

所以必須確定好，如果進行定製化研發，是否有足夠的人員可以跟進，這將是額外的開銷。

如何實施Amundsen

Amundsen有三個主要的微服務：Frontend服務，Search服務（依賴Elasticsearch）和Metadata服務（依賴Neo4j或者Atlas）

在REA Group，Google BigQuery是其主資料庫。技術堆疊主要基於Amazon Web Services（AWS）。

因此，我們針對Amundsen的整個解決方案都部署在AWS中。

所有三個Amundsen微服務都作為容器部署在Amazon Elastic Container Service（ECS）上，Neo4j資料庫儲存所有後設資料，前端通過後設資料服務進行查詢。

部署好Amundsen的相關服務以後，下一步的難題就是從BigQuery獲取後設資料，這裡使用了Amundsen資料生成器庫，Extractor從BigQuery提取後設資料並將其引入Neo4j，而Indexer將Neo4j的後設資料索引到Elasticsearch中。

定製化研發了Amundsen表詳細資訊頁面

高階搜尋頁面

未來

在2020年11月釋出的Beta版以後，REA Group得到非常好的使用反饋。

但也有很多的問題，比如表描述的缺失，所以必須鼓勵資料釋出者填寫這些描述。隨著不斷的迭代，REA Group也會為開源社群做出進一步的貢獻。包括如何將Amundsen用作其他資料治理工作的補充，例如隱私和資料質量。

隨著越來越多的公司意識到後設資料的重要性，Amundsen由於其功能，易用性和開源性也會成為最優選擇~

相關文章

TiDB 分散式資料庫在轉轉公司的應用實踐
2018-05-30
TiDB分散式資料庫
TiDB 在小米的應用實踐
2018-12-04
TiDB
策略模式在應用中的實踐
2022-06-20
模式
Flink CDC 在易車的應用實踐
2023-04-19
Flink在美團的實踐與應用
2019-04-26
Apache Flink 在翼支付的實踐應用
2022-04-04
Apache
Flink 在米哈遊的應用實踐
2022-12-26
實踐 | Kylin在滴滴OLAP引擎中的應用
2018-06-28
Flink 在中泰證券的實踐與應用
2023-03-26
Apache Flink 在鬥魚的應用與實踐
2022-03-24
Apache
ScaleFlux CSD 2000 在攜程的應用實踐
2022-02-16
UX
Shell在日常工作中的應用實踐
2023-04-20
Flink 在人工智慧領域的應用實踐
2019-11-28
人工智慧
Embedding在騰訊應用寶的推薦實踐
2020-08-20
資訊公交服務在滴滴的應用實踐
2020-09-29
Redis在Web專案中的應用與實踐
2019-02-17
RedisWeb
Redis 在 Web 專案中的應用與實踐
2019-02-21
RedisWeb
Apache Flink 在汽車之家的應用與實踐
2021-11-05
Apache
TypeScript 在開發應用中的實踐總結
2021-06-23
TypeScript
實體連結在小布助手和OGraph的實踐應用
2021-12-14
黃波：AI技術在知乎的應用實踐
2019-01-16
AI
Elasticsearch在華泰證券內部的應用實踐
2018-07-25
Elasticsearch
Apache Kafka在大型應用中的20項最佳實踐
2018-08-30
ApacheKafka
ClickHouse在自助行為分析場景的實踐應用
2023-03-07
Lua 指令碼在 Redis 事務中的應用實踐
2022-09-29
指令碼Redis
Lua指令碼在Redis事務中的應用實踐
2022-09-23
指令碼Redis
TiDB 在摩拜單車的深度實踐及應用
2021-09-09
TiDB
JuiceFS 在火山引擎邊緣計算的應用實踐
2023-02-17
UI
基於 Kafka 的實時數倉在搜尋的實踐應用
2022-02-28
Kafka
ClickHouse在大資料領域應用實踐
2022-02-25
大資料
TiDB應用實踐
2019-01-29
TiDB
GroovyShell 應用實踐
2024-11-19
Guava Cache本地快取在 Spring Boot應用中的實踐
2019-01-07
Guava快取Spring Boot
大資料在快狗叫車中的應用與實踐
2018-11-20
大資料
大資料HBase在阿里搜尋中的應用實踐
2018-12-06
大資料阿里
長文解讀：Flink在唯品會的實踐應用！
2018-08-14
H5開發在QQ錢包的應用實踐
2018-05-03
H5
TiDB 在醫療保障資訊平臺的應用實踐
2024-02-15
TiDB