Metacat:讓Netflix的大資料變得可發現且有意義

banq發表於2022-10-24

Netflix 撰寫了有關 Metacat 的文章,這是一個充當所有資料儲存的聯合後設資料訪問層的系統。各種計算引擎的集中式服務可以用來訪問不同的資料集。Metacat 採用了一種有趣的架構模式,其中各個後設資料儲存仍然是模式後設資料的真實來源,而 Metacat 並未在其儲存中實現它。

大多數大公司都有大量資料來源,資料格式不同,資料量大。整個企業中的許多人都可以訪問和分析這些資料儲存。在 Netflix,我們的資料倉儲由儲存在 Amazon S3(透過 Hive)、Druid、Elasticsearch、Redshift、Snowflake 和 MySql 中的大量資料集組成。我們的平臺支援 Spark、Presto、Pig 和 Hive 來消費、處理和生成資料集。鑑於資料來源的多樣性,並確保我們的資料平臺可以作為一個“單一”資料倉儲跨這些資料集進行互操作,我們構建了 Metacat。在這篇部落格中,我們將討論我們構建 Metacat 的動機,Metacat 是一種使資料易於發現、處理和管理的後設資料服務。

詳細點選標題
 

相關文章