DataHub:LinkedIn的後設資料搜尋和發現平臺

banq發表於2022-10-24

LinkedIn 開源了其後設資料搜尋和發現平臺 DataHub,並撰寫了關於從 WhereHow 到 DataHub 的旅程。該博文講述了開發開源第一個通用框架的困難,以及 DataHub 如何開發工具和支援開源貢獻

快速找到正確的資料對於任何依賴大資料洞察力做出資料驅動決策的公司來說都是至關重要的。這不僅會影響資料使用者(包括分析師、機器學習開發人員、資料科學家和資料工程師)的生產力,還會對依賴高質量機器學習 (ML) 管道的最終產品產生直接影響。此外,採用或構建 ML 平臺的趨勢自然會引出一個問題:您在內部發現 ML 特徵、模型、指標、資料集等的方法是什麼?

在這篇博文中,我們將分享我們的後設資料搜尋和發現平臺DataHub的開源歷程,從專案早期的WhereHows 開始。LinkedIn 維護了一個獨立於開源版本的內部版本的 DataHub。我們將首先解釋為什麼我們需要兩個獨立的開發環境,然後討論開源 WhereHows 的早期方法,並將我們的內部(生產)版本的 DataHub 與GitHub 上的版本進行比較。我們還將分享有關用於推送和拉取開源更新以保持兩個儲存庫同步的新自動化解決方案的詳細資訊。最後,我們將提供有關如何開始使用開源 DataHub 的說明,並簡要討論其架構

相關文章