DataHub:LinkedIn的後設資料搜尋和發現平臺
LinkedIn 開源了其後設資料搜尋和發現平臺 DataHub,並撰寫了關於從 WhereHow 到 DataHub 的旅程。該博文講述了開發開源第一個通用框架的困難,以及 DataHub 如何開發工具和支援開源貢獻
快速找到正確的資料對於任何依賴大資料洞察力做出資料驅動決策的公司來說都是至關重要的。這不僅會影響資料使用者(包括分析師、機器學習開發人員、資料科學家和資料工程師)的生產力,還會對依賴高質量機器學習 (ML) 管道的最終產品產生直接影響。此外,採用或構建 ML 平臺的趨勢自然會引出一個問題:您在內部發現 ML 特徵、模型、指標、資料集等的方法是什麼?
在這篇博文中,我們將分享我們的後設資料搜尋和發現平臺DataHub的開源歷程,從專案早期的WhereHows 開始。LinkedIn 維護了一個獨立於開源版本的內部版本的 DataHub。我們將首先解釋為什麼我們需要兩個獨立的開發環境,然後討論開源 WhereHows 的早期方法,並將我們的內部(生產)版本的 DataHub 與GitHub 上的版本進行比較。我們還將分享有關用於推送和拉取開源更新以保持兩個儲存庫同步的新自動化解決方案的詳細資訊。最後,我們將提供有關如何開始使用開源 DataHub 的說明,並簡要討論其架構。
相關文章
- 開源 Amundsen:資料發現和後設資料平臺
- 一站式後設資料治理平臺——Datahub入門寶典
- LinkedIn 招聘之搜尋和推薦系統背後的 AIAI
- 直播平臺開發,基礎搜尋方式之拼音搜尋
- Mashable:Google搜尋背後的資料Go
- 海量資料搜尋---搜尋引擎
- 大快搜尋大資料基礎管理平臺功能深度解析大資料
- 成品直播原始碼,實現在平臺內部的搜尋原始碼
- 運維平臺的建設思考-後設資料管理運維
- 海量資料搜尋---demo展示百度、谷歌搜尋引擎的實現谷歌
- 大快搜尋企業大資料管理平臺DKM功能解析大資料
- 用Elasticsearch構建電商搜尋平臺Elasticsearch
- 搜狗搜尋推廣平臺下線
- Smartbi:資料治理系列之後設資料管理平臺的原理
- 運維平臺的建設思考-後設資料管理(五)運維
- 運維平臺的建設思考-後設資料管理(三)運維
- 運維平臺的建設思考-後設資料管理(四)運維
- 運維平臺的建設思考-後設資料管理(二)運維
- 直播電商平臺開發,uni-app 實現搜尋關鍵詞高亮效果APP
- 大快搜尋城市運河大資料政務管理平臺案例解讀大資料
- 關於後臺資料庫設計的考慮(手機平臺)資料庫
- 新版Bing 搜尋後臺的.NET 技術棧
- 測試開發【提測平臺】分享7-實現產品搜尋和優化時間顯示優化
- 在 AppImage、Flathub 和 Snapcraft 平臺上搜尋 Linux 應用APPRaftLinux
- JuiceFS 在大搜車資料平臺的實踐UI
- layui資料表格搜尋UI
- 對 JSON 資料的搜尋JSON
- 02.Django後臺和資料庫的設計Django資料庫
- 解決 PbootCMS 搜尋未搜尋到任何資料的問題boot
- TDS:標籤平臺+API平臺+資料共享平臺,助力資料運營平臺建設API
- 大資料匯流排(DataHub)大資料
- 直播平臺搭建,uni-app 實現搜尋關鍵詞高亮效果APP
- 資料結構-二叉搜尋樹的實現資料結構
- 用資料輔助設計-搜尋中的實踐
- 搜尋引擎索引的資料結構和演算法索引資料結構演算法
- 搭建直播平臺,給首頁配備搜尋框
- 圖的廣度優先搜尋和深度優先搜尋Python實現Python
- tiktok商品搜尋資料