Nemo:Facebook 的資料發現

banq發表於2022-10-24

Facebook 寫了關於其資料發現引擎 Nemo 的文章。Nemo 有兩個主要元件,索引和服務,前端位於服務部分的頂部。索引又分為每天發生的批次索引和立即更新索引的即時索引。對於 Serving,Nemo 對採用基於 spaCy 的 NLP 庫特別感興趣,該庫執行文字解析和 ML 方法進行後處理。

大型公司為數百萬甚至數十億人提供服務,這些人依賴這些公司提供的服務來滿足他們的日常需求。為了保持這些服務執行並提供有意義的體驗,它們背後的團隊需要快速找到最相關和最準確的資訊,以便他們能夠做出明智的決策並採取行動。出於多種原因,找到正確的資訊可能很困難。問題可能在於發現——相關表的名稱可能晦澀難懂,或者不同的團隊可能構建了重疊的資料集。或者,問題可能是信心問題——某人正在檢視的儀表板可能在六個月前被另一個來源取代。 

許多公司,如AirbnbLyftNetflixUber,已經為這一挑戰構建了自己的定製解決方案。對我們來說,讓資料發現過程簡單而快速是很重要的。每次我們需要做出決定時,透過資料專家彙集一切以定位必要的資料是不可擴充套件的。所以我們構建了 Nemo,一個內部資料發現引擎。Nemo 使工程師能夠快速發現他們需要的資訊,並對結果的準確性充滿信心。 
我們有十幾種不同型別的資料工件,包括儲存原始資料的Hive 表Scuba表、儀表板、AI 資料集和Cubrick。在 Nemo 之前,內部調查表明,找到正確的資料是資料工程師的主要痛點。Nemo 顯著改善了這一點,將資料搜尋成功率提高了 50% 以上,即使工件總數增加了兩倍多,每秒查詢次數 (QPS) 增加了一倍多。

 

相關文章