Nemo:Facebook 的資料發現
Facebook 寫了關於其資料發現引擎 Nemo 的文章。Nemo 有兩個主要元件,索引和服務,前端位於服務部分的頂部。索引又分為每天發生的批次索引和立即更新索引的即時索引。對於 Serving,Nemo 對採用基於 spaCy 的 NLP 庫特別感興趣,該庫執行文字解析和 ML 方法進行後處理。
大型公司為數百萬甚至數十億人提供服務,這些人依賴這些公司提供的服務來滿足他們的日常需求。為了保持這些服務執行並提供有意義的體驗,它們背後的團隊需要快速找到最相關和最準確的資訊,以便他們能夠做出明智的決策並採取行動。出於多種原因,找到正確的資訊可能很困難。問題可能在於發現——相關表的名稱可能晦澀難懂,或者不同的團隊可能構建了重疊的資料集。或者,問題可能是信心問題——某人正在檢視的儀表板可能在六個月前被另一個來源取代。
許多公司,如Airbnb、Lyft、Netflix和Uber,已經為這一挑戰構建了自己的定製解決方案。對我們來說,讓資料發現過程簡單而快速是很重要的。每次我們需要做出決定時,透過資料專家彙集一切以定位必要的資料是不可擴充套件的。所以我們構建了 Nemo,一個內部資料發現引擎。Nemo 使工程師能夠快速發現他們需要的資訊,並對結果的準確性充滿信心。
我們有十幾種不同型別的資料工件,包括儲存原始資料的Hive 表、Scuba表、儀表板、AI 資料集和Cubrick。在 Nemo 之前,內部調查表明,找到正確的資料是資料工程師的主要痛點。Nemo 顯著改善了這一點,將資料搜尋成功率提高了 50% 以上,即使工件總數增加了兩倍多,每秒查詢次數 (QPS) 增加了一倍多。
相關文章
- Facebook採用加密措施防止出現資料洩漏加密
- 資料資產管理:資料發現,發現什麼,怎麼發現?
- Pew:研究發現低收入家庭的青少年更易沉迷Facebook
- 實現Facebook SDK
- Spotify如何改進資料科學家的資料發現?資料科學
- HootSuite:2022年Facebook廣告統計資料UI
- Python+資料分析:資料分析:北京Python開發的現狀Python
- 大資料開發-資料表監控-實現大資料
- Facebook資料再洩露 5.4億資料曝光於AWS伺服器伺服器
- 下載facebook資料記錄(還未完成)
- Shopify如何解決資料發現的挑戰
- NVIDIA NeMo 如何支援對話式 AI 任務的訓練與推理?AI
- 反對立法的Facebook又出資料洩露問題,你的資料隱私保護好了嘛?
- Techpinions:10%的美國人因資料洩露事件已刪Facebook事件
- Facebook:2019年第一季度Facebook發現並刪除了400萬條仇恨言論
- Facebook:2020超休閒手遊全球資料包告
- 聊一聊圖資料庫的發展現狀資料庫
- 艾漫資料:國產偶像的發展現狀
- 開源 Amundsen:資料發現和後設資料平臺
- Facebook:利⽤資料和技術創新推動數字廣告發展(附下載)
- 資料洩露事件表明,Facebook 有一個“App 問題”事件APP
- 蘋果VS Facebook:誰將贏得資料隱私戰?蘋果
- 併發場景下資料寫入功能的實現
- 悄悄告訴Facebook產品的開發流程
- 【中國資料庫前世今生】資料儲存管理的起源與現代資料庫發展啟蒙資料庫
- 用VRAR發現資料的價值!Virtualitics完成440萬美元融資VR
- 新資料顯示WhatsApp的隱私問題對Facebook影響有多大APP
- 國產資料庫發展現狀分析資料庫
- 2018Q1-2020年Q2 Facebook研發支出及佔比(附原資料表)
- 資料發現和零信任如何幫助防禦資料洩露
- FacebooK被正式起訴,涉與150多家科技公司“資料共享”
- YouGov:Facebook使用者更擔心其資料被銷售Go
- 生死時刻:一文讀懂Facebook資料洩密始末
- DataHub:LinkedIn的後設資料搜尋和發現平臺
- [譯] 用 Flutter 實現 Facebook 的響應式按鈕Flutter
- Facebook 開發的 HHVM 引擎宣佈停止支援 PHPPHP
- Facebook當機背後,我們該如何及時發現DNS問題DNS
- 如何透過資料開發治理實現資料流程的自動化和規範化?