Nemo:Facebook 的資料發現
Facebook 寫了關於其資料發現引擎 Nemo 的文章。Nemo 有兩個主要元件,索引和服務,前端位於服務部分的頂部。索引又分為每天發生的批次索引和立即更新索引的即時索引。對於 Serving,Nemo 對採用基於 spaCy 的 NLP 庫特別感興趣,該庫執行文字解析和 ML 方法進行後處理。
大型公司為數百萬甚至數十億人提供服務,這些人依賴這些公司提供的服務來滿足他們的日常需求。為了保持這些服務執行並提供有意義的體驗,它們背後的團隊需要快速找到最相關和最準確的資訊,以便他們能夠做出明智的決策並採取行動。出於多種原因,找到正確的資訊可能很困難。問題可能在於發現——相關表的名稱可能晦澀難懂,或者不同的團隊可能構建了重疊的資料集。或者,問題可能是信心問題——某人正在檢視的儀表板可能在六個月前被另一個來源取代。
許多公司,如Airbnb、Lyft、Netflix和Uber,已經為這一挑戰構建了自己的定製解決方案。對我們來說,讓資料發現過程簡單而快速是很重要的。每次我們需要做出決定時,透過資料專家彙集一切以定位必要的資料是不可擴充套件的。所以我們構建了 Nemo,一個內部資料發現引擎。Nemo 使工程師能夠快速發現他們需要的資訊,並對結果的準確性充滿信心。
我們有十幾種不同型別的資料工件,包括儲存原始資料的Hive 表、Scuba表、儀表板、AI 資料集和Cubrick。在 Nemo 之前,內部調查表明,找到正確的資料是資料工程師的主要痛點。Nemo 顯著改善了這一點,將資料搜尋成功率提高了 50% 以上,即使工件總數增加了兩倍多,每秒查詢次數 (QPS) 增加了一倍多。
相關文章
- 資料看Facebook的IPO
- 資料資產管理:資料發現,發現什麼,怎麼發現?
- Facebook採用加密措施防止出現資料洩漏加密
- Nanigans:Facebook電商廣告資料NaN
- 大資料模式的Facebook:不只是SNS大資料模式
- Facebook如何實現PB級別資料庫自動化備份資料庫
- Facebook和Google+的區別–資料資訊圖Go
- Spotify如何改進資料科學家的資料發現?資料科學
- 實現Facebook SDK
- 騰訊科技:Facebook釋出會的15組有趣資料
- Flowtown:Facebook上營銷的成本–資料資訊圖
- Facebook產品的開發流程
- 大資料開發-資料表監控-實現大資料
- Shopify如何解決資料發現的挑戰
- 艾漫資料:國產偶像的發展現狀
- 我發現我的資料被操縱了……
- BI:資料說Facebook歷史和未來
- Facebook:全球政府索取資料數量成長18%
- 騰訊科技:Facebook有趣數字–資料資訊圖
- 從Facebook看移動開發的發展移動開發
- Python+資料分析:資料分析:北京Python開發的現狀Python
- 解密Facebook產品的開發流程解密
- Facebook:2016上半年Facebook收到政府資料請求5.9萬次
- NVIDIA NeMo 如何支援對話式 AI 任務的訓練與推理?AI
- Facebook資料再洩露 5.4億資料曝光於AWS伺服器伺服器
- Techpinions:10%的美國人因資料洩露事件已刪Facebook事件
- 聊一聊圖資料庫的發展現狀資料庫
- 發現生物醫學大資料缺失的環節大資料
- 下載facebook資料記錄(還未完成)
- Facebook同意在英國暫停WhatsApp資料共享APP
- Facebook收購以色列移動資料分析公司Onavo
- Facebook內容最佳釋出日–資料資訊圖
- 開源 Amundsen:資料發現和後設資料平臺
- 國產資料庫發展現狀分析資料庫
- 專注資料才能發現邏輯
- 反對立法的Facebook又出資料洩露問題,你的資料隱私保護好了嘛?
- Facebook官方資料:Facebook在13個月累計播放音樂220億次
- 大資料的開放式創新:如何才能實現大資料的深發展?大資料