LinkedIn開源Cubert，著眼於大資料分析

edithfang發表於2014-12-24

Cubert是為分析師和資料科學家編寫的一個框架，提供“手動編寫 Java 程式的所有效率優勢，並提供了一個簡單的、類似指令碼的使用者介面，用於解決各種統計、分析和圖論問題”。其目標是，做上述所有工作而又不暴露底層細節。

Cubert 圍繞著實現更好的資料處理演算法需求而設計。當效能是一個辨別因素時，Cubert 可以提供幫助，正如 LinkedIn 工程師所聲稱的那樣，即使從磁碟置換出數十 TB 大小的資料，其效能也可以超出其它引擎 5 到 60 倍。

Cubert 完全用 Java 開發，並提供一種指令碼語言。它是針對報表領域裡經常出現的複雜連線和聚合而設計的。Cubert 使用 MeshJoin 演算法處理大時間視窗下的大資料集，CPU 和記憶體利用率顯著提升。CUBE 是 Cubert 定義的一個新操作符，可以計算累加和非累加分析維度。非累加維度是計算密集型的，如計算一個時間視窗內不同的使用者數，但 CUBE 能加快這些運算，而且還可以計算準確的百分等級，如中位數統計，動態上卷內部維度以及在單個任務中計算多個度量值。

Cubert 最適合於重複的報表工作流程，它利用部分結果快取和增量處理技術來提高速度。最後，一種新的稀疏矩陣乘法演算法可以用於大型圖的分析計算。

Pig UDF 支援已經實現，團隊計劃支援 UDF 以及來自 Pig 和 Hive 的儲存層。Cubert 目前執行在 MR 引擎上，不過，對 Tez 和 Spark 的支援正在進行中。Cubert 的文件和程式碼在 GitHub 上提供。

英文原文： LinkedIn Open Sources Cubert With an Eye To Big Data Analytics

來自：http://www.infoq.com/cn/news/2014/12/LinkedIn-Cubert-Big-Data-Analyti?utm_campaign=infoq_content&utm_source=infoq&utm_medium=feed&utm_term=global&utm_reader=feedly

LINKEDIN CUBERT 大資料分析

相關閱讀

評論(1)

相關文章

ChatGPT “眼”中的開源資料庫
2023-03-02
ChatGPT資料庫
TOP 3大開源Python資料分析工具！
2018-08-07
Python
LinkedIn大資料工程的升級
2022-06-11
大資料
Linkedin資深工程師董飛：典型矽谷公司大資料實戰分析
2017-05-02
工程師大資料
甲骨文收購趨勢談著眼於資料和雲端計算【爆料】
2014-12-29
值得關注的12大開源大資料分析應用軟體
2016-12-11
大資料
蛙眼全網資訊大資料、文旅大資料、教育大資料、
2022-01-31
大資料
大資料分析系統Hadoop的13個開源工具！
2018-06-08
大資料Hadoop開源工具
大資料分析系統Hadoop的13個開源工具
2018-06-04
大資料Hadoop開源工具
開源大資料解決方案
2013-05-15
大資料
開源真正分散式實時大資料分析倉庫Druid
2012-10-25
分散式大資料UI
NSA將開源資料分析工具nifi
2014-11-27
Nifi
【雲棲大會】再談開源大資料
2016-10-17
大資料
大資料開源框架特點大總結
2016-12-06
大資料框架
開源大資料技術線上Meetup
2021-08-17
大資料
開源大資料檔案系統
2013-04-14
大資料
開源如何有助於資料庫安全
2021-11-24
資料庫
H2O是開源基於大資料的機器學習庫包
2014-11-23
大資料機器學習
基於Hive的大資料分析系統
2024-07-28
Hive大資料
大資料意味著向黑客暴露更多資料？
2017-09-04
大資料黑客
論資訊系統研發指導思想-大處著眼小處著手
2007-12-22
開源資料庫大會技術分享
2021-09-09
資料庫
開源大資料週刊-第99期
2018-09-12
大資料
開源大資料週刊-第88期
2018-06-01
大資料
開源大資料週刊-第91期
2018-06-29
大資料
開源大資料週刊-第86期
2018-05-11
大資料
開源大資料週刊-第73期
2017-11-23
大資料
開源大資料週刊-第7期
2016-05-30
大資料
盤點九大熱門開源大資料技術
2012-06-28
大資料
Swift For TensorFlow終於開源，但先別急著用
2018-04-27
Swift
閉著眼都能做財務分析的BI軟體有哪些？
2022-12-16
西雅圖AirBnB資料分析的開源案例
2022-02-23
AI
大資料開發好還是大資料分析好？哪個薪資高？
2019-06-01
大資料
【工業大資料】工廠大資料之資料來源分析；如何挖掘並駕馭大資料的價值，成為“大資料企業”？
2018-03-20
大資料
彙總 | AR眼鏡開發資源合集（建議收藏）
2020-11-15
HootSuite：LinkedIn廣告統計資料
2022-04-09
UI
LinkedIn:員工資料說蘋果
2012-03-27
蘋果
學習大資料要從哪些知識點開始著手？
2018-10-13
大資料