Tungsten大幅度提升Spark效能
Tungsten專案能夠大幅度提高Spark的記憶體和CPU使用效率,使其效能接近於硬體的極限,主要體現以下幾點:
1.記憶體管理和二進位制處理,充分利用應用程式語義明確管理記憶體,消除JVM物件模型和垃圾收集機制的開銷。
2.快取敏感型計算,演算法和資料結構都是利用記憶體層次結構。
3.程式碼生成,使用程式碼生成器充分利用現代編譯器和CPU。
注重CPU的效率是來自於Spark的工作瓶頸主要是在CPU和記憶體,而不是IO和網路通訊,有關研究報告見:Spark只比Hadoop快19% ?
為什麼CPU是新的瓶頸?有許多原因,一個原因是硬體配置提供了大量的聚合性的IO貸款,比如10Gbps網路連線,而記憶體透過SSD或HDD陣列實現,序列化和hashing(都是CPU敏感的)已經成為Spark關鍵瓶頸,而不是底層硬體的原生網路吞吐量。
詳細最佳化細節見:
1.記憶體管理和二進位制處理,充分利用應用程式語義明確管理記憶體,消除JVM物件模型和垃圾收集機制的開銷。
2.快取敏感型計算,演算法和資料結構都是利用記憶體層次結構。
3.程式碼生成,使用程式碼生成器充分利用現代編譯器和CPU。
注重CPU的效率是來自於Spark的工作瓶頸主要是在CPU和記憶體,而不是IO和網路通訊,有關研究報告見:Spark只比Hadoop快19% ?
為什麼CPU是新的瓶頸?有許多原因,一個原因是硬體配置提供了大量的聚合性的IO貸款,比如10Gbps網路連線,而記憶體透過SSD或HDD陣列實現,序列化和hashing(都是CPU敏感的)已經成為Spark關鍵瓶頸,而不是底層硬體的原生網路吞吐量。
詳細最佳化細節見:
相關文章
- 利用DDP技術提升Tungsten Fabric vRouter效能VR
- Metal新特性:大幅度提升iOS端效能iOS
- 怎樣提升 Spark 中排序的效能?Spark排序
- 7個小技巧大幅度提升UI動效品質UI
- 個推技術實踐 | Spark效能調優看這篇,效能提升60%↑ 成本降低50%↓Spark
- Spark效能優化Spark優化
- Spark效能調優Spark
- 個推技術分享:效能提升60%↑ 成本降低50%↓ Spark效能調優看這篇就夠了!Spark
- 自適應查詢執行:在執行時提升Spark SQL執行效能SparkSQL
- 亞馬遜的Alexa的語義分析效能得到大幅度提高亞馬遜
- 優化資料庫大幅度提高Oracle的效能(轉)優化資料庫Oracle
- spark效能優化(一)Spark優化
- Spark的效能調優Spark
- Spark(十三) Spark效能調優之RDD持久化Spark持久化
- javascript效能提升之路JavaScript
- .NET MAUI 效能提升UI
- 存算分離下寫效能提升10倍以上,EMR Spark引擎是如何做到的?Spark
- Spark 3.x Spark Core詳解 & 效能優化Spark優化
- Spark Streaming 效能優化Spark優化
- 訓練效能提升2-4倍!京東攜SparkGBM成果亮相Spark Summit 2018SparkMIT
- 如何提升Web前端效能?Web前端
- Oracle效能提升策略 (轉)Oracle
- Spark學習——效能調優(一)Spark
- Spark學習——效能調優(二)Spark
- Spark學習——效能調優(三)Spark
- spark效能優化幾點注意Spark優化
- 提升50%!Presto如何提升Hudi表查詢效能?REST
- 一週雲事|政府和企業上雲比例和應用深度大幅度提升
- 再次使用快取技術大幅度提升J道整個網站訪問量快取網站
- 如何提升網站的效能?網站
- Nginx效能優化功能- Gzip壓縮(大幅度提高頁面載入速度)Nginx優化
- Spark 效能調優--資源調優Spark
- spark效能調優指南高階篇Spark
- Spark 效能調優--開發階段Spark
- 快取Apache Spark RDD - 效能調優快取ApacheSpark
- Spark效能優化指南:高階篇Spark優化
- Spark效能優化指南:基礎篇Spark優化
- Spark 效能調優--Shuffle調優 SortShuffleManagerSpark