調優 | Apache Hudi應用調優指南

leesf發表於2020-06-06

原文網址 : https://www.cnblogs.com/leesf456/p/13055010.html

通過Spark作業將資料寫入Hudi時，Spark應用的調優技巧也適用於此。如果要提高效能或可靠性，請牢記以下幾點。

輸入並行性：Hudi對輸入進行分割槽預設併發度為1500，以確保每個Spark分割槽都在2GB的限制內（在Spark2.4.0版本之後去除了該限制），如果有更大的輸入，則相應地進行調整。我們建議設定shuffle的併發度，配置項為hoodie.[insert|upsert|bulkinsert].shuffle.parallelism，以使其至少達到input_data_size/500MB。

Off-heap（堆外）記憶體：Hudi寫入parquet檔案，需要使用一定的堆外記憶體，如果遇到此類故障，請考慮設定類似spark.yarn.executor.memoryOverhead或spark.yarn.driver.memoryOverhead的值。

Spark 記憶體：通常Hudi需要能夠將單個檔案讀入記憶體以執行合併或壓縮操作，因此執行程式的記憶體應足以容納此檔案。另外，Hudi會快取輸入資料以便能夠智慧地放置資料，因此預留一些spark.memory.storageFraction通常有助於提高效能。

調整檔案大小：設定limitFileSize以平衡接收/寫入延遲與檔案數量，並平衡與檔案資料相關的後設資料開銷。

時間序列/日誌資料：對於單條記錄較大的資料庫/ nosql變更日誌，可調整預設配置。另一類非常流行的資料是時間序列/事件/日誌資料，它往往更加龐大，每個分割槽的記錄更多。在這種情況下，請考慮通過.bloomFilterFPP()/bloomFilterNumEntries()來調整Bloom過濾器的精度，以加速目標索引查詢時間，另外可考慮一個以事件時間為字首的鍵，這將使用範圍修剪並顯著加快索引查詢的速度。

GC調優：請確保遵循Spark調優指南中的垃圾收集調優技巧，以避免OutOfMemory錯誤。[必須]使用G1 / CMS收集器，其中新增到spark.executor.extraJavaOptions的示例如下：

-XX:NewSize=1g -XX:SurvivorRatio=2 -XX:+UseCompressedOops -XX:+UseConcMarkSweepGC -XX:+UseParNewGC -XX:CMSInitiatingOccupancyFraction=70 -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -XX:+PrintGCApplicationStoppedTime -XX:+PrintGCApplicationConcurrentTime -XX:+PrintTenuringDistribution -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp/hoodie-heapdump.hprof

OutOfMemory錯誤：如果出現OOM錯誤，則可嘗試通過如下配置處理：spark.memory.fraction = 0.2，spark.memory.storageFraction = 0.2允許其溢位而不是OOM（速度變慢與間歇性崩潰相比）。

以下是完整的生產配置

spark.driver.extraClassPath /etc/hive/conf
spark.driver.extraJavaOptions -XX:+PrintTenuringDistribution -XX:+PrintGCDetails -XX:+PrintGCDateStamps -XX:+PrintGCApplicationStoppedTime -XX:+PrintGCApplicationConcurrentTime -XX:+PrintGCTimeStamps -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp/hoodie-heapdump.hprof
spark.driver.maxResultSize 2g
spark.driver.memory 4g
spark.executor.cores 1
spark.executor.extraJavaOptions -XX:+PrintFlagsFinal -XX:+PrintReferenceGC -verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintAdaptiveSizePolicy -XX:+UnlockDiagnosticVMOptions -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp/hoodie-heapdump.hprof
spark.executor.id driver
spark.executor.instances 300
spark.executor.memory 6g
spark.rdd.compress true
 
spark.kryoserializer.buffer.max 512m
spark.serializer org.apache.spark.serializer.KryoSerializer
spark.shuffle.service.enabled true
spark.sql.hive.convertMetastoreParquet false
spark.submit.deployMode cluster
spark.task.cpus 1
spark.task.maxFailures 4
 
spark.yarn.driver.memoryOverhead 1024
spark.yarn.executor.memoryOverhead 3072
spark.yarn.max.executor.failures 100

Apache 調優進階
2020-11-14
Apache
Java 應用效能調優最強實踐指南！
2019-07-05
Java
【譯】React 應用效能調優
2019-03-03
React
單機百萬連線調優和Netty應用級別調優
2021-10-29
Netty
快取Apache Spark RDD - 效能調優
2019-01-08
快取ApacheSpark
Hive調優實用
2020-11-29
Hive
Spark 效能調優--資源調優
2021-09-09
Spark
Spark應用程式開發引數調優深入剖析-Spark商業調優實戰
2019-03-04
Spark
spark效能調優指南高階篇
2021-09-09
Spark
大規模圖訓練調優指南
2020-10-28
效能調優學習之硬體調優
2024-05-19
MySQL調優篇 | SQL調優實戰（5）
2024-02-05
MySql
JVM調優
2023-12-12
JVM
模型調優
2018-12-24
模型
flink調優
2024-06-04
php調優
2021-09-09
PHP
SparkSQL 調優
2021-09-09
SparkSQL
MySQL調優
2022-05-21
MySql
數倉調優實戰：GUC引數調優
2024-04-07
Elasticsearch搜尋調優權威指南（1/3）
2019-06-20
Elasticsearch
Elasticsearch搜尋調優權威指南（2/3）
2019-07-04
Elasticsearch
重磅！Vertica整合Apache Hudi指南
2022-03-29
Apache
Apache Hudi初學者指南
2020-11-27
Apache
格物致知—機器學習應用效能調優
2019-04-05
機器學習
【效能調優】效能測試、分析與調優基礎
2020-12-24
MySQL調優之索引優化
2021-11-09
MySql索引優化
ElasticSearch效能調優
2019-01-15
Elasticsearch
Spark shuffle調優
2018-12-17
Spark
Roberta: Bert調優
2020-09-30
調優引數
2024-08-31
Linux核心調優
2024-11-23
Linux
JVM調優策略
2018-04-18
JVM
adnroid效能調優
2021-09-09
Vue 應用效能優化指南
2019-03-03
Vue優化
軟體效能測試分析與調優實踐之路-Java應用程式的效能分析與調優-手稿節選
2022-03-01
Java
Apache Hudi典型應用場景知多少？
2020-05-19
Apache
Nginx安全優化與效能調優
2020-07-25
Nginx優化
MySQL調優之查詢優化
2021-11-09
MySql優化

調優 | Apache Hudi應用調優指南

相關文章