hive on spark執行速度慢

Jeff_Shi發表於2019-01-22

原文網址 : https://juejin.im/post/5c4692536fb9a049fe3578d5

星環hive on spark執行速度慢

因為task的啟動數量是根據hdfs底層的block數量來定，在 block 資料量偏少的情況下，單個任務執行的時間就少，那麼任務開啟的開銷很可能佔據總開銷的大量比例。現在因為block檔案數量龐大，導致task啟動數量巨大，過多的執行緒將導致排隊延時的增加，嚴重影響sql的執行效率，所以對 block 有效的合併處理有助於促進語句執行的高效性於是開啟automerge開關: set ngmr.partition.automerge=true; 它兩種配置合併後Task任務量方法

“ngmr.partition.mergesize = n”，表示將 n 個 block 安排給單個執行緒處理。 “ngmr.partition.mergesize.mb = m”，表示一個 task 負責處理大小為 m 的資料量（單位為 MBytes）可以根據需要僅設定這兩個引數其中之一，預設使用方法 2 來控制，如果需要使用方法 1，需要將 mergesize.mb 設為-1。

如果已知資料來源中小檔案過多，最好在向新表匯入資料之前就開啟automerge 開關，使一個 Task 處理多個 block。因為同屬一個 Task 的結果將被返回在同一個檔案中，因此匯入資料時做任務的合併處理可達到小檔案合併效果。然後關閉automerge 開關，今後都不用再對該表開啟。除了檢查 block 的大小，還可以通過在 4040 埠檢視任務第一階段 Tasks 的數量和每Task 的執行時間判斷是否需要 automerge。第一階段的 Task 負責 Map 端任務，預設每個Task 對應一個 block，所以如果第一階段 Task 過多而且單個執行時間短，表示小體積 block 多，Task 執行效率低，需要啟用 automerge

spark with hive
2018-11-21
SparkHive
hive on spark配置
2018-12-01
HiveSpark
Spark整合hive
2020-11-05
SparkHive
Hive on Spark和Spark sql on Hive，你能分的清楚麼
2022-01-04
HiveSparkSQL
Hive on Spark 和 Spark sql on Hive，你能分的清楚麼
2022-09-26
HiveSparkSQL
【Spark】 Spark作業執行原理--獲取執行結果
2019-01-08
Spark
hive、spark優化
2020-12-04
HiveSpark優化
Spark的執行原理
2019-03-04
Spark
spark執行原理、模型
2018-08-03
Spark模型
spark2.2.0 配置spark sql 操作hive
2018-09-23
SparkSQLHive
Spark原理-物理執行圖
2020-12-10
Spark
spark學習筆記--叢集執行Spark
2018-07-12
Spark筆記
Spark學習（一）——執行模式與執行流程
2019-03-31
Spark模式
spark寫入hive資料
2019-04-09
SparkHive
Spark操作Hive分割槽表
2018-12-07
SparkHive
hive on spark記憶體模型
2024-04-16
HiveSpark記憶體模型
Hive和Spark分割槽策略
2021-06-27
HiveSpark
Flume+Spark+Hive+Spark SQL離線分析系統
2018-09-18
SparkHiveSQL
《深入理解Spark》之Spark的整體執行流程
2018-08-15
Spark
檢視spark程式執行狀態以及安裝spark
2018-08-01
Spark
Apache Spark和Hive有用的功能
2019-01-08
ApacheSparkHive
自適應查詢執行：在執行時提升Spark SQL執行效能
2020-12-21
SparkSQL
Spark叢集和任務執行
2020-11-06
Spark
spark streaming執行kafka資料來源
2020-11-14
SparkKafka
spark相關介紹-提取hive表（一）
2021-09-19
SparkHive
Spark入門（二）--如何用Idea執行我們的Spark專案
2019-02-26
SparkIdea
Hive底層執行引擎的深度剖析（免費）
2020-06-02
Hive
Linux下安裝hive 詳解及HiveSQL執行
2020-11-11
LinuxHiveSQL
Hive SQL語句的正確執行順序
2021-08-02
HiveSQL
Hive底層原理：explain執行計劃詳解
2021-02-20
HiveAI
Spark閉包 | driver & executor程式程式碼執行
2020-11-23
Spark
Spark Task 的執行流程② - 建立、分發 Task
2021-09-09
Spark
hive on spark：return code 30041 Failed to create Spark client for Spark session原因分析及解決方案探尋
2021-01-05
HiveSparkAIclientSession
Spark報錯（二）：關於Spark-Streaming官方示例wordcount執行異常
2018-09-13
Spark
spark-stage任務劃分、sparkclient執行模式
2020-10-22
Sparkclient模式
Hadoop 及Spark 分散式HA執行環境搭建
2023-02-27
HadoopSpark分散式
我們並沒有覺得MapReduce速度慢，直到Spark出現
2019-01-15
Spark
zookeeper：spark-project專案的hive和mysql配置
2018-09-18
SparkProjectHiveMySql

hive on spark執行速度慢

相關文章