hive優化-資料傾斜優化

丫丫GoUp發表於2018-08-16

原文網址 : https://flycode.co/archives/247970

資料傾斜解決方法，通常從以下幾個方面進行考量：

業務上丟棄

• 不參與關聯：在on條件上直接過濾
• 隨機數打散：比如 null、空格、0等“Other”性質的特殊值

傾斜鍵記錄單獨處理

• Join：找出傾斜key，把對應資料插入臨時表，如果該表是小表，使用map join解決；
• Group by： set hive.groupby.skewindata = true

資料重分佈

• 語法：Distribute By
• 場景：為下一個Stage的Map輸入做負載均衡
• 代價：多一個Job

舉個例子：count distinct

–count(distinct ),在資料量大的情況下，效率較低，如果是多count(distinct )效率更低，因為count(distinct)是按group by 欄位分組，按distinct欄位排序，一般這種分佈方式是很傾斜的。

*淘寶一天30億的pv，按性別分組，分配2個reduce,每個reduce處理15億資料。

*58房產一天1.5億的pv，統計全國分二手房、租房等業務線的詳情頁pv、uv等指標，採用多case when的方式，僅分配一個reduce。

消除count disitnct，可以嘗試“使用者標籤”法。

【Hive】資料傾斜優化 shuffle, join, group by
2020-09-24
Hive優化
Spark效能最佳化篇三：資料傾斜調優
2021-09-09
Spark
大資料SQL優化之資料傾斜解決案例全集
2022-01-06
大資料SQL優化
Hive千億級資料傾斜解決方案
2021-04-29
Hive
編號函式自定義函式集合型別表的優化資料傾斜
2020-12-04
函式型別優化
Hive --------- hive 的優化
2018-11-12
Hive優化
[Hive]Hive排序優化
2018-08-15
Hive排序優化
hive、spark優化
2020-12-04
HiveSpark優化
hive的優化
2020-12-27
Hive優化
Hive高階優化
2018-03-13
Hive優化
Cesium傾斜模型單體化
2020-10-31
模型
資料庫優化 - SQL優化
2020-01-11
資料庫優化SQL
數倉效能最佳化：傾斜最佳化-表示式計算傾斜的hint最佳化
2024-11-30
實戰 | Hive 資料傾斜問題定位排查及解決
2021-08-05
Hive
Hive使用Calcite CBO優化流程及SQL優化實戰
2020-09-22
Hive優化SQL
Spark效能優化：優化資料結構
2018-09-13
Spark優化資料結構
Spark學習——資料傾斜
2019-05-04
Spark
Hive優化相關設定
2018-11-29
Hive優化
Hive企業級效能優化
2021-05-14
Hive優化
如何解決Hive中經常出現的資料傾斜問題
2021-02-17
Hive
資料庫優化之臨時表優化
2022-04-15
資料庫優化
資料庫優化
2018-05-27
資料庫優化
資料傾斜解決辦法
2018-09-06
IoT資料傾斜如何解決
2022-09-30
【資料庫】查詢優化之子連線優化
2022-01-12
資料庫優化
傾斜單體化模型技術實現
2024-01-28
模型
資料庫效能優化-索引與sql相關優化
2018-08-01
資料庫優化索引SQL
資料庫優化SQL
2018-11-03
資料庫優化SQL
MySQL資料庫優化
2019-01-24
MySql資料庫優化
Spark 資料傾斜及其解決方案
2019-12-30
Spark
[Hive]Hive中表連線的優化，加快查詢速度
2018-08-15
Hive優化
MySql的資料庫優化到底優化啥了都（3）
2019-07-24
MySql資料庫優化
hadoop 透過cachefile來避免資料傾斜
2018-09-03
Hadoop
PostgreSQL DBA(193) - 資料傾斜下的HashJoin
2022-11-04
SQL
Redis 切片叢集的資料傾斜分析
2022-06-22
Redis
vueTable大資料展示優化
2018-10-09
Vue大資料優化
資料庫優化建議
2018-05-15
資料庫優化
百萬級資料庫優化
2020-09-27
資料庫優化

hive優化-資料傾斜優化

相關文章