[Hive]Hive排序優化
1、從order by 到 sort by
order by:全域性排序,大資料集會消耗太過漫長的時間
sort by:只會在每個reducer 中對資料進行排序,也就是執行區域性排序過程,只能保證每個reducer的輸出資料都是有序的(但並非全域性有序)
2、sort by+distribute by
distribute by控制map的輸出在reducer中是如何劃分的。假設我們希望具有相同股票交易碼的資料在一起處理。那麼我們可以使用distribute by來保證具有相同股票交易碼的記錄會分發到同一個reducer中進行處理,然後使用sort by來按照我們的期望對資料進行排序。
3、cluster by
如果distribute by和sort by涉及到的列完全相同,且採用的是升序排序方式,則相當於cluster by。
注意:使用distribute by 與sort by語句或簡化版的cluster by語句會剝奪sort by的並行性,然而可以實現輸出檔案是全域性排序的。
相關文章
- Hive --------- hive 的優化Hive優化
- hive的優化Hive優化
- hive、spark優化HiveSpark優化
- Hive高階優化Hive優化
- [Hive]Hive中表連線的優化,加快查詢速度Hive優化
- hive優化-資料傾斜優化Hive優化
- Hive企業級效能優化Hive優化
- Hive優化相關設定Hive優化
- hive分桶表排序Hive排序
- Hive 優缺點Hive
- Hive的分割槽和排序Hive排序
- Hive調優實用Hive
- Hive使用Calcite CBO優化流程及SQL優化實戰Hive優化SQL
- 【Hive】資料傾斜優化 shuffle, join, group byHive優化
- hive企業級調優Hive
- Hive的壓縮儲存和簡單優化Hive優化
- Hive常用效能優化方法實踐全面總結Hive優化
- 【Hive】hive資料遷移Hive
- Hive效能調優實踐 - VidhyaHive
- HIVEHive
- Flume和Hive整合之hive sinkHive
- 【Hive一】Hive安裝及配置Hive
- hive:初始化報錯Hive
- flink實戰--讀寫Hive(Flink on Hive)Hive
- hive匯出到csv hive匯出到excelHiveExcel
- Hive學習之Hive的安裝Hive
- Hive -------- hive常見查詢練習Hive
- HIVE基本語法以及HIVE分割槽Hive
- [Hive]Hive實現抽樣查詢Hive
- spark with hiveSparkHive
- hive06_SQL最佳化HiveSQL
- [hive]hive資料模型中四種表Hive模型
- [Hive]hive分割槽設定注意事項Hive
- hive查詢注意事項和調優Hive
- 【大資料開發】Hive——Hive函式大全大資料Hive函式
- Hive學習之型別轉化Hive型別
- hive建表Hive
- hive 的使用Hive