[Hive]Hive排序優化
1、從order by 到 sort by
order by:全域性排序,大資料集會消耗太過漫長的時間
sort by:只會在每個reducer 中對資料進行排序,也就是執行區域性排序過程,只能保證每個reducer的輸出資料都是有序的(但並非全域性有序)
2、sort by+distribute by
distribute by控制map的輸出在reducer中是如何劃分的。假設我們希望具有相同股票交易碼的資料在一起處理。那麼我們可以使用distribute by來保證具有相同股票交易碼的記錄會分發到同一個reducer中進行處理,然後使用sort by來按照我們的期望對資料進行排序。
3、cluster by
如果distribute by和sort by涉及到的列完全相同,且採用的是升序排序方式,則相當於cluster by。
注意:使用distribute by 與sort by語句或簡化版的cluster by語句會剝奪sort by的並行性,然而可以實現輸出檔案是全域性排序的。
相關文章
- Hive --------- hive 的優化Hive優化
- Hive篇---Hive使用優化Hive優化
- Hive優化Hive優化
- hive的優化Hive優化
- hive、spark優化HiveSpark優化
- Hive效能優化Hive優化
- Hive高階優化Hive優化
- [Hive]Hive中表連線的優化,加快查詢速度Hive優化
- hive優化-資料傾斜優化Hive優化
- Hive企業級效能優化Hive優化
- Hive優化相關設定Hive優化
- hive學習之三:專案中的hive優化實踐Hive優化
- hive分桶表排序Hive排序
- HIVE隨手記——Hive命令(?$HIVE_HOME/bin/hive)Hive
- Hive使用Calcite CBO優化流程及SQL優化實戰Hive優化SQL
- Hive調優實用Hive
- Hive調優實戰Hive
- 【Hive】資料傾斜優化 shuffle, join, group byHive優化
- Hive之 hive架構Hive架構
- [hive] hive cli 命令列Hive命令列
- Hive的壓縮儲存和簡單優化Hive優化
- Hive常用效能優化方法實踐全面總結Hive優化
- 【Hive】hive資料遷移Hive
- Hive篇--搭建Hive叢集Hive
- Hive學習之六 《Hive進階— —hive jdbc》 詳解HiveJDBC
- hive 初始化變數Hive變數
- hive:初始化報錯Hive
- 【Hive一】Hive安裝及配置Hive
- [Hive]Hive實現抽樣查詢Hive
- Hive -------- hive常見查詢練習Hive
- HIVE基本語法以及HIVE分割槽Hive
- Hive學習之Hive的安裝Hive
- hive匯出到csv hive匯出到excelHiveExcel
- Hive的原理—— 深入淺出學HiveHive
- hive學習之一:認識hiveHive
- Hive效能調優實踐 - VidhyaHive
- spark with hiveSparkHive
- hive partitionHive