order by

order by 會對資料進行全域性排序,和oracle和mysql等資料庫中的order by 效果一樣，它只在一個reduce中進行所以資料量特別大的時候效率非常低。

而且當設定：set hive.mapred.mode=strict的時候不指定limit，執行select會報錯，如下：

LIMIT must also be specified。

sort by

sort by 是單獨在各自的reduce中進行排序，所以並不能保證全域性有序，一般和distribute by 一起執行，而且distribute by 要寫在sort by前面。

如果mapred.reduce.tasks=1和order by效果一樣，如果大於1會分成幾個檔案輸出每個檔案會按照指定的欄位排序，而不保證全域性有序。

sort by 不受 hive.mapred.mode 是否為strict ,nostrict 的影響。

DISTRIBUTE BY 控制map 中的輸出在 reducer 中是如何進行劃分的。使用DISTRIBUTE BY 可以保證相同KEY的記錄被劃分到一個Reduce 中。

distribute by 和 sort by 合用就相當於cluster by，但是cluster by 不能指定排序為asc或 desc 的規則，只能是升序排列。