hive中order by、distribute by、sort by和cluster by的區別和聯絡
order by
order by 會對資料進行全域性排序,和oracle和mysql等資料庫中的order by 效果一樣,它只在一個reduce中進行所以資料量特別大的時候效率非常低。
而且當設定 :set hive.mapred.mode=strict的時候不指定limit,執行select會報錯,如下:
LIMIT must also be specified。
sort by
sort by 是單獨在各自的reduce中進行排序,所以並不能保證全域性有序,一般和distribute by 一起執行,而且distribute by 要寫在sort by前面。
如果mapred.reduce.tasks=1和order by效果一樣,如果大於1會分成幾個檔案輸出每個檔案會按照指定的欄位排序,而不保證全域性有序。
sort by 不受 hive.mapred.mode 是否為strict ,nostrict 的影響。
distribute by
DISTRIBUTE BY 控制map 中的輸出在 reducer 中是如何進行劃分的。使用DISTRIBUTE BY 可以保證相同KEY的記錄被劃分到一個Reduce 中。
cluster by
distribute by 和 sort by 合用就相當於cluster by,但是cluster by 不能指定排序為asc或 desc 的規則,只能是升序排列。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31543790/viewspace-2657588/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 說明Hive中order by,sort by,distribute by,cluster by的作用Hive
- Instruction和Question的區別和聯絡Struct
- javaSE中的==和equals的聯絡與區別Java
- SCADA和PLC的區別聯絡
- tcp/ip和http的區別和聯絡TCPHTTP
- Rxjs map, mergeMap 和 switchMap 的區別和聯絡JS
- http、socket、tcp的區別和聯絡?HTTPTCP
- Vue中watch、computed與methods的聯絡和區別Vue
- java-介面和抽象類的聯絡和區別。Java抽象
- Python中__new__和__init__的區別與聯絡Python
- C/C++引用和指標的聯絡和區別C++指標
- 【知識點】 gcc和g++的聯絡和區別GC
- 關於stable_sort()和sort()的區別:
- HDFS 塊和 Input Splits 的區別與聯絡
- 程式和執行緒的區別與聯絡執行緒
- Hive和Hbase的區別Hive
- 程序、執行緒和協程之間的區別和聯絡執行緒
- 模電和數電在應用上的區別和聯絡
- 程式、執行緒和協程之間的區別和聯絡執行緒
- SAP UI5 和 OpenUI5 的區別和聯絡UI
- 【Python入門必看】Python中Cookie和Session的區別與聯絡!PythonCookieSession
- spring、springmvc、springboot、springcloud 之間的聯絡和區別SpringMVCSpring BootGCCloud
- cgi和fast-cgi以及php-fpm的聯絡和區別ASTPHP
- OData API 和 Restful API 這兩個概念的區別和聯絡APIREST
- gcc 和 g++ 的聯絡和區別,使用 gcc 編譯 c++GC編譯C++
- Linux 上的 AppImage、Snap、Flatpak 之間的區別和聯絡LinuxAPP
- 最簡單的例子瞭解js中call()、apply()、bind()的區別和聯絡JSAPP
- SAP R/3,SAP ECC 和 SAP S/4HANA 的聯絡和區別
- HTTPS、SSL、TLS三者之間的聯絡和區別HTTPTLS
- Unicode,UTF-8和UTF-16的區別與聯絡Unicode
- Linux中軟連結和硬連結之間有什麼區別和聯絡?Linux
- IPLC專線、CN2、BGP、CIA和普通線路的區別和聯絡
- 跟你深入剖析可迭代物件和迭代器的區別與聯絡物件
- `std::packaged_task`、`std::thread` 和 `std::async` 的區別與聯絡Packagethread
- 可觀測性與傳統監控的區別和聯絡
- Centos和Redhat有什麼關係?Centos和Redhat的區別與聯絡介紹CentOSRedhat
- 產品經理和專案經理區別與聯絡
- Linux中程式和執行緒的區別與聯絡,建議收藏!Linux執行緒