Hive partition prune的一個Bug

weixin_33858249發表於2017-11-14

昨天跑了一個Hive查詢發現啟動的MAP數遠遠多於預期,很奇怪;查詢可以簡單抽象如下:

比如有一個表t的分割槽鍵dt string;查詢select count(*) from t where dt=20130926;

是哪裡出了問題呢?首先看一下執行計劃果然發現問題了:

首先出現了:

expr: (dt = 2.0130926E7)

type: boolean

其次partition valuesdt __HIVE_DEFAULT_PARTITION__

應該發生了類似隱式轉換的事情吧?修改成dt=’20130926’再看正確了.

因為隱式轉換而無法使用索引的情況在RDBMS比較常見,但是這個如果是隱式轉換也說不通,因為只是多掃描了一個分割槽而不是全部分割槽,帶著這樣的疑問看原始碼:得到的結論就是Hive的分割槽鍵列和值都必須是String型別,如果不是就可能會Hitbug 4878(pruneBySequentialScan),不知道為什麼CDH4.2沒有merge這個patch.

Update:這個Bug已經在Hive 0.12被fixed掉了



本文轉自MIKE老畢 51CTO部落格,原文連結:http://blog.51cto.com/boylook/1302073,如需轉載請自行聯絡原作者


相關文章