一句話從 Hive 取每組前三名

xiaohuihui發表於2020-06-29

Hive 實現這個用到了視窗函式,以及子查詢,寫出來也不容易,如下

SELECT *  
FROM  (
        SELECT g, ROW_NUMBER() OVER(PARTITION BY g
        ORDER BY x) group_id RN FROM A
)
WHERE group_id <= 3
ORDER BY g ASC, group_id ASC


這種場景,用集算器 SPL 更容易處理,只要很短一行:

=connect(”Hive”).query(“select * from A”).group(g;~.top(-3;x)).conj(#2)

 

* 怎麼取出組內大於中位數的行?

* 組內出現過最大的上升幅度是多少?

* 哪些組出現過連續上升?

SPL 擅長解決這類分組子集和組內有序計算,比如 ; 可以參考 、


當資料不在資料庫裡時,SPL 執行復雜計算仍然方便:
=file(“d:/t.csv”).import(;,",").group...

SPL能很方便地嵌入到JAVA應用,可參考 。

具體使用方法可參考 。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69900830/viewspace-2701004/,如需轉載,請註明出處,否則將追究法律責任。

相關文章