GBase8a分佈列選取原則

lbfv發表於2022-03-29

優先考慮大表間的 JOIN ,儘量讓大表 JOIN 條件的列為 Hash 分佈列(相關子 查詢的相關 JOIN 也可以參考此原則),以使得大表間的 JOIN 可以直接下發到 各節點分散式執行。 其次考慮 GROUPBY ,儘量讓 GROUPBY 帶有 Hash 分佈列,讓分組聚合一步 完成。 當有多個 join group 列可選擇時,優先選擇唯一值多( count(distinct) 值大) 的列做 Hash 分佈列,讓資料均勻分佈。 通常是等值查詢的列,並且使用的頻率很高的應考慮建立為 hash 分佈列。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69979511/viewspace-2884649/,如需轉載,請註明出處,否則將追究法律責任。

相關文章