GBase8a資料分佈規劃

lbfv發表於2022-03-29

GBase8aMPP 叢集效能取決於各個節點整體的效能,每個節點儲存的資料量對於 叢集效能有很大影響,為了儘可能達到最好的效能,所有的資料節點應該儘量儲存 等量的資料,因此在資料庫表規劃定義階段要考慮表是複製表還是分佈表,以及對 分佈表上的某一些列設定為分佈列進行 hash 分佈。 例如根據資料的分佈特性設計,可以: 1. 將字典表或者維度表建成複製表的方式將資料儲存到各個節點上,即不須對其數 據進行分片儲存。因為字典表的資料量相對較小,雖然在各個節點進行儲存有一定 的資料冗餘,但和事實表的 JOIN 運算就可在本地進行,避免節點間搬動資料。 2. 對於事實表(大表)可將資料分佈到不同的節點上儲存,分佈方法可採用隨機分 ( 目前很少用 ) ,或者單列 hash 分佈,或者多列 hash 分佈的方法, SQL 執行的查 詢條件滿足只在其中部分節點時,查詢優化可決定 SQL 的執行僅在這些節點執行 即可。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69979511/viewspace-2884647/,如需轉載,請註明出處,否則將追究法律責任。

相關文章