Kudu主鍵選擇策略

洋蔥ycy發表於2020-11-25

原文網址 : https://blog.csdn.net/ycy0706/article/details/110130431

每個Kudu 表必須設定Pimary Key(unique), 另外Kudu表不能設定secondary index, 經過實際效能測試, 本文給出了選擇Kudu主鍵的幾個策略, 測試結果糾正了我之前的習慣認知.

簡單介紹測試場景: 表中有一個unqiue欄位Id, 另外還有一個日期維度欄位histdate, 有三種設定kudu PK的方法, 分別是:
表設計方案1 (histdate, id)作為聯合主鍵, 日期欄位放在前.
表設計方案2 (id,histdate)作為聯合主鍵, 日期欄位放在後.
表設計方案3 (id)作為單欄位主鍵.

先給出測試資料:

結論:
1. 選擇性強的欄位(比如 id 欄位) 應該放在PK清單最前面, 這個規則對查詢效能影響最大.
2. PK清單中只加必要的欄位, 越少越好.
3. 如果查詢針對PK中所有欄位都加了條件, 其效能是最優的. 但只要有一個PK欄位未加上條件, 就完全用不上PK索引,效能就很差.
4. where條件中各個欄位條件的先後順序並不關鍵.
5. Kudu表使用Java API Insert的速度還是很好的, 單執行緒達到了1萬筆/秒多. Kudu Update 效率也很高, 實測對一個窄表做全欄位update, 其速度達到了Insert速度的88%, 而vertica的update效率比insert差很多.

在測試之前的誤區:
誤區1. (histdate,id)組合PK應該是最優的, 因為在數倉中經常按照日期做查詢, 把日期放在PK清單最前面, 應該有助於提升查詢效能, 結果發現無論是日期+id組合查詢,還是id單獨查詢, 該方案效能都最差, 甚至不如完全不在PK清單中的 duplicated_id 的定位查詢.
誤區2. 即使給部分PK欄位加上過濾條件, 查詢也會利用上PK index, 結果證明是完全利用不上index.

-- 下面三個表的 id 取值為: java.util.UUID.randomUUID().toString(), duplicated_id和id取值相同. 

CREATE TABLE kudu_testdb.perf_test_t1
( 
histdate    timestamp ENCODING BIT_SHUFFLE COMPRESSION LZ4,
id    string ENCODING PLAIN_ENCODING COMPRESSION SNAPPY,
value int,
duplicated_id    string ENCODING PLAIN_ENCODING COMPRESSION SNAPPY,
PRIMARY KEY (histdate,id)  
) 
PARTITION BY HASH (histdate,id) PARTITIONS 2 
STORED AS KUDU
TBLPROPERTIES (
  'kudu.table_name' = 'testdb.perf_test_t1',
  'kudu.master_addresses' = '10.205.6.1:7051,10.205.6.2:7051,10.205.7.3:7051'
);


CREATE TABLE kudu_testdb.perf_test_t2
( 
histdate    timestamp ENCODING BIT_SHUFFLE COMPRESSION LZ4,
id    string ENCODING PLAIN_ENCODING COMPRESSION SNAPPY,
value int,
duplicated_id    string ENCODING PLAIN_ENCODING COMPRESSION SNAPPY,
PRIMARY KEY (id,histdate)  
) 
PARTITION BY HASH (id,histdate) PARTITIONS 2 
STORED AS KUDU
TBLPROPERTIES (
  'kudu.table_name' = 'testdb.perf_test_t2',
  'kudu.master_addresses' = '10.205.6.1:7051,10.205.6.2:7051,10.205.7.3:7051'
);


CREATE TABLE kudu_testdb.perf_test_t3
( 
id    string ENCODING PLAIN_ENCODING COMPRESSION SNAPPY,
histdate    timestamp ENCODING BIT_SHUFFLE COMPRESSION LZ4,
value int,
duplicated_id    string ENCODING PLAIN_ENCODING COMPRESSION SNAPPY,
PRIMARY KEY (id)  
) 
PARTITION BY HASH (id) PARTITIONS 2
STORED AS KUDU
TBLPROPERTIES (
  'kudu.table_name' = 'testdb.perf_test_t3',
  'kudu.master_addresses' = '10.205.6.1:7051,10.205.6.2:7051,10.205.7.3:7051'
);

轉載：https://www.cnblogs.com/harrychinese/p/kdu_pk.html

SEO策略之關鍵詞選擇的原則
2020-05-14
如何在Oracle表中選擇主鍵列BW
2022-03-21
Oracle
資料庫索引選擇策略
2024-08-26
資料庫索引
Spark SQL如何選擇join策略
2021-01-29
SparkSQL
資料庫主鍵 ID 生成策略
2019-07-30
資料庫
MongoDB分片鍵選擇指南
2024-10-09
MongoDB
【智慧優化演算法】遺傳演算法的精英選擇策略、期望選擇策略
2018-12-07
優化演算法
Tab鍵切換選擇物件
2020-11-15
物件
alacritty 新增左鍵選擇，右鍵複製
2024-11-30
KUDU(五)kudu優化
2020-10-20
優化
MHA選擇主庫原始碼解析
2018-04-12
原始碼
MongoDB 分片鍵的選擇與案例
2018-05-31
MongoDB
安裝APK時SO庫的選擇策略
2018-10-31
APK
詳解快取更新策略及如何選擇
2023-05-12
快取
(轉）為什麼選擇機器學習策略
2018-04-28
機器學習
團隊如何選擇合適的Git分支策略？
2023-04-02
Git
批量修改vsphere共享儲存多路徑選擇策略
2021-01-01
「Adobe國際認證」運用“物件選擇”工具，在PS中選擇主體
2021-09-09
物件
建站的時候選擇雲主機還是vps主機？
2020-07-15
Mybatis-Plus3.0預設主鍵策略導致自動生成19位長度主鍵id的坑
2021-12-10
MyBatisS3
做網站選擇HostGator美國主機還是香港主機？
2019-12-27
網站
如果你還在為選擇WordPress主機而糾結，選擇GoDaddy不會有錯！
2021-11-13
Go
個人雲主機應該怎麼選擇
2019-12-12
企業網站如何選擇虛擬主機？
2020-07-27
網站
如何選擇適合自己的虛擬主機
2022-10-20
走進Kudu
2020-10-31
LSTM擇時+StockRanker選股的視覺化策略實現
2019-01-25
視覺化
Vivado使用技巧（22）：綜合策略與設定的選擇
2018-08-25
房地產開發如何選擇最佳招標採購策略
2020-10-13
手機遊戲玩家遊戲消費的策略選擇
2023-03-31
遊戲
選擇郵件營銷平臺的關鍵要素：為中小企業提供絕佳選擇
2023-09-21
002---選擇器（標籤選擇器、類選擇器、id選擇器、偽類選擇器、萬用字元選擇器）
2018-04-18
字元
vsp主機伺服器選擇及環境配置
2018-10-28
伺服器
部落格網站怎樣選擇虛擬主機
2020-08-18
網站
淺析美國主機應該如何選擇配置？
2020-10-12
主播應該如何選擇直播美顏SDK工具？
2023-02-22
雲主機該如何選擇適合自己的配置？
2020-12-31
AI 演算法測試客觀指標的選擇策略
2020-11-08
AI演算法指標

Kudu主鍵選擇策略

相關文章