cassandra查詢效率探討

chenatu發表於2016-07-03

原文網址 : https://segmentfault.com/a/1190000005862775

cassandra查詢效率探討

cassandra目前提倡的建表與查詢方式為CQL方式，傳統的cassandra-cli相關的api由於效能問題將逐步淘汰，而cassandra-cli也將在2.2版本之後被淘汰。

在CQL中，可以利用類似SQL的方式建立資料表，例如：

CREATE TABLE monitor (
    id bigint,
    value text,
    num int,
    timestamp timestamp,
    PRIMARY KEY (id, timestamp ));

其中id與timestamp共同構成了primary key。primary key可以不止一個欄位，大於一個欄位的可以構成clustering key。其中在primary key中第一個欄位為partition key，用來決定row在整個ring中的分佈。後面的欄位為clustering key，對於同一個partition key所代表的行，是根據clustering key以一定順序在物理上相鄰儲存的。所以根據partition key以及clustering key進行聯合查詢速度會比較快。cassandra對於如下查詢效率比較高

select * from monitor WHERE id = 1;
select * from monitor WHERE id = 2 AND timestamp = '2015-12-01 12:00:00+0800';
select * from monitor WHERE id = 2 AND timestamp > '2015-12-01 12:00:00+0800' AND timestamp < '2015-12-01 23:00:00+0800';

但是對於下面的查詢，cassandra會返回InvalidRequest: code=2200 [Invalid query] message="Cannot execute this query as it might involve data filtering and thus may have unpredictable performance. If you want to execute this query despite the performance unpredictability, use ALLOW FILTERING"

select * from monitor WHERE timestamp = '2015-12-01 12:00:00+0800';

其原因為是cassandra認為這查詢效率比較低下，需要使用者顯式地增加ALLOW FILTERING修飾。這種查詢過程是先獲取所有行，然後在根據timestamp = '2015-12-01 12:00:00+0800'進行過濾，效率自然比較低。

解決的辦法通常有在timestamp欄位上建立所以。但不能簡單地將cassandra建立索引的機制與普通的關係型資料庫如mysql劃等號。通過primary key查詢，可以通過ring的資訊很快的定位到具體的節點。但是通過index查詢欄位的話，cassandra會每個節點進行查詢。雖然節點內部也會對本地資料進行索引，但是效率還是遠不如直接查詢primary key快。此外cassandra並不能夠對於timestamp >'2015-12-01 12:00:00+0800'這種範圍條件進行查詢。所以更好的方式是另外建立一個表，將需要查詢的欄位作為主鍵，並儲存對應關係。

參考資料

探討一個比較複雜的查詢
2020-10-19
關於 MyBatis-Plus 分頁查詢的探討 → count 都為 0 了，為什麼還要查詢記錄？
2022-05-09
MyBatis
Promise探討
2019-01-02
Promise
多執行緒查詢,效率翻倍
2022-07-02
執行緒
深入探討 Undefined
2018-10-23
Undefined
深入探討HBASE
2020-11-16
OPCUA 探討（一）
2024-12-05
MySQL：查詢欄位數量多少對查詢效率的影響
2019-12-13
MySql
mysql查詢效率慢的SQL語句
2018-12-12
MySql
Springboot 加密方案探討
2023-10-14
Spring Boot加密
px em rem 探討
2018-03-07
REM
自研ORM Include拆分查詢(遞迴演算法支援無限層級) 效能最佳化探討
2023-01-04
ORM遞迴演算法
在mysql查詢效率慢的SQL語句
2019-04-18
MySql
Netty URL路由方案探討
2018-10-26
Netty路由
深入探討單例模式
2020-04-17
單例模式
JavaScript原型鏈汙染探討
2024-10-12
JavaScript原型
MySQL 優化五（關聯查詢子查詢以及 in 的效率問題）（高階篇）
2020-04-11
MySql優化
java8的parallelStream提升數倍查詢效率
2020-07-11
JavaParallel
談談MYSQL索引是如何提高查詢效率的
2021-06-02
MySql索引
python建立elasticsearch索引的探討
2018-11-12
PythonElasticsearch索引
SQL優化器探討(zt)
2019-01-10
SQL優化
探討.NET Core的未來
2018-06-24
深入探討ROP 載荷分析
2020-08-19
oracle 雙機部署模式探討
2022-06-09
Oracle模式
GaussDB(for Cassandra)新特性發布：支援Lucene二級索引，讓複雜查詢更智慧
2022-12-02
索引
探討分散式ID生成系統
2019-01-19
分散式
一起探討JavaScript的物件
2018-09-19
JavaScript物件
【MES】MES多工廠模型探討
2018-04-08
模型
關於python中slicing的探討
2018-07-21
Python
Web 框架的架構模式探討
2018-05-23
Web框架架構模式
XAF中XPO與EFCore的探討
2023-05-20
BeeHive 1.6.0 原始碼閱讀探討
2020-04-03
Hive原始碼
12306 技術難點大探討
2022-01-06
RabbitMQ中三個TTL的探討
2022-02-09
MQ
「零信任」實施路徑探討
2021-07-16
zset如何解決內部連結串列查詢效率低下
2021-07-12
MySQL最佳化之如何查詢SQL效率低的原因
2021-09-09
MySql
MySQL探祕(五):InnoDB鎖的型別和狀態查詢
2018-11-04
MySql型別
MySQL索引憑什麼能讓查詢效率提高這麼多？
2020-09-07
MySql索引

cassandra查詢效率探討

cassandra查詢效率探討

相關文章