【clickhouse專欄】對標mongodb儲存類JSON資料文件統計分析

字母哥部落格 發表於 2022-06-15
統計 MongoDB

一、文件儲存的需求

很多的開發者都使用過mongodb,在mongodb中資料記錄是以文件的形式存在的(類似於一種多級巢狀SQL的形式)。比如下面的JSON資料結構:dev_ip表示某一臺伺服器的ip、location欄位存放經緯度、meminfo.total和meminfo.userd分別代表記憶體總量和使用量。

[{
  "dev_ip": "123.46.5.111",
  "location": [39.916527, 116.397128],
  "meminfo": {
    "total": 64,
    "used": 23.2
  }
},
{
  "dev_ip": "123.46.5.112",
  "location": [39.916144, 116.392582],
  "meminfo": {
    "total": 64,
    "used": 27.8
  }
}]

二、建表

儲存文件需要使用到Map這種資料型別,在某些比較舊的版本中,Map資料型別還是實驗性的,不能直接使用。如果想使用,需要執行set allow_experimental_map_type = 1;
然後我們可以按照JSON的資料結構來建表,location是陣列Array資料型別,meminfo是Map資料型別。

CREATE TABLE dev_meminfo (
  dev_ip String,  
  location Array(Float64),
  meminfo Map(String, Float32)
)
ENGINE = MergeTree()
ORDER BY dev_ip;

clickhouse提供了陣列型別Array(T),陣列型別由多個T元素組成。T可以是任意的基礎資料型別,或者也可以是陣列型別。如果是陣列型別就形成了多維陣列,Cickhouse對多維陣列的支援有限,所以不建議使用多維陣列。陣列裡面所有的T元素的資料型別必須是一樣的,否則會丟擲異常。

三、資料入庫

在linux環境下,我們可以將JSON資料儲存為一個文件,命名如:dev_meminfo.json。然後使用下面的命令列,完成文件JSON資料的入庫。jq的作用是將JSON陣列及Map從結構中剝離出來,從而符合JSONEachRow要求的輸入格式。

cat dev_meminfo.json |jq -c .[] | clickhouse-client --database acaidb -m -u acai --password '<你的密碼>'  \
--query="INSERT INTO dev_meminfo FORMAT JSONEachRow"

或者我們可以直接使用INSERT語句來完成資料的單條插入,如下:

INSERT  INTO dev_meminfo FORMAT JSONEachRow {"dev_ip": "123.46.5.112", "location": [39.916144, 116.392582],"meminfo": {"total": 64,"used": 27.8}};

四、查詢資料

select * 的方式查詢資料:

#  clickhouse-client --database acaidb -m -u acai --password '4rfv$RFV'  --query="SELECT * FROM dev_meminfo"
123.46.5.111    [39.916527,116.397128]  {'total':64,'used':23.2}
123.46.5.112    [39.916144,116.392582]  {'total':64,'used':27.8}

使用欄位名稱方式查詢資料,需要注意的是Ciickhouse的陣列的下標是從0開始的,這與我們傳統程式設計開發中的規範是不一致的。

# clickhouse-client --database acaidb -m -u acai --password '4rfv$RFV'  --query="SELECT dev_ip,location[1],location[2],meminfo['total'],meminfo['used'] FROM dev_meminfo"
123.46.5.111    39.916527       116.397128      64      23.2
123.46.5.112    39.916144       116.392582      64      27.8

五、總結

我們看到clickhouse可以代替mongodb進行類JSON文件資料的儲存,而且支援SQL查詢統計分析,這一點是比較吸引人的。我只是介紹了簡單的查詢,其實針對各種統計分析場景,clickhouse提供了超級多的統計分析函式、視窗函式等等,當然針對陣列的資料型別也有很多的統計分析函式。
更為值得注意的是:筆者看到一些測評文章,clickhouse的的統計分析效能是mongodb的近百倍之多(筆者自己尚未驗證,請關注我的專欄後續文章)。但是也不是說clickhouse可以代替mongodb的所有應用場景,至少面向使用者的併發請求的場景clickhouse是不滿足的,因為clickhouse的定位是資料倉儲,主要是面向資料分析OLAP場景,而不是面向使用者高併發的聯機事務處理OLTP。

推薦閱讀

《clickhouse專欄》

相關文章