Redis去重方法

大資料技術派發表於2021-11-06

原文網址 : https://www.cnblogs.com/data-magnifier/p/15515802.html

這篇文章主要介紹了Redis實現唯一計數的3種方法分享,本文講解了基於SET、基於 bit、基於 HyperLogLog三種方法,需要的朋友可以參考下

唯一計數是網站系統中十分常見的一個功能特性，例如網站需要統計每天訪問的人數 unique visitor （也就是 UV）。計數問題很常見，但解決起來可能十分複雜：一是需要計數的量可能很大，比如大型的站點每天有數百萬的人訪問，資料量相當大；二是通常還希望擴充套件計數的維度，比如除了需要每天的 UV，還想知道每週或每月的 UV，這樣導致計算十分複雜。

在關聯式資料庫儲存的系統裡，實現唯一計數的方法就是 select count(distinct <item_id>)，它十分簡單，但是如果資料量很大，這個語句執行是很慢的。用關聯式資料庫另外一個問題是插入資料效能也不高。

Redis 解決這類計數問題得心應手，相比關聯式資料庫速度更快，消耗資源更少，甚至提供了 3 種不同的方法。

1.基於 set

Redis 的 set 用於儲存唯一的資料集合，通過它可以快速判斷某一個元素是否存在於集合中，也可以快速計算某一個集合的元素個數，另外和可以合併集合到一個新的集合中。涉及的命令如下：

複製程式碼程式碼如下:

SISMEMBER key member  # 判斷 member 是否存在
SADD key member  # 往集合中加入 member
SCARD key   # 獲取集合元素個數

基於 set 的方法簡單有效，計數精確，適用面廣，易於理解，它的缺點是消耗資源比較大（當然比起關聯式資料庫是少很多的），如果元素個數很大（比如上億的計數），消耗記憶體很恐怖。

2.基於 bit

Redis 的 bit 可以用於實現比 set 記憶體高度壓縮的計數，它通過一個 bit 1 或 0 來儲存某個元素是否存在資訊。例如網站唯一訪客計數，可以把 user_id 作為 bit 的偏移量 offset，設定為 1 表示有訪問，使用 1 MB的空間就可以存放 800 多萬使用者的一天訪問計數情況。涉及的命令如下：
複製程式碼程式碼如下:

SETBIT key offset value  # 設定位資訊
GETBIT key offset        # 獲取位資訊
BITCOUNT key [start end] # 計數
BITOP operation destkey key [key ...]  # 點陣圖合併

基於 bit 的方法比起 set 空間消耗小得多，但是它要求元素能否簡單對映為位偏移，適用面窄了不少，另外它消耗的空間取決於最大偏移量，和計數值無關，如果最大偏移量很大，消耗記憶體也相當可觀。

3.基於 HyperLogLog

實現超大資料量精確的唯一計數都是比較困難的，但是如果只是近似的話，計算科學裡有很多高效的演算法，其中 HyperLogLog Counting 就是其中非常著名的演算法，它可以僅僅使用 12 k左右的記憶體，實現上億的唯一計數，而且誤差控制在百分之一左右。涉及的命令如下：
複製程式碼程式碼如下:

PFADD key element [element ...]  # 加入元素
PFCOUNT key [key ...]   # 計數
這種計數方法真的很神奇，我也沒有徹底弄明白，有興趣可以深入研究相關文章。

redis 提供的這三種唯一計數方式各有優劣，可以充分滿足不同情況下的計數要求。

4. 基於bloomfilter

BloomFilter是利用類似點陣圖或者位集合資料結構來儲存資料，利用位陣列來簡潔的表示一個集合，並且能夠快速的判斷一個元素是不是已經存在於這個集合。雖然BloomFilter不是100%準確，但是可以通過調節引數，使用Hash函式的個數，位陣列的大小來降低失誤率。這樣調節完全可以把失誤率降低到接近於0。可以滿足大部分場景了。

redis使用布隆過濾器需要安裝外掛：centos中安裝redis外掛bloom-filter

ES 6 去重方法
2020-11-17
剪映去重方法
2024-09-23
陣列去重的方法
2018-10-11
陣列
JavaScript陣列去重方法
2022-05-09
JavaScript陣列
mysql查詢去重方法解析
2018-09-06
MySql
Shell 解決Redis Slow Log去重問題
2018-11-02
Redis
陣列去重的幾個方法
2019-03-27
陣列
JavaScript陣列去重方法總結
2019-04-05
JavaScript陣列
陣列去重的幾種方法
2020-10-10
陣列
陣列去重的六種方法
2019-03-05
陣列
JS陣列去重7種方法
2021-12-03
JS陣列
Redis 精確去重計數 —— 咆哮點陣圖
2019-06-04
Redis
原生JS去重（一）--兩種方法去掉重複字元
2021-09-09
JS字元
7種方法實現陣列去重
2018-05-05
陣列
JS陣列去重的10種方法
2024-03-07
JS陣列
JS陣列去重的幾種方法
2019-02-20
JS陣列
好像不是最全的陣列去重方法
2018-12-26
陣列
切片去重(string,int型別去重)
2020-10-10
型別
JavaScript陣列去重（12種方法，史上最全）
2018-10-15
JavaScript陣列
整理了js陣列去重4種方法
2018-04-16
JS陣列
Python中列表去重常用的3種方法！
2023-03-16
Python
JS實現陣列去重方法總結(六種方法)
2018-05-17
JS陣列
JS陣列去重 – JSON陣列去重
2019-09-05
陣列JSON
列表去重
2024-08-17
PostgreSQL分割槽表、繼承表記錄去重方法
2018-10-23
SQL繼承
js中filter()函式，以及一些去重方法
2018-08-27
JSFilter函式
JavaScript&ES6----陣列去重的四種方法
2021-09-28
JavaScript陣列
親測有效JS中9種陣列去重方法
2021-04-06
JS陣列
陣列去重
2019-02-28
陣列
List<string> 去重
2024-08-23
結果去重
2024-10-30
字串切片去重
2022-02-08
字串
去重語句
2022-11-11
list 集合去重
2022-07-21
List集合物件去重及按屬性去重的8種方法-java基礎總結系列第六篇
2020-09-07
物件Java
JS單行、多行文字字元去重和行去重
2019-02-16
JS字元
JavaScript陣列去重
2018-09-19
JavaScript陣列
爬蟲去重策略
2018-09-04
爬蟲