【UV統計】海量資料統計的前世今生

ERKE發表於2020-12-13

原文網址 : https://www.cnblogs.com/ERKE/p/14131067.html

轉載請註明出處

背景

在網際網路公司中，每個專案都需要資料統計、分析，便於專案組利用詳細資料研究專案的整體情況，進行下一步的調整。在資料統計中，UV統計是最常見的，也是最普遍的。有的場景要求實時性很高，有點場景要求準確性很高，有的場景比較在意計算過程中的記憶體。不同的場景使用不同的演算法，下面我們從0到1簡單介紹下UV統計領域。

什麼是UV統計

假設我們的場景是商家這邊上架一系列水果，然後需要統計出一共上架幾種水果。具體如下所示：
【UV統計】海量資料統計的前世今生

針對這個問題，我們想到的最簡單的方式就是利用STL中的set處理。

SET

上架一個水果的時候，也同時在set中插入。最後需要統計的時候，直接計算set中一共有幾個水果即可。具體如下所示：
【UV統計】海量資料統計的前世今生
這種方式準確率是絕對準確的，但是這種方式耗費的記憶體是很大的。
假設每個水果需要 K 位元組，那麼如果有 M 個水果，一共需要 K * M 位元組。那麼我們能不能縮小這裡的記憶體呢？
稍微損失一點準確率換取記憶體？具體見下面HashMap的方式

HASHMAP

這種演算法在上架一個水果的時候，只需要在特定的位置置1即可，而不需要儲存這個位置上究竟是何種水果。然後在統計的時候，只需要統計hashmap裡面有多少個1即可。具體如下所示：
具體如下所示：
【UV統計】海量資料統計的前世今生
那麼如果有M個水果，這裡其實只需要 M / 8 位元組，相比set的方式記憶體直接縮小到1/8。當然Hash肯定會有衝突的，所以這裡肯定有一定準確率的損失。
但是如果涉及到海量資料的UV統計，這裡的記憶體還是很大的。
能否用上統計學進一步縮小記憶體呢？具體見下面的Linear Count的方式。

Linear Count

這種演算法在上架一個水果的時候，完全跟hashmap一致，在相應位置置1。
然後在統計的時候，利用統計學的方式，根據hashmap中零的個數給出一個估算值。具體如下所示：
【UV統計】海量資料統計的前世今生

假設M為雜湊桶長度，那麼每次上架水果，每個桶被選中的概率為：
$$\frac{1}{M}$$
然後在上架N個元素後，某個桶為0的概率為：
$$(1-\frac{1}{M}) ^N$$
所以在上架n個元素後，雜湊桶中零的個數期望為：
$$ZeroNum=\sum_{i=1}^M (1-\frac{1}{M}) ^N = M (1-\frac{1}{M}) ^N= M ((1+\frac{1}{-M})^{-M}){-\frac{N}{M}}) \approx Me^{- \frac{N}{M}}$$
所以最終：
$$
N = UV = -M ln(\frac{ZeroNum}{M})
$$

所以Linear Count演算法中，只需統計下hashmap中零的個數，然後代入上式即可。
這種演算法在N很小的時候，準確率是很高的，但是N很大的時候，它的準確率急劇下降。
針對海量資料的情況，LogLog Count的演算法更加魯棒

LogLog Count

這種演算法跟上面幾種都不同，上架水果的時候，在相應桶裡面記錄的是二進位制數後面最長的連續零個數。然後統計的時候，利用統計學的方式，根據儲存中最長連續字尾零個數，得出一個估計值。具體如下所示：

它的原理如下：

這裡如果只使用一個桶來估計的話，它的誤差是很大，需要用分桶平均的方式來減少它的誤差。

分桶平均

既然這裡利用了分桶來減少誤差，那麼這裡統計的時候就必須合起來，這裡有4種方式：

算術平均：$$UV=\frac{\sum_{j=1}^mUV_j} { m}$$
幾何平均：$$UV=\sqrt[m]{UV_1...UVm}$$
調和平均：$$UV=\frac{m}{\sum_{j=1}^mUV_j{-1}}$$
中位數：$$UV=mediam {UV_1,...,UV_m}$$

LogLog Count利用的是算術平均的方式，所以最終估計值為：
$$UV=2^{{\frac{\sum_{j=1}}m{UV_j}}{m}}$$

這種演算法對於基數大的情況下準確率挺高的，但是基數小的情況下準確率很低。

HyperLogLog Count

這種演算法跟LogLog Count 類似，有個區別點就是它在求均值的時候利用了調和平均數，而不是算術平均數。這裡最終估計值為：
$$UV=mm(\sum_{j=1}^m{2{-M_j}})^{-1}$$
然後它還引入了分段誤差修正。

誤差修正

具體可以看我github上的程式碼：HyperLogLog

總結

	準確率	記憶體	耗時
Set	絕對準確	K * M	O(Mlog(M))
HashMap	很高	M/8	O(M)
Linear Count	基數小高，基數大低	M/8	O(M/8)
LogLog Count	基數小低，基數大高
HyperLogLog Count	高

如何用redis統計海量UV？
2021-10-12
Redis
資料庫的前世今生
2020-04-06
資料庫
對話系統的前世今生
2018-07-17
序列推薦系統的前世今生
2023-11-08
統計網站PV和UV
2018-09-29
網站
計算機字元編碼的前世今生
2021-08-16
計算機字元
分散式系統：CAP 理論的前世今生
2019-04-27
分散式
開源監控系統Prometheus的前世今生
2024-10-24
Prometheus
恆生O32系統的前世今生
2020-12-17
基礎資料平臺的前世今生
2020-11-14
超大型Oracle資料庫應用系統的設計方法（下）UV
2022-03-22
Oracle資料庫
圖資料庫專案DGraph的前世今生
2019-02-28
資料庫
RabbitMQ的前世今生
2018-12-06
MQ
InfiniBand 的前世今生
2023-11-03
MySQL 的前世今生
2020-02-13
MySql
Mybatis的前世今生
2019-04-19
MyBatis
Unicode的前世今生
2019-02-20
Unicode
Dubbo的前世今生
2022-02-18
Serverless 的前世今生
2022-11-24
Server
IPD的前世今生
2021-09-23
CRM的前世今生
2020-12-29
DBHub的前世今生
2021-01-01
程式設計師前世今生之在大學的那些日子
2020-05-30
程式設計師
Cube 技術解讀 | Cube 渲染設計的前世今生
2022-06-16
Redis 實戰篇：巧用Bitmap 實現億級海量資料統計
2021-08-24
Redis
SAP 雲平臺 ABAP 程式設計環境的前世今生
2022-06-06
程式設計
Webpack前世今生
2020-07-22
Web
重新學習MySQL資料庫開篇：資料庫的前世今生
2019-08-24
MySql資料庫
React ref 的前世今生
2018-07-26
React
React Portal的前世今生
2018-03-13
React
遊戲的前世今生
2019-12-23
遊戲
HTTP/2.0的前世今生
2019-03-14
HTTP
元件化的前世今生
2021-09-09
元件化
聊聊 HTAP 的前世今生
2023-02-23
聊聊ChatGPT的前世今生
2023-02-09
ChatGPT
外掛的前世今生
2020-12-20
Nginx入門教程(五)---訪問日誌簡單分析,統計PV、UV等資料。
2020-10-17
Nginx
資料視覺化之美：桑基圖的前世今生
2021-12-09
視覺化