用Python寫演算法 | 蓄水池演算法實現隨機抽樣

simpleapples發表於2019-02-18

原文網址 : https://flycode.co/archives/276467

現在有一組數，不知道這組數的總量有多少，請描述一種演算法能夠在這組資料中隨機抽取k個數，使得每個數被取出來的概率相等。

如果這組數有n個，那麼每個數字取到的概率就是k/n，但是這個問題的難點在於不知道這組數的總數，也就是不知道n，那麼該怎麼計算每個數取到的概率呢？

蓄水池演算法

游泳池（蓄水池）大家都不陌生，有些游泳池中的水是活的，有入水管也有出水管，那麼和泳池體積相當的水流過之後，是不是泳池中所有的水都會被替換呢？當然不是，有的水在泳池中可能會存留很久，有的可能剛進去就流走了。仿照這種現象，蓄水池抽樣演算法誕生了，蓄水池演算法的關鍵在於保證流入蓄水池的水和已經在池中的水以相同的概率留存在蓄水池中。並且蓄水池演算法可以在不預先知道總量的情況下，在時間複雜度O(N)的情況下，來解決這類取樣問題。

核心原理

這一部分涉及公式，為了保證效果直接貼了圖過來。

Python實現

接下來嘗試用Python實現一下蓄水池演算法，由於蓄水池演算法是在事先不知道總量的情況下抽樣的，所以定義一個方法來接收單個元素，並且把這個方法放在類中，以持有采樣後的資料。

import random


class ReservoirSample(object):

    def __init__(self, size):
        self._size = size
        self._counter = 0
        self._sample = []

    def feed(self, item):
        self._counter += 1
        # 第i個元素（i <= k），直接進入池中
        if len(self._sample) < self._size:
            self._sample.append(item)
            return self._sample
        # 第i個元素（i > k），以k / i的概率進入池中
        rand_int = random.randint(1, self._counter)
        if rand_int <= self._size:
            self._sample[rand_int - 1] = item
        return self._sample
複製程式碼

測試程式碼

接下來實現一個測試用例驗證實現的演算法是否正確，既然是隨機抽樣，無法通過單詞測試來驗證是否正確，所以通過多次執行的方式來驗證，比如從1-10裡隨機取樣3個數，然後執行10000次取樣，如果演算法正確，最後結果中1-10被取樣的次數應該是相同的，都是3000上下。

import unittest
from collections import Counter

from reservoir_sample import ReservoirSample


class TestMain(unittest.TestCase):

    def test_reservoir_sample(self):
        samples = []
        for i in range(10000):
            sample = []
            rs = ReservoirSample(3)
            for item in range(1, 11):
                sample = rs.feed(item)
            samples.extend(sample)
        r = Counter(samples)
        print(r)

if __name__ == '__main__':
    unittest.main()
複製程式碼

輸出的結果如下

Counter({7: 3084, 6: 3042, 10: 3033, 3: 3020, 8: 3016, 5: 2997, 4: 2986, 2: 2972, 9: 2932, 1: 2918})
複製程式碼

上面輸出了每個數字被取樣到的次數，通過圖表可以清晰的看到分佈情況

可以看出蓄水池演算法對於隨機抽樣還是非常適合的，每個元素的抽樣概率都相同。

程式碼

上述的演算法和測試程式碼已經放在Github，可以直接下載使用。

關注公眾號【Python私房菜】

【資料結構與演算法】蓄水池抽樣演算法（Reservoir Sampling）
2022-01-17
資料結構演算法
隨機森林演算法原理與Python實現
2024-04-28
隨機森林演算法Python
MCMC 、抽樣演算法與軟體實現
2020-04-05
演算法
C# 蓄水池抽樣
2022-05-25
C#
隨機抽樣一致性（RANSAC）演算法詳解
2020-06-15
隨機演算法
JavaScript實現隨機抽獎效果
2020-04-04
JavaScript隨機
水庫抽樣演算法
2020-12-19
演算法
numpy2.隨機抽樣
2020-11-25
隨機
蓄水池演算法
2021-09-19
演算法
怎樣用Nacos實現Raft演算法
2020-02-15
Raft演算法
手寫演算法-python程式碼實現Kmeans
2020-12-17
演算法Python
Java實現隨機抽獎的方法有哪些
2024-09-28
Java隨機
實現陣列的隨機排序（含洗牌演算法）
2019-03-05
陣列隨機排序演算法
隨機演算法
2024-10-09
隨機演算法
特徵重要性評估的隨機森林演算法與Python實現(三)
2024-05-02
特徵隨機森林演算法Python
LeetCode 398 Random Pick Index（蓄水池抽樣典型例題）
2020-12-10
LeetCoderandomIndex
隨機抽獎
2024-05-04
隨機
用Python實現約瑟夫環演算法
2019-06-11
Python演算法
隨機森林演算法
2019-03-11
隨機森林演算法
【隨機演算法】洗牌
2020-10-28
隨機演算法
FM演算法python實現
2019-03-26
演算法Python
python實現冒泡演算法
2019-02-16
Python演算法
python實現FM演算法
2020-12-25
Python演算法
C#實現的簡單的隨機抽號器
2020-12-24
C#隨機
機器學習演算法（2）用Python實現自適應線性神經元（隨機梯度下降+線上學習）
2020-11-23
機器學習演算法Python隨機梯度
隨機森林演算法梳理
2019-03-01
隨機森林演算法
javaScript隨機排序演算法
2018-07-20
JavaScript隨機排序演算法
RSA演算法與Python實現
2018-08-08
演算法Python
Python 實現隨機打亂字串
2018-09-19
Python隨機字串
[Hive]Hive實現抽樣查詢
2018-08-16
Hive
PHP抽獎演算法
2024-09-21
PHP演算法
機器學習演算法（6）用Python實現用核支援向量機求解非線性問題
2020-11-24
機器學習演算法Python
運用JS 實現隨機點名（隨機點名）
2020-12-26
JS隨機
PageRank演算法概述與Python實現
2024-04-27
演算法Python
python實現希爾排序演算法
2019-04-18
Python排序演算法
支援向量機|SMO演算法實現
2021-09-09
演算法
CUDA 的隨機數演算法 API
2023-05-06
隨機演算法API
「演算法」貪心與隨機化
2024-11-24
演算法隨機