【臨實戰】使用 Python 從 Redis 中刪除 4000W 個 KEY

臨書發表於2019-03-04

PythonRedis

本文主要涉及 Redis 的以下兩個操作和其 Python 實現，目錄：

SCAN 命令
DEL 命令
使用 Python SCAN
使用 Python DEL
成果展示

SCAN 命令

SCAN 命令及相關的 SSCAN、HSCAN 和 ZSCAN 命令都用於增量迭代（incrementally iterate）一個集合的元素（a collection of elements）：

SCAN 用於迭代當前資料庫中的資料庫鍵
SSCAN 用於迭代集合鍵中的元素
HSCAN 用於迭代雜湊鍵中的鍵值對
ZSCAN 用於迭代有序集合中的元素（包括元素分值和元素分值）

以上四列命令都支援增量迭代，每次執行都會返回少量元素，所以他們都可以用於生產環境，而不會出現像 KEYS、SMEMBERS 命令一樣 — 可能會阻塞伺服器

不過，增量式迭代命令也不是沒有缺點的：

舉個例子，使用 SMEMBERS 命令可以返回集合鍵當前包含的所有元素，但是對於 SCAN 這類增量迭代命令來說，因為在堆鍵進行增量迭代的過程中，鍵可能會被改變，所以增量式迭代命令只能對被返回的元素提供有限的保證（offer limited guarantees about the returned elements）。

因為 SCAN、SSCAN、HSCAN 和 ZSCAN 命令的工作方式都非常相似，但是要記住：

SSCAN、HSCAN 和 ZSCAN 命令的第一個引數總是一個資料庫鍵；
SCAN 命令則不需要在第一個引數提供任何資料庫鍵 — 因為它迭代的是當前資料庫中的所有資料庫鍵。

SCAN 命令的基本用法

SCAN 命令是一個基於遊標的迭代器（cursor based iterator）：

SCAN 命令每次被呼叫後，都會向使用者返回一個新的遊標，使用者在下次迭代時需要使用這個新遊標作為 SCAN 命令的遊標引數，以此來延續之前的迭代過程。

當 SCAN 命令的遊標引數被設定為 0 時，伺服器開始一次新的迭代，而當伺服器向使用者返回值為 0 的遊標時，表示迭代結束。

示例：

redis 127.0.0.1:6379> scan 0
1) "17"
2)  1) "key:12"
    2) "key:8"
    3) "key:4"
    4) "key:14"
    5) "key:16"
    6) "key:17"
    7) "key:15"
    8) "key:10"
    9) "key:3"
    10) "key:7"
    11) "key:1"

redis 127.0.0.1:6379> scan 17
1) "0"
2) 1) "key:5"
   2) "key:18"
   3) "key:0"
   4) "key:2"
   5) "key:19"
   6) "key:13"
   7) "key:6"
   8) "key:9"
   9) "key:11"複製程式碼

上面的例子中，第一次迭代用 0 作為遊標，表示開始第一次迭代。

第二次迭代使用第一次迭代時返回的遊標，即：17。

從示例可以看出，SCAN 命令的返回是一個兩個元素的陣列，第一個元素是新遊標，第二個元素也是一個陣列，包含有所被包含的元素。

第二次呼叫 SCAN 命令時，返回遊標 0，這表示迭代已經結束了，整個資料集（collection）已經被完整遍歷過一遍了。

這個過程被稱為一次完整遍歷（full iteration）。

精簡一下內容，補充三點：

因為 SCAN 命令僅僅使用遊標來記錄迭代狀態，所以在迭代過程中，如果這個資料集的元素有增減，如果是減，不保證元素不返回；如果是增，也不保證一定返回；而且在某種情況下同一個元素還可能被返回多次。所以對迭代返回的元素所執行的操作最好可以重複執行多次（冪等）。
增量迭代命令不保證每次迭代所返回的元素數量（沒掃到嘛），但是我們可以使用 COUNT 選項對命令的行為進行一定程度的調整。COUNT 引數的預設值為 10，在迭代一個足夠大的、由雜湊表實現的資料庫、集合鍵、雜湊鍵或者有序集合鍵時，如果使用者沒有使用 MATCH 選項，那麼命令返回的數量通常和 COUNT 選項指定的一樣，或者多一些（?），在迭代編碼為整數集合（intset：一個由整數值構成的小集合）或編碼為壓縮列表（ziplist：由不同值構成的一個小雜湊或者一個小有序集合）時，會無視 COUNT 選項指定的值，在第一次迭代就將資料集的所有元素都返回給使用者。
MATCH 選項，直接看示例吧，如下

示例：

redis 127.0.0.1:6379> sadd myset 1 2 3 foo foobar feelsgood
(integer) 6

redis 127.0.0.1:6379> sscan myset 0 match f*
1) "0"
2) 1) "foo"
   2) "feelsgood"
   3) "foobar"複製程式碼

注意：對元素的模式匹配工作是在命令從資料集中取出元素之後，向客戶端返回元素之前進行的，所以有可能返回空

示例：

redis 127.0.0.1:6379> scan 0 MATCH *11*
1) "288"
2) 1) "key:911"

redis 127.0.0.1:6379> scan 288 MATCH *11*
1) "224"
2) (empty list or set)

redis 127.0.0.1:6379> scan 224 MATCH *11*
1) "80"
2) (empty list or set)

redis 127.0.0.1:6379> scan 80 MATCH *11*
1) "176"
2) (empty list or set)

redis 127.0.0.1:6379> scan 176 MATCH *11* COUNT 1000
1) "0"
2)  1) "key:611"
    2) "key:711"
    3) "key:118"
    4) "key:117"
    5) "key:311"
    6) "key:112"
    7) "key:111"
    8) "key:110"
    9) "key:113"
   10) "key:211"
   11) "key:411"
   12) "key:115"
   13) "key:116"
   14) "key:114"
   15) "key:119"
   16) "key:811"
   17) "key:511"
   18) "key:11"複製程式碼

注意：最後一次迭代，通過 COUNT 選項指定為 1000 強制命令為本次迭代掃描更多元素，從而使返回的元素也變多了。

DEL 命令

這個比較簡單，刪除給定的一個或者多個 key

redis> SET name "redis"
OK
redis> SET type "key-value store"
OK
redis> SET website "redis.com"
OK
redis> DEL name type website
(integer) 3複製程式碼

使用 Python SCAN

安裝 redis 包

pip install redis複製程式碼

完整程式碼示例：

import redis

pool=redis.ConnectionPool(host=`redis_hostname`, port=6379, max_connections=100)
r = redis.StrictRedis(connection_pool=pool)

cursor_number, keys = r.execute_command(`scan`, 0, "count", 200000)

while True:
    if cursor_number == 0:
        # 結束一次完整的比遍歷
        break
    cursor_number, keys = r.execute_command(`scan`, cursor_number, "count", 200000)
    # do something with keys

複製程式碼

我將需要刪除的 key 存在一個檔案裡，有 2.2G，大概 4000W 個，下一步就是刪除了

使用 Python DEL

因為檔案很大，我們用到一個小技巧，分塊讀取

with open("/data/rediskeys") as kf:
    lines = kf.readlines(1024*1024)複製程式碼

呼叫 delete 方法時，用到一個小技巧就是『*』星號

r.delete(*taskkey_list)複製程式碼

我們看一下定義就清楚了：

delete method

放上完整程式碼：

import redis
import time

pool=redis.ConnectionPool(host=`redis_hostname`, port=6379, max_connections=100)
r = redis.StrictRedis(connection_pool=pool)

start_time = time.time()
SUCCESS_DELETED = 0

with open("/data/rediskeys") as kf:
    while True:
        lines = kf.readlines(1024*1024)
        if not lines:
            break
        else:
            taskkey_list = [i.strip() for i in lines if i.startswith("UCS:TASKKEY")]
            SUCCESS_DELETED += r.delete(*taskkey_list)

        print SUCCESS_DELETED

end_time = time.time()
print end_time - start_time, SUCCESS_DELETED複製程式碼

成果展示

結束，下篇再見

我的知乎 · 我的知乎專欄 · 我的 GitHub · 我的 Gist

Redis刪除大Key
2018-10-18
Redis
【Redis】 redis-cluster刪除指定的key
2018-05-07
Redis
Redis 實用小技巧——批次刪除指定的 key
2023-05-08
Redis
Redis刪除特定字首key的優雅實現
2019-06-17
Redis
[轉帖]Redis中刪除過期Key的三種策略
2024-06-19
Redis
面試官：Redis中大Key怎麼刪除？
2024-11-06
面試Redis
Redis 刪除1.2億指定字首的key
2018-03-27
Redis
從Redis中刪除大集合物件的方法
2019-01-10
Redis物件
springboot使用redis(從配置到實戰)
2021-08-28
Spring BootRedis
刪除大key時要小心
2021-09-09
Redis 可以根據訊息儲存時長將key 刪除嗎
2024-07-04
Redis
debug——python redis的 list ,使用 lrem 刪除不了對應的值
2020-10-16
PythonRedisREM
前端刪除多條資料，如何將多個被刪除項指定key傳給後臺
2020-12-12
前端
批量刪除 redis keys
2021-08-22
Redis
從原始碼分析 Redis 非同步刪除各個引數的具體作用
2023-11-27
原始碼Redis非同步
刪除臨時表空間組
2021-09-09
postgresql VACUUM 不會從表中刪除死行的三個原因
2023-02-28
SQL
delphi寫一個 LinkedList，泛型容器，方便從中間刪除
2024-12-09
泛型
redis lRem 刪除失敗？
2021-05-26
RedisREM
redis-20.刪除策略
2021-03-01
Redis
4.2.5 從 Oracle Restart 配置中刪除元件
2020-04-05
OracleREST元件
Redis 從入門到實戰
2018-04-12
Redis
Redis刪除大量key後，佔用的系統記憶體卻沒有釋放？
2020-11-13
Redis記憶體
Python中dict支援多個key的方法
2024-11-24
Python
Python如何刪除csv中的內容
2021-09-11
Python
Python刪除列表中的非字母字元
2021-09-11
Python字元
php(js)批量刪除/單個刪除
2020-09-30
PHPJS
PHP從陣列中刪除元素的方法
2018-04-19
PHP陣列
redis 過期鍵刪除策略
2018-12-18
Redis
Redis大key掃描Python指令碼
2019-03-27
RedisPython指令碼
如何從Windows桌面刪除未使用的圖示
2020-01-02
Windows
Python 中刪除列表元素的三種方法
2022-04-20
Python
Go實戰-redis的基本使用
2020-10-18
GoRedis
win10如何刪除系統更新臨時檔案_windows10更新刪除臨時檔案操作方法
2020-07-22
Win10Windows
Python字串刪除第一個字元常用的方法！
2024-01-17
Python字串字元
redis cluster節點/新增刪除操作
2020-07-14
Redis
使用 userdel 命令刪除 Linux 中的使用者
2022-10-17
Linux
從Bash中的字串中刪除固定的字首/字尾
2020-05-10
字串