如何快速定位 Redis 熱 key?

唯愛程式設計發表於2021-02-17

原文網址 : https://www.cnblogs.com/cndeveloper/p/14409732.html

背景

在 Redis 中，熱 key 指的是那些在一段時間內訪問頻次比較高的鍵值，具體到業務上，商品的限時搶購、瞬時的新聞熱點或某個全域性性的資源，都極有可能產生熱點 key。

熱點 key 的出現可能會對系統的穩定性和可用性造成影響，比如對應節點的網路卡頻寬被打滿，出現丟包重傳，請求波動耗時大幅上升，甚至影響到業務的正常使用，引發使用者的不滿。因此，在日常的工作中，我們需要著重避免這種情況的出現，比如在設計和編碼階段避免引入全域性性熱 key，或者在設計時考慮熱 key 出現時的應對方案。

可能的方案

熱點 key 即使我們在設計和開發時已經極力避免，然而在真實的生產環境中還是可能依舊存在的，導致其繼續出現的原因有以下幾種:

有一些邊界 case 沒有考慮到
異常或非預期的流量

既然不可能完全避免，我們就需要有一種方法能夠在出問題的時候快速定位有沒有熱 key 以及熱 key 具體是啥，來幫助業務快速排障，定位問題的根源。如果要設計定位方案的話，我們可以從 Redis 請求路徑上的節點來著手，比如在客戶端、中間層和服務端，具體來說如下:

客戶端收集上報改動 Redis SDK，記錄每個請求，定時把收集到的資料上報，然後由一個統一的服務進行聚合計算。方案直觀簡單，但沒法適應多語言架構，一方面多語言 SDK 對齊是個問題，另外一方面後期 SDK 的維護升級會面臨比較大的困難，成本很高。
代理層收集上報如果所有的 Redis 請求都經過代理的話，可以考慮改動 Proxy 程式碼進行收集，思路與客戶端基本類似。該方案對使用方完全透明，能夠解決客戶端 SDK 的語言異構和版本升級問題，不過開發成本會比客戶端高些。
Redis 資料定時掃描Redis 在 4.0 版本之後新增了 hotkeys 查詢特性[1]，可以直接利用 redis-cli --hotkeys 獲取當前 keyspace 的熱點 key，實現上是通過 scan + object freq 完成的。該方案無需二次開發，能夠直接利用現成的工具，但由於需要掃描整個 keyspace，實時性上比較差，另外掃描耗時與 key 的數量正相關，如果 key 的數量比較多，耗時可能會非常長。
Redis 節點抓包解析在可能存在熱 key 的節點上(流量傾斜判斷)，通過 tcpdump 抓取一段時間內的流量並上報，然後由一個外部的程式進行解析、聚合和計算。該方案無需侵入現有的 SDK 或者 Proxy 中介軟體，開發維護成本可控，但也存在缺點的，具體是熱 key 節點的網路流量和系統負載已經比較高了，抓包可能會情況進一步惡化。

Redis 的 Monitor 命令不在考慮之列，原因是開銷比較大，單個 monitor 的 client 會降低 50% 的系統吞吐，更多詳情見: https://redis.io/commands/monitor

我們的選擇

由於在餓了麼內部，所有的 Redis 請求都是經過透明代理 Samaritan[2] 的，並且該代理是由我們自己開發維護的，在代理層改造的成本完全受控，因此我們選擇了方案二，即在代理層進行收集上報。

大的方向確定之後，需要考慮具體的細節，比如:

記錄所有請求如何能夠保證不佔用過多的記憶體甚至 OOM ?
記錄所有請求如何能夠保證代理的效能, 請求耗時不會有明顯的上升?

針對第 1 點，既然我們只關心熱 key 而不是要統計所有 key 的 counter，那麼就可以用 LFU 只保留訪問頻次最高的，第 2 點則需要結合代理具體的實現去考慮。