Pulsar負載均衡原理及最佳化

crossoverJie發表於2023-02-07

原文網址 : https://segmentfault.com/a/1190000043392078

負載

前言

前段時間我們在升級 Pulsar 版本的時候發現升級後最後一個節點始終沒有流量。

雖然對業務使用沒有任何影響，但負載不均會導致資源的浪費。

和同事溝通後得知之前的升級也會出現這樣的情況，最終還是人工呼叫 Pulsar 的 admin API 完成的負載均衡。

這個問題我嘗試在 Google 和 Pulsar 社群都沒有找到類似的，不知道是大家都沒碰到還是很少升級叢集。

我之前所在的公司就是一個版本走到黑?

Pulsar 負載均衡原理

當一個叢集可以水平擴充套件後負載均衡就顯得非常重要，根本目的是為了讓每個提供服務的節點都能均勻的處理請求，不然擴容就沒有意義了。

在分析這個問題的原因之前我們先看看 Pulsar 負載均衡的實現方案。

# Enable load balancer
loadBalancerEnabled=true

我們可以透過這個 broker 的這個配置來控制負載均衡器的開關，預設是開啟。

但具體使用哪個實現類來作為負載均衡器也可以在配置檔案中指定：

# Name of load manager to use
loadManagerClassName=org.apache.pulsar.broker.loadbalance.impl.ModularLoadManagerImpl

預設使用的是 ModularLoadManagerImpl。

    static LoadManager create(final PulsarService pulsar) {
        try {
            final ServiceConfiguration conf = pulsar.getConfiguration();
            // Assume there is a constructor with one argument of PulsarService.
            final Object loadManagerInstance = Reflections.createInstance(conf.getLoadManagerClassName(),
                    Thread.currentThread().getContextClassLoader());
            if (loadManagerInstance instanceof LoadManager) {
                final LoadManager casted = (LoadManager) loadManagerInstance;
                casted.initialize(pulsar);
                return casted;
            } else if (loadManagerInstance instanceof ModularLoadManager) {
                final LoadManager casted = new ModularLoadManagerWrapper((ModularLoadManager) loadManagerInstance);
                casted.initialize(pulsar);
                return casted;
            }
        } catch (Exception e) {
            LOG.warn("Error when trying to create load manager: ", e);
        }
        // If we failed to create a load manager, default to SimpleLoadManagerImpl.
        return new SimpleLoadManagerImpl(pulsar);
    }

當 broker 啟動時會從配置檔案中讀取配置進行載入，如果載入失敗會使用 SimpleLoadManagerImpl 作為兜底策略。

當 broker 是一個叢集時，只有 leader 節點的 broker 才會執行負載均衡器的邏輯。

Leader 選舉是透過 Zookeeper 實現的。

默然情況下成為 Leader 節點的 broker 會每分鐘讀取各個 broker 的資料來判斷是否有節點負載過高需要做重平衡。

而是否重平衡的判斷依據是由 org.apache.pulsar.broker.loadbalance.LoadSheddingStrategy 介面提供的，它其實只有一個函式：

public interface LoadSheddingStrategy {

    /**
     * Recommend that all of the returned bundles be unloaded.
     * @return A map from all selected bundles to the brokers on which they reside.
     */
    Multimap<String, String> findBundlesForUnloading(LoadData loadData, ServiceConfiguration conf);
}

根據所有 broker 的負載資訊計算出一個需要被 unload 的 broker 以及 bundle。

這裡解釋下 unload 和 bundle 的概念：

bundle 是一批 topic 的抽象，將 bundle 和 broker 進行關聯後客戶端才能知道應當連線哪個 broker；而不是直接將 topic 與 broker 繫結，這樣才能實現海量 topic 的管理。
unload 則是將已經與 broker 繫結的 bundle 手動解綁，從而觸發負載均衡器選擇一臺合適的 broker 重新進行繫結；通常是整個叢集負載不均的時候觸發。

ThresholdShedder 原理

LoadSheddingStrategy 介面目前有三個實現，這裡以官方預設的 ThresholdShedder 為例：

它的實現演算法是根據頻寬、記憶體、流量等各個指標的權重算出每個節點的負載值，之後為整個叢集計算出一個平均負載值。

# 閾值
loadBalancerBrokerThresholdShedderPercentage=10

當叢集中有某個節點的負載值超過平均負載值達到一定程度（可配置的閾值）時，就會觸發 unload，以上圖為例就會將最左邊節點中紅色部分的 bundle 解除安裝掉，然後再重新計算一個合適的 broker 進行繫結。

閾值存在的目的是為了避免頻繁的 unload，從而影響客戶端的連線。

問題原因

當某些 topic 的流量突然爆增的時候這種負載策略確實可以處理的很好，但在我們叢集升級的情況就不一定了。

假設我這裡有三個節點：

broker0
broker1
broker2

叢集升級時會從 broker2->0 進行映象替換重啟，假設在升級前每個 broker 的負載值都是 10。

重啟 broker2 時，它所繫結的 bundle 被 broker0/1 接管。
升級 broker1 時，它所繫結的 bundle 又被 broker0/2 接管。
最後升級 broker0, 它所繫結的 bundle 會被broker1/2 接管。

只要在這之後沒有發生流量激增到觸發負載的閾值，那麼當前的負載情況就會一直保留下去，也就是 broker0 會一直沒有流量。

經過我反覆測試，現象也確實如此。

./pulsar-perf monitor-brokers --connect-string pulsar-test-zookeeper:2181

透過這個工具也可以檢視各個節點的負載情況

最佳化方案

這種場景是當前 ThresholdShedder 所沒有考慮到的，於是我在我們所使用的版本 2.10.3 的基礎上做了簡單的最佳化：

當原有邏輯走完之後也沒有獲取需要需要解除安裝的 bundle，同時也存在一個負載極低的 broker 時(emptyBundle)，再觸發一次 bundle 查詢。
按照 broker 所繫結的數量排序，選擇一個數量最多的 broker 的第一個 bundle 進行解除安裝。

修改後打包釋出，再走一遍升級流程後整個叢集負載就是均衡的了。

但其實這個方案並不嚴謹，第二步選擇的重點是篩選出負載最高的叢集中負載最高的 bundle；這裡只是簡單的根據數量來判斷，並不夠準確。

正當我準備持續最佳化時，鬼使神差的我想看看 master 上有人修復這個問題沒，結果一看還真有人修復了；只是還沒正式發版。

https://github.com/apache/pulsar/pull/17456

整體思路是類似的，只是篩選負載需要解除安裝 bundle 時是根據 bundle 自身的流量來的，這樣會更加精準。

總結

不過看社群的進度等這個最佳化最終能用還不知道得多久，於是我們就自己參考這個思路在管理臺做了類似的功能，當升級後出現負載不均衡時人工觸發一個邏輯：

系統根據各個節點的負載情況計算出一個負載最高的節點和 bundle 在頁面上展示。
人工二次確認是否要解除安裝，確認無誤後進行解除安裝。

本質上只是將上述最佳化的自動負載流程改為人工處理了，經過測試效果是一樣的。

Pulsar 整個專案其實非常龐大，有著幾十上百個模組，哪怕每次我只改動一行程式碼準備釋出測試時都得經過漫長的編譯+ Docker映象打包+上傳私服這些流程，通常需要1~2個小時；但總的來說收穫還是很大的，最近也在提一些 issue 和 PR，希望後面能更深入的參與進社群。

Dubbo 路由及負載均衡效能最佳化
2023-10-26
路由負載
伺服器負載均衡原理及實現
2019-01-21
伺服器負載
nginx負載均衡原理分析到手動編寫簡易負載均衡器
2021-04-15
Nginx負載
Istio流量治理原理之負載均衡
2019-07-08
負載
負載均衡是什麼？怎麼理解負載均衡的部署方式和工作原理
2021-12-13
負載
nginx自定義負載均衡及根據cpu執行自定義負載均衡
2023-04-16
Nginx負載
使用LVS實現負載均衡原理及安裝配置詳解
2020-12-09
負載
nginx安裝及負載均衡配置
2024-11-26
Nginx負載
gRPC負載均衡（自定義負載均衡策略）
2020-05-20
RPC負載
gRPC負載均衡（客戶端負載均衡）
2020-05-18
RPC負載客戶端
負載均衡
2024-05-05
負載
Linux環境下Nginx及負載均衡
2019-05-15
LinuxNginx負載
orleans叢集及負載均衡實現
2022-01-15
負載
Spring Cloud之負載均衡元件Ribbon原理分析
2022-04-13
SpringCloud負載元件
如何最佳化負載均衡？一文講懂
2023-11-10
負載
IP負載均衡
2018-09-29
負載
WebSocket負載均衡
2018-08-06
Web負載
nginx負載均衡
2024-03-13
Nginx負載
NGINX 負載均衡
2019-11-17
Nginx負載
【Nginx】負載均衡
2024-06-13
Nginx負載
負載均衡---ribbon
2018-04-19
負載
LoadBalancer負載均衡
2022-03-07
負載
LVS 負載均衡
2022-12-15
負載
負載均衡技術（一）———負載均衡技術介紹
2018-11-15
負載
解密負載均衡技術和負載均衡演算法
2022-11-10
解密負載演算法
5大負載均衡演算法 (原理圖解)
2022-10-24
負載演算法圖解
負載均衡技術(二）———常用負載均衡服務介紹
2018-11-15
負載
【知識分享】四層負載均衡和七層負載均衡
2023-01-30
負載
Nginx負載均衡模式
2019-03-19
Nginx負載模式
漫談負載均衡
2019-03-01
負載
負載均衡簡介
2018-10-24
負載
golang grpc 負載均衡
2018-06-24
GolangRPC負載
gRPC的負載均衡
2024-03-19
RPC負載
負載均衡詳解
2023-10-12
負載
負載均衡知多少？
2019-08-12
負載
Linux LVS 負載均衡
2019-07-30
Linux負載
淺談負載均衡
2020-08-10
負載
負載均衡叢集
2020-10-14
負載

Pulsar負載均衡原理及最佳化

前言

Pulsar 負載均衡原理

ThresholdShedder 原理

問題原因

最佳化方案

總結

相關文章