Pulsar3.0 升級指北

crossoverJie發表於2023-12-25

Pulsar3.0-upgrade.png

Pulsar3.0 介紹

Pulsar3.0 是 Pulsar 社群推出的第一個 LTS 長期支援版本。

image.png

如圖所示,LTS 版本會最長支援到 36 個月,而 Feature 版本最多隻有六個月;類似於我們使用的 JDK11,17,21 都是可以長期使用的;所以也推薦大家都升級到 LTS 版本。


作為首個 LTS 版本,3.0 自然也是自帶了許多新特性,這個會在後續介紹。

升級指南

先來看看升級指南:
image.png
在官方的相容表中會發現:不推薦跨版本升級。

也就是說如果你現在還在使用的是 2.10.x,那麼推薦是先升級到 2.11.x 然後再升級到 3.0.x.

而且根據我們的使用經驗來看,首個版本是不保險的,即便是 LTS 版本;
所以不推薦直接升級到 3.0.0,而是更推薦 3.0.1+,這個小版本會修復 3.0 所帶來的一些 bug。

先講一下我們的升級流程,大家可以用做參考。

升級前準備

根據我們的使用場景,為了以防萬一,首先需要將我們的外掛依賴升級到對應的版本。
image.png
其實簡單來說就是更新下依賴,然後再重新打包,在後續的流程進行測試。

預熱映象

之後是預熱映象,我們使用 harbor 搭建了自己的 docker 映象倉庫,這樣在升級重啟映象的時候可以更快的從內網拉取映象。

畢竟一個 pulsar-all 的映象也不小,儘量的縮短啟動時間。

預熱的過程也很簡單:

docker pull apachepulsar/pulsar-all:3.0.1

docker tag apachepulsar/pulsar-all:3.0.1 harbor-private.xx.com/pulsar/pulsar-all:3.0.1

docker image push harbor-private.xx.com/pulsar/pulsar-all:3.0.1

之後升級的時候就可以使用私服的映象了。

功能測試

我這邊有寫了一個 cli 可以幫我快速建立或升級一個叢集,然後觸發我所編寫的功能測試。

./pulsar-upgrade-cli upgrade pulsar-test ./charts/pulsar --version x.x.x -f charts/pulsar/values.yaml -n pulsar-test

這個 cli 很簡單,一共就做三件事:

  • 使用 helm 介面升級叢集
  • 等待所有的 Pod 都升級成功
  • 觸發功能測試

之後的效果如下:
image.png

主要就是覆蓋了我們的使用場景,都跑透過之後才會走後續的流程。

執行監控

image.png

之後會啟動一個 200 左右的併發生產和消費資料,模擬線上的使用情況,會一直讓這個任務跑著,大概一晚上就可以了,第二天透過監控檢視:

  • 應用有無異常日誌
  • 流量是否正常
  • 各個元件的記憶體佔用
  • 寫入延遲等資訊

升級步驟

元件的升級步驟這裡參考了官方指南:
https://pulsar.apache.org/docs/3.1.x/administration-upgrade/#upgrade-zookeeper-optional
image.png

  • 升級ZK
  • 關閉auto recovery
  • 升級Bookkeeper
  • 升級Broker
  • 升級Proxy
  • 開啟auto recovery

只要一步步按照這個流程走,問題不大,哪一步出現問題後需要及時回滾,回滾流程參考下面的回滾部分。

同時在升級過程中需要一直檢視 broker 的 error 日誌,如果有明顯的不符合預期的日誌一定要注意。

在升級 bookkeeper 的時候,broker 可能會出現 bk 連線失敗的異常,這個可以不用在意。

線上驗證

都升級完後就是線上業務驗證環節了:

異常回滾

當出現異常的時候需要立即回滾,這裡的異常一般就是訊息收發異常,客戶端掉線等。

經過我的測試 3.0.x 的儲存和之前的版本是相容的,所以 bookkeeper 都能降級其他的元件就沒啥可擔心的了。

需要降級時直接將所有元件降級為上一個版本即可。

災難恢復

因為是從 2.x 升級到 3.x 也是涉及到了跨大版本,所以也準備了災難恢復的方案。

比如極端情況下升級失敗,所有資料丟失的情況。

整個災難恢復的主要目的就是恢復後的叢集對外提供的域名不發生變化,同時所有的客戶端可以自動重連上來,也就是最壞的情況下所有的資料丟了可以接受,但不能影響業務正常使用。

所以我們的流程如下:

備份 topic

@SneakyThrows  
@Test  
void backup(){  
    List<String> topicList = pulsarAdmin.topics().getPartitionedTopicList("tenant/namespace");  
    log.info("topic size={}",topicList.size());  
    // create a custom thread pool  
    CopyOnWriteArrayList<TopicMeta> dataList = new CopyOnWriteArrayList<>();  
    ExecutorService customThreadPool = Executors.newFixedThreadPool(10);  
    for (String topicName : topicList) {  
        customThreadPool.execute(()-> {  
            PartitionedTopicMetadata metadata;  
            try {  
                metadata = pulsarAdmin.topics().getPartitionedTopicMetadata(topicName);  
                TopicMeta topicMeta = new TopicMeta();  
  
                // backup topic  
                topicMeta.setName(topicName);  
                topicMeta.setPartition(metadata.partitions);  
  
                // backup permission  
                Map<String, Set<AuthAction>> permissions = pulsarAdmin.topics().getPermissions(topicName);  
                topicMeta.setPermissions(permissions);  
  
                // back sub  
                List<String> subscriptions = new ArrayList<>();  
                PartitionedTopicStats topicStats = pulsarAdmin.topics().getPartitionedStats(topicName, true);  
                topicStats.getSubscriptions().forEach((k,v)-> subscriptions.add(k));  
                topicMeta.setSubscriptions(subscriptions);  
  
                dataList.add(topicMeta);  
            } catch (PulsarAdminException e) {  
                throw new RuntimeException(e);  
            }        });    }  
    customThreadPool.shutdown();  
    while (!customThreadPool.isTerminated()) {  
    }  
    log.info("{}",dataList.size());  
    log.info("{}",JSONUtil.toJsonStr(dataList));  
}


// TopicMetaData
@Data  
public class TopicMeta {  
    private String name;  
    private int partition;  
    Map<String, Set<AuthAction>> permissions;  
    List<String> subscriptions = new ArrayList<>();  
}

第一步是備份 topic:

  • topic 主要是名稱和分割槽數量
  • 備份許可權
  • 備份 topic 的訂閱者

公私鑰備份

因為我們客戶端使用了 JWT 驗證,所有為了使得恢復的 Pulsar 叢集可以讓客戶端無縫切換到新叢集,因此必須得使用相同的公私鑰。

這個其實比較簡單,我們使用的是 helm 安裝的叢集,所以只需要備份好 Secret 即可。

apiVersion: v1  
data:  
  PRIVATEKEY: XXX  
  PUBLICKEY: XXX 
kind: Secret  
metadata:  
  name: pulsar-token-asymmetric-key  
  namespace: pulsar  
type: Opaque  

# 還有幾個 superUser 的 Secret

資料恢復

建立新叢集

首先使用 helm 重新建立一個新叢集:

./scripts/pulsar/prepare_helm_release.sh -n pulsar -k pulsar

helm install \    --values charts/pulsar/values.yaml \    --set namespace=pulsar\  
    --set initialize=true \  
    pulsar ./charts/pulsar -n pulsar

恢復公私鑰

直接使用剛才備份的公私鑰覆蓋到新叢集即可。

恢復namespace

進入 toolset pod 建立需要使用的 tenant/namespace

k exec -it pulsar-toolset-0 -n pulsar bash

bin/pulsar-admin tenants create tenant

bin/pulsar-admin namespaces create tenant/namespace

後設資料恢復

之後便是最重要的後設資料恢復了:

@SneakyThrows  
@Test  
void restore() {  
    PulsarAdmin pulsarAdmin = PulsarAdmin.builder().serviceHttpUrl("http://url:8080")  
            .authentication(AuthenticationFactory.token(token))  
            .build();  
    Path filePath = Path.of("restore-ns.json");  
    String fileContent = Files.readString(filePath);  
    List<TopicMeta> topicMetaList = JSON.parseArray(fileContent, TopicMeta.class);  
    ExecutorService customThreadPool = Executors.newFixedThreadPool(50);  
    for (TopicMeta topicMeta : topicMetaList) {  
        customThreadPool.execute(() -> {  
            // Create topic  
            try {  
                pulsarAdmin.topics().createPartitionedTopic(topicMeta.getName(), topicMeta.getPartition());  
            } catch (PulsarAdminException e) {  
                log.error("Create topic error");  
            }  
            // Create sub  
            for (String subscription : topicMeta.getSubscriptions()) {  
                try {  
                    pulsarAdmin.topics().createSubscription(topicMeta.getName(), subscription, MessageId.latest);  
                } catch (PulsarAdminException e) {  
                    log.error("createSubscription error");  
                }            }  
            // Grant permission  
            topicMeta.getPermissions().forEach((role, authActions) -> {  
                permission(pulsarAdmin, topicMeta.getName(), role, authActions);  
            });  
            log.info("topic:{} restore success", topicMeta.getName());  
  
  
        });    }  
    customThreadPool.shutdown();  
    while (!customThreadPool.isTerminated()) {  
    }    log.info("restore success");  
}


private synchronized void permission(PulsarAdmin pulsarAdmin, String topic, String role, Set<AuthAction> authActions) {  
    try {  
        pulsarAdmin.topics().grantPermission(topic, role, authActions);  
    } catch (PulsarAdminException e) {  
        log.error("grantPermission error", e);  
    }  
}

流程和備份類似:

  • 建立分割槽 topic
  • 建立訂閱者
  • 授權角色資訊

因為授權介面限制了併發呼叫,所有需要加鎖,導致整個恢復的流程就會比較慢。

8000 topic 的 namespace 大概恢復時間為 40min 左右。

之後依次恢復其他 namespace 即可。

恢復 police

admin.namespaces().setNamespaceMessageTTL("tenant/namespace", 3600 * 6);
admin.namespaces().setBacklogQuota("tenant/namespace", BacklogQuota)

如果之前的叢集有設定 TTL 或者是 backlogQuota 時都需要手動恢復。

總結

以上就是整個升級和災難恢復的流程,當然災難恢復希望大家不要碰到。

我會在下一篇詳細介紹 Pulsar 3.0 的新功能以及所碰到的一些坑。

相關文章