Spring Boot + Nacos 實現不停服釋出

跡_Jason發表於2023-05-15

最近,由於業務屬性比較重要,對服務釋出提出了更高的要求,希望能實現不停服釋出。目前,團隊所有專案已經完成基於K8s容器化部署,服務註冊發現基於Nacos,故本文基於該兩前提下進行討論。

基於該架構下,需要解決如下幾個問題:

  1. K8s Java 應用實現滾動釋出,如果新服務不正常的情況下,不將新服務釋出上去,且舊服務不下線
  2. 服務從Nacos上主動下線,讓流量不再流入

K8s 滾動釋出

K8s 已天然支援滾動釋出的機制,只需要簡單的配置就可以實現我們的要求,如下是具體配置摘要,我將從上到下進行說明。

apiVersion: apps/v1
kind: Deployment
metadata:
  labels:
    app: example-service
  name: example-service
spec:
  #副本數量
  replicas: {{.pod_replicas}}
  selector:
    matchLabels:
      app: example-service
  minReadySeconds: 30 #設定升級延遲時間15秒,等待15秒後升級
  strategy:
    type: RollingUpdate
    rollingUpdate:
      maxSurge: 1   #升級過程中最多可以比原先設定多出的POD數量
      maxUnavailable: 0
  template:
    metadata:
      labels:
        app: example-service
        monitortype: backend
    spec:
      #以下內容為可選,容器排程策略,保證同一deployment的多個副本位於不同的機器上,防止單節點掛掉導致服務不可用,由於涉及到要與運維溝通資源情況,無法直接給予固定配置。
      affinity:
        podAntiAffinity:
          requiredDuringSchedulingIgnoredDuringExecution:
            - labelSelector:
                matchExpressions:
                  - key: app
                    operator: In
                    values:
                      - example-service
              topologyKey: kubernetes.io/hostname
      containers:
        - image: example-service:latest
          imagePullPolicy: IfNotPresent
          name: example-service
          lifecycle:
            preStop:
              exec:
                command:
                  - 'sh'
                  - '-c'
                  - 'curl http://127.0.0.1:8080/actuator/deregister;sleep 30;curl -X POST http://127.0.0.1:8080/actuator/shutdown;'      
          readinessProbe:                # 就緒探針
            httpGet:
              path: /actuator/health/readiness
              port: 8080
            initialDelaySeconds: 30      # 延遲載入時間
            periodSeconds: 10            # 重試時間間隔
            timeoutSeconds: 1            # 超時時間設定
            successThreshold: 1          # 健康閾值
            failureThreshold: 3          # 不健康閾值
          livenessProbe:                 # 存活探針
            httpGet:
              path: /actuator/health/liveness
              port: 8080
            initialDelaySeconds: 30      # 延遲載入時間
            periodSeconds: 10            # 重試時間間隔
            timeoutSeconds: 1            # 超時時間設定
            successThreshold: 1          # 健康閾值
            failureThreshold: 3          # 不健康閾值
          ports:
            - containerPort: 8080
              name: backend
              protocol: TCP
          envFrom:
            - configMapRef:
                #存放公共環境變數,比如:資料庫,redis,nacos等連線資訊,每個專案的各個微服務基本都是一樣的。
                name: pub-cm
            - configMapRef:
                #存放個性化配置,對於個別的服務,除了公共變數外,會涉及其他引用資訊。
                name: example-service-cm
          env:
            - name: POD_NAME
              valueFrom:
                fieldRef:
                  apiVersion: v1
                  fieldPath: metadata.name
          resources:
            #設定以下是設定服務資源根據你的專案實際情況來
            limits: # limits是代表的資源上限,服務能消耗的資源上限
              cpu: {{.pod_cpu_limit}} #{limits_cpu}(必須),目前預設單位為m,如果申請一核則為1024m,以此類推,預設則為500m
              memory: {{.pod_memory_limit}} #{limits_mem}(必須),目前預設單位為Mi,如果申請1G記憶體則為1024Mi,以此類推,預設則為2048Mi
            requests: # requests是服務所需最小的啟動資源,設定後如果node達不到這個資源要求就會部署失敗
              cpu: {{.pod_cpu_request}} #{requests_cpu}(必須),目前預設單位為m,如果申請一核則為1024m,以此類推,預設則為250m
              memory: {{.pod_memory_request}} #{requests_mem}(必須),目前預設單位為Mi,如果申請1G記憶體則為1024Mi,以此類推,預設則為500Mi
          # 以下為必須選項,專案做日誌採集
          volumeMounts:
            - name: host-time
              readOnly: true
              mountPath: /etc/localtime
            - name: example-service-log
              mountPath: /home/logs # 如果接入日誌必須存在容器內/home/logs資料夾下存放日誌檔案
              subPathExpr: $(POD_NAME)
      volumes:
        - name: example-service-log
          hostPath:
            path: /home/logs
            type: DirectoryOrCreate
        - name: host-time
          hostPath:
            path: /etc/localtime
            type: ''
      imagePullSecrets: # 寫死,前提是要執行這個憑證建立命令
        - name: harborha-secret001fe
---
apiVersion: policy/v1beta1
kind: PodDisruptionBudget #設定pod最小可用數量
metadata:
  name: example-service-pdb
spec:
  minAvailable: 50%
  selector:
    matchLabels:
      app: example-service

RollingUpdate 用於配置服務滾動升級的策略,maxSurge設定升級過程中最多可以比原先設定多出的POD數量。

preStop 在容器下線前執行的操作,我這邊是希望他先呼叫 Spring Boot Actuator提供的下線介面,讓服務正常業務處理完後,下線掉。

readinessProbe 與 livenessProbe 都是探針,不同的地方是 readinessProbe 在容器啟動時,會檢查服務是否啟動完全和正常,正常後Pod才會被顯示正常,這種在使用Service或者Ingress的時候非常有用,livenessProbe 則是週期性檢查服務的健康性,如果服務不健康將下線掉服務。

需要注意 readinessProbe 的 initialDelaySeconds 是在服務啟動時開始計時,基於服務本身啟動時間設定一個相對合理的時間,以提高成功率。

PodDisruptionBudget 該控制器主要是透過設定應用 Pod 處於正常狀態的最低個數或最低百分比,這樣可以保證在主動銷燬 Pod 的時候,不會銷燬太多的 Pod 導致業務異常中斷,從而提高業務的可用性。

PodDisruptionBudget與Deployment中 RollingUpdate 配置說明

在滾動更新的時候,會根據RollngUpdate 配置來,在Eviction(主動驅逐保護,e.g.存在不健康的節點,下線服務)會根據PDB策略來。

Nacos主動下線

我們想象一種場景,A服務透過Nacos服務註冊發現LoadBalance方式直接呼叫B服務,即使B服務容器已經被銷燬,但如果A服務中還存在舊B服務的地址,那麼就會呼叫異常,所以我們希望B服務下線的時候,A服務是有感知的,故我們選擇在主動通知Nacos服務下線服務,同時,由Nacos去通知其他服務下線通知。

新建一個Endpoint,該方式是基於Spring Boot 2.7.X 版本的,其他版本可能有所區別。

@WebEndpoint(id = "deregister")
@Slf4j
@ConditionalOnClass(value = WebEndpoint.class)
public class NacosServiceDeregisterEndpoint {
    private final NacosDiscoveryProperties nacosDiscoveryProperties;

    private final NacosRegistration nacosRegistration;

    private final NacosServiceRegistry nacosServiceRegistry;

    public NacosServiceDeregisterEndpoint(NacosDiscoveryProperties nacosDiscoveryProperties, NacosRegistration nacosRegistration, NacosServiceRegistry nacosServiceRegistry) {
        this.nacosDiscoveryProperties = nacosDiscoveryProperties;
        this.nacosRegistration = nacosRegistration;
        this.nacosServiceRegistry = nacosServiceRegistry;
    }

    @ReadOperation
    public String deregisterEndPoint() {
        String serviceName = nacosDiscoveryProperties.getService();
        String groupName = nacosDiscoveryProperties.getGroup();
        String clusterName = nacosDiscoveryProperties.getClusterName();
        String ip = nacosDiscoveryProperties.getIp();
        int port = nacosDiscoveryProperties.getPort();

        log.info("Deregister from the Nacos, ServiceName:{}, GroupName:{}, ClusterName:{}, IP:{}, Port:{}", serviceName, groupName, clusterName, ip, port);

        // 設定服務下線
        nacosServiceRegistry.setStatus(nacosRegistration, "DOWN");

        return "success";
    }
}

增加和修改bootstrap.yaml 配置

management:
  endpoint:
    health:
      show-details: always
      probes:
        enabled: true
    metrics:
      enabled: true
    shutdown:
      enabled: true
  endpoints:
    web:
      exposure:
        include: "health,shutdown,metrics,deregister"
  server:
    port: 8080
  metrics:
    tags:
      application: ${spring.application.name}

後續

其實上方我們還遺漏一個問題——“服務更新時,服務已經成功註冊到 Nacos,但容器還沒有被檢測為健康,此時流量打到新節點上。”這種情況應該怎麼解決。其實不用苦惱,Nacos 自身已經能保證在服務啟動完全之後,才會註冊到 Nacos 服務列表上。

相關文章