最近,由於業務屬性比較重要,對服務釋出提出了更高的要求,希望能實現不停服釋出。目前,團隊所有專案已經完成基於K8s容器化部署,服務註冊發現基於Nacos,故本文基於該兩前提下進行討論。
基於該架構下,需要解決如下幾個問題:
- K8s Java 應用實現滾動釋出,如果新服務不正常的情況下,不將新服務釋出上去,且舊服務不下線
- 服務從Nacos上主動下線,讓流量不再流入
K8s 滾動釋出
K8s 已天然支援滾動釋出的機制,只需要簡單的配置就可以實現我們的要求,如下是具體配置摘要,我將從上到下進行說明。
apiVersion: apps/v1
kind: Deployment
metadata:
labels:
app: example-service
name: example-service
spec:
#副本數量
replicas: {{.pod_replicas}}
selector:
matchLabels:
app: example-service
minReadySeconds: 30 #設定升級延遲時間15秒,等待15秒後升級
strategy:
type: RollingUpdate
rollingUpdate:
maxSurge: 1 #升級過程中最多可以比原先設定多出的POD數量
maxUnavailable: 0
template:
metadata:
labels:
app: example-service
monitortype: backend
spec:
#以下內容為可選,容器排程策略,保證同一deployment的多個副本位於不同的機器上,防止單節點掛掉導致服務不可用,由於涉及到要與運維溝通資源情況,無法直接給予固定配置。
affinity:
podAntiAffinity:
requiredDuringSchedulingIgnoredDuringExecution:
- labelSelector:
matchExpressions:
- key: app
operator: In
values:
- example-service
topologyKey: kubernetes.io/hostname
containers:
- image: example-service:latest
imagePullPolicy: IfNotPresent
name: example-service
lifecycle:
preStop:
exec:
command:
- 'sh'
- '-c'
- 'curl http://127.0.0.1:8080/actuator/deregister;sleep 30;curl -X POST http://127.0.0.1:8080/actuator/shutdown;'
readinessProbe: # 就緒探針
httpGet:
path: /actuator/health/readiness
port: 8080
initialDelaySeconds: 30 # 延遲載入時間
periodSeconds: 10 # 重試時間間隔
timeoutSeconds: 1 # 超時時間設定
successThreshold: 1 # 健康閾值
failureThreshold: 3 # 不健康閾值
livenessProbe: # 存活探針
httpGet:
path: /actuator/health/liveness
port: 8080
initialDelaySeconds: 30 # 延遲載入時間
periodSeconds: 10 # 重試時間間隔
timeoutSeconds: 1 # 超時時間設定
successThreshold: 1 # 健康閾值
failureThreshold: 3 # 不健康閾值
ports:
- containerPort: 8080
name: backend
protocol: TCP
envFrom:
- configMapRef:
#存放公共環境變數,比如:資料庫,redis,nacos等連線資訊,每個專案的各個微服務基本都是一樣的。
name: pub-cm
- configMapRef:
#存放個性化配置,對於個別的服務,除了公共變數外,會涉及其他引用資訊。
name: example-service-cm
env:
- name: POD_NAME
valueFrom:
fieldRef:
apiVersion: v1
fieldPath: metadata.name
resources:
#設定以下是設定服務資源根據你的專案實際情況來
limits: # limits是代表的資源上限,服務能消耗的資源上限
cpu: {{.pod_cpu_limit}} #{limits_cpu}(必須),目前預設單位為m,如果申請一核則為1024m,以此類推,預設則為500m
memory: {{.pod_memory_limit}} #{limits_mem}(必須),目前預設單位為Mi,如果申請1G記憶體則為1024Mi,以此類推,預設則為2048Mi
requests: # requests是服務所需最小的啟動資源,設定後如果node達不到這個資源要求就會部署失敗
cpu: {{.pod_cpu_request}} #{requests_cpu}(必須),目前預設單位為m,如果申請一核則為1024m,以此類推,預設則為250m
memory: {{.pod_memory_request}} #{requests_mem}(必須),目前預設單位為Mi,如果申請1G記憶體則為1024Mi,以此類推,預設則為500Mi
# 以下為必須選項,專案做日誌採集
volumeMounts:
- name: host-time
readOnly: true
mountPath: /etc/localtime
- name: example-service-log
mountPath: /home/logs # 如果接入日誌必須存在容器內/home/logs資料夾下存放日誌檔案
subPathExpr: $(POD_NAME)
volumes:
- name: example-service-log
hostPath:
path: /home/logs
type: DirectoryOrCreate
- name: host-time
hostPath:
path: /etc/localtime
type: ''
imagePullSecrets: # 寫死,前提是要執行這個憑證建立命令
- name: harborha-secret001fe
---
apiVersion: policy/v1beta1
kind: PodDisruptionBudget #設定pod最小可用數量
metadata:
name: example-service-pdb
spec:
minAvailable: 50%
selector:
matchLabels:
app: example-service
RollingUpdate 用於配置服務滾動升級的策略,maxSurge設定升級過程中最多可以比原先設定多出的POD數量。
preStop 在容器下線前執行的操作,我這邊是希望他先呼叫 Spring Boot Actuator提供的下線介面,讓服務正常業務處理完後,下線掉。
readinessProbe 與 livenessProbe 都是探針,不同的地方是 readinessProbe 在容器啟動時,會檢查服務是否啟動完全和正常,正常後Pod才會被顯示正常,這種在使用Service或者Ingress的時候非常有用,livenessProbe 則是週期性檢查服務的健康性,如果服務不健康將下線掉服務。
需要注意 readinessProbe 的 initialDelaySeconds 是在服務啟動時開始計時,基於服務本身啟動時間設定一個相對合理的時間,以提高成功率。
PodDisruptionBudget 該控制器主要是透過設定應用 Pod 處於正常狀態的最低個數或最低百分比,這樣可以保證在主動銷燬 Pod 的時候,不會銷燬太多的 Pod 導致業務異常中斷,從而提高業務的可用性。
PodDisruptionBudget與Deployment中 RollingUpdate 配置說明
在滾動更新的時候,會根據RollngUpdate 配置來,在Eviction(主動驅逐保護,e.g.存在不健康的節點,下線服務)會根據PDB策略來。
Nacos主動下線
我們想象一種場景,A服務透過Nacos服務註冊發現LoadBalance方式直接呼叫B服務,即使B服務容器已經被銷燬,但如果A服務中還存在舊B服務的地址,那麼就會呼叫異常,所以我們希望B服務下線的時候,A服務是有感知的,故我們選擇在主動通知Nacos服務下線服務,同時,由Nacos去通知其他服務下線通知。
新建一個Endpoint,該方式是基於Spring Boot 2.7.X 版本的,其他版本可能有所區別。
@WebEndpoint(id = "deregister")
@Slf4j
@ConditionalOnClass(value = WebEndpoint.class)
public class NacosServiceDeregisterEndpoint {
private final NacosDiscoveryProperties nacosDiscoveryProperties;
private final NacosRegistration nacosRegistration;
private final NacosServiceRegistry nacosServiceRegistry;
public NacosServiceDeregisterEndpoint(NacosDiscoveryProperties nacosDiscoveryProperties, NacosRegistration nacosRegistration, NacosServiceRegistry nacosServiceRegistry) {
this.nacosDiscoveryProperties = nacosDiscoveryProperties;
this.nacosRegistration = nacosRegistration;
this.nacosServiceRegistry = nacosServiceRegistry;
}
@ReadOperation
public String deregisterEndPoint() {
String serviceName = nacosDiscoveryProperties.getService();
String groupName = nacosDiscoveryProperties.getGroup();
String clusterName = nacosDiscoveryProperties.getClusterName();
String ip = nacosDiscoveryProperties.getIp();
int port = nacosDiscoveryProperties.getPort();
log.info("Deregister from the Nacos, ServiceName:{}, GroupName:{}, ClusterName:{}, IP:{}, Port:{}", serviceName, groupName, clusterName, ip, port);
// 設定服務下線
nacosServiceRegistry.setStatus(nacosRegistration, "DOWN");
return "success";
}
}
增加和修改bootstrap.yaml
配置
management:
endpoint:
health:
show-details: always
probes:
enabled: true
metrics:
enabled: true
shutdown:
enabled: true
endpoints:
web:
exposure:
include: "health,shutdown,metrics,deregister"
server:
port: 8080
metrics:
tags:
application: ${spring.application.name}
後續
其實上方我們還遺漏一個問題——“服務更新時,服務已經成功註冊到 Nacos,但容器還沒有被檢測為健康,此時流量打到新節點上。”這種情況應該怎麼解決。其實不用苦惱,Nacos 自身已經能保證在服務啟動完全之後,才會註冊到 Nacos 服務列表上。