尋找 K8s 1.14 Release 裡的“蚌中之珠”

阿里云云棲社群發表於2019-04-03

摘要: K8s 1.14 釋出了,Release Note那麼長,我們該從何讀起?

本文由張磊、心貴、臨石、徙遠、衷源、潯鳴等同學聯合撰寫。

Kubernetes 1.14.0 Release 已經於3月25日正式釋出。相信你也已經注意到,相比於1.13 和 1.12 版本,這次釋出包含的重要變更非常多,其對應的Release Note 的篇幅長度也創下了“新高”。

面對這樣一份“海量資訊”的 Release Note,我們該如何從這份文件裡進行高效的資訊過濾和挖掘,幫助團隊更精準、快速的梳理出這次釋出最主要的技術脈絡呢?

在本篇文章中,我們將 1.14 的Release Note 按照主題進行了重新歸納和梳理,按照類別對重要變更進行了技術剖析和討論。希望這種“分類解讀”的方式,能夠幫助大家更好的理解 1.14 這個釋出的核心內容。

Windows Node 正式生產可用

隨著1.14的釋出,Kubernetes 對windows節點的生產級支援無疑是一個重要的里程碑。具體來說,1.14 版本針對 Windows 做了大量增強;

  • Pod:Pod內支援readiness和liveness探針;支援程式隔離和volume共享的多容器Pod;Pod支援原生configmap和sercret;Pod支援emptyDir;支援對Pod進行資源配額等;但是像優雅刪除、Termination message、Privileged Containers、HugePages、Pod驅逐策略等部分特性還未在1.14版本提供;
  • Service:支援服務環境變數提供DNS解析;支援NodePort、ClusterIP、LoadBalancer、Headless service;暫不支援Pod的hostnetwork模式;
  • 常規 Workload controller:RS、deployment、statefulset、daemonset、job、cronjob均支援windows容器;
  • 除此之外,支援Pod和container維度的metrics、HPA、“kubectl exec”、排程搶佔、resource quotas、CNI 網路支援等多種特性讓windows workload更加雲原生;由於windows的特殊相容性,目前 host OS的版本必須和容器映象OS版本一致,1.14版本支援win server 2019;未來版本中會考慮使用Hyper-V隔離機制來解決版本相容性問題。

而伴隨著 Windows 容器的生態正在慢慢壯大,能夠在生產級別支援 Windows 節點的容器服務開始見諸各大雲廠商。阿里雲容器服務(ACK)近期已經推出了 Windows Container 的支援,提供了linux/windows應用混合部署的統一管理能力。

參見:Support for Windows Nodes is Graduating to Stable (#116 )

本地持久化資料卷(Local PV) 正式可用

長期以來,能夠讓 Kubernetes 直接用宿主機的本地儲存裝置(比如:本地 SSD 硬碟)來提供持久化資料卷(即:Local PV 功能),一直是社群裡非常強烈的一個訴求。這個原因很容易理解:相對於遠端儲存(網路儲存),Local PV 在時延性、易用性、穩定性和費用上具有獨特的優勢,尤其是對於相關特性比較敏感的應用,如資料庫應用和搜尋引擎應用來說,有著重要的意義。

而在 1.14 中,Local PV 終於正式宣佈 GA,為雲上的持久化儲存選擇增加了一種重要的的可能。

不過,必須要明確的是, 選擇使用 Local PV,也意味著使用者必須自己承擔一些潛在的風險,這包括:

  • 目前社群的開源方案無法動態建立卷
  • 排程器需要由額外的排程邏輯工作,以確保排程的節點可以分配出足夠的磁碟容量
  • 容錯性差,如果pod正在執行的宿主機當機或者磁碟發生異常,那麼它的持久化卷裡的資訊可能丟失

第一個問題,可以通過比如阿里雲的 local-volume-provisioner 實現本地 SSD Nvme例項自動建立資料捲來解決,但對於容錯性和健壯性的問題,就是比較棘手的了。

參見:Durable Local Storage Management is Now GA (#121)

Pod 優先順序與搶佔機制穩定可用

Kubernetes 裡的任務優先順序(priority)和搶佔機制(preemption)的目的十分明確:保證高優先順序的任務可以在需要的時候通過搶佔低優先順序任務的方式得到執行。

這其中,優先順序定義了一個Pod在叢集中的重要程度,這個重要程度體現且僅體現在兩個地方:(1)高優先順序的Pod在排程階段更容易被優先排程(K8s採用佇列排程模型),注意這裡並不保證高優先順序Pod永遠被優先排程,實際影響排程順序的因素有很多;(2)在叢集整體負載較高時,如果出現高優先順序Pod無法被排程的情況(叢集中沒有滿足條件的Node供Pod執行),K8s會啟動搶佔機制,通過搶佔已經執行的低優先順序的Pod的方式,讓高優先順序的Pod可以執行起來。搶佔機制便是在這裡引入的。

搶佔機制指當排程器發現某個Pod(如Pod-A)無法在叢集中找到合適的節點部署時(所有節點Predicates全部失敗),會試圖通過刪除一些優先順序低於Pod-A的Pod來“騰出空間”部署Pod-A,這樣Pod-A就可以被排程了。這樣一個“看似簡單”的需求在分散式環境中實施起來有很多細節,例如:如何決定刪除哪個節點的哪些Pod、如何保證為Pod-A騰出的空間不被其它Pod佔用、如何保證Pod-A不被餓死(Starvation)、如何處理有親和性需求的Pod排程約束、是否需要支援跨節點Preemption以支援某些特定的約束(例如某Failure Domain的反親和約束)等等。這些內容,可以參見:Pod Priority and Preemption in Kubernetes (#564)

你一定要知道什麼是 Pod Ready++

在 1.14 版本之前,Kubernetes 判斷一個Pod是否Ready,就是檢查這個Pod的容器是否全部正常執行。但是這裡有個問題,那就是容器或者說裡面的主程式Ready,並不一定意味著這個應用副本就一定是就緒的。為了確認Pod確實可以正常可用,我們希望給它增加一些外部指標(比如,該 Pod 需要的 Service,DNS,儲存等服務全部就緒),來反應這個Pod是否“真正”Ready。

這個特性,就是1.14 裡一個叫做“Pod Readiness Gates”、也叫做 Pod Ready ++ 的特性。它為pod的“Ready 狀態” 提供了一個非常強大的擴充套件點。需要注意的是,使用者需要編寫一個外部控制器(Controller)來為這個Pod Readiness Gates 欄位對應的指標設定值。

參見:Pod Ready++ (#580)

Kubernetes 原生應用管理能力

1.14之後,Kubernetes 專案本身開始具備了原生的應用管理能力,這其中最重要的一個功能,就是 Kustomize。

Kustomize 允許使用者從一個基礎 YAML 檔案,通過 overlay 的方式生成最終部署應用所需的 YAML 檔案,而不是像 Helm 那樣通過字串替換的方式來直接修改基礎 YAML 檔案(模板)。這樣,在一個使用者通過 overlay 生成新的 YAML 檔案的同時,其他使用者可以完全不受影響的使用任何一個基礎 YAML 或者某一層生成出來的 YAML 。這使得每一個使用者,都可以通過 fork/modify/rebase 這樣 Git 風格的流程來管理海量的 YAML 檔案。這種 PATCH 的思想跟 Docker 映象是非常類似的,它既規避了“字串替換”對 YAML 檔案的入侵,也不需要使用者學習蹩腳的 DSL 語法(比如 Lua)。

在1.14之後,Kustomize 已經成為了 kubectl 的一個內建命令。不難看到,Kubernetes 社群正在探索一種 Helm 之外的、更加 Kubernetes 原生的應用管理方法。具體效果如何,我們不妨拭目以待。

參見:Added Kustomize as a subcommand in kubectl (#73033,@Liujingfang1)

使用者友好度進一步提升

隨著大家對Kubernetes越來越熟悉,對kubectl依賴也越來越強烈,需求也越來越多樣化。而在 1.14 中,kubectl 著重在以下幾個方面,提升使用者體驗,加強對日常運維能力的支援。

  • 之前 kubectl cp 操作每次只能 copy 一個檔案,沒辦法使用萬用字元拷貝一批檔案,非常不方便。在1.14中,螞蟻金服的工程師提交了一個拷貝操作的萬用字元功能,方便對容器中的檔案進行操作。

  • 以往,使用者通常無法方便的知道自己被管理員通過 RBAC 配置的許可權到底有哪些。而從v1.14開始,使用者可以通過 kubectl auth can-i --list --namespace=ns1 來檢視自己在 ns1 這個namespace下可以訪問哪些資源 (比如Pod,Service等),並有哪些操作的許可權(比如Get,List,Patch,Delete等)了。

  • Kubernetes 使用者需要刪除的API 資源,往往分散在多個namespace中,刪除非常不方便。在v1.14新版本中,使用者終於可以藉助於 kubectl delete xxx --all-namespaces 來進行統一的刪除操作了(這裡 XXX 可以是Pod,Services,Deployment,自定義的CRD等等),並且還可以配合 -l--field-selector 可以更精確地刪除滿足特定條件的資源。

穩定性進一步提升

和之前每個版本一樣,Kubernetes 的新版本釋出對穩定性和可靠性增強的關注一直是重中之重,下面我們列舉出一些值得注意的修復和升級。

  • 在做Pod驅逐時,會優先嚐試使用優雅刪除模式,而不是暴力刪除etcd內的Pod資料。這個修復能夠使被驅逐的 Pod更加優雅的退出。

  • Kubelet要重建Pod的容器時,如果舊容器是unknown狀態,現在Kubelet會首先嚐試Stop容器。這避免了一個 Pod的同一個容器申明會有多個例項同時執行的風險。

  • 在大規模叢集中,節點因為個別Pod使用了大量磁碟 IO,可能會導致節點頻繁的在Ready/NotReady狀態之間變化。這種狀態會引起大規模的、不可預期的 Pod Eviction,導致線上故障。螞蟻金服的工程師針對 Docker 環境下的這個問題提交了修復,建議大家也排查一下其它執行時的叢集裡是否有同樣的問題。

  • 當 Kubelet在壓力較大情況下,可能會發生 Kubelet 的Pod 生命週期事件消費頻次弱於事件產生頻次,導致負責這個事件的 Channel 被佔滿,這種情況持續一段時間後會直接導致Kubelet 死鎖。阿里巴巴的工程師針對修這個問題提交了修復。

大規模場景下的效能提升與優化

在 Kubernetes 的主幹功能日趨穩定之後,社群已經開始更多的關注大規模場景下 Kubernetes 專案會暴露出來的各種各樣的問題。在v1.14中,Kubernetes 社群從面向終端使用者的角度做出了很多優化,比如:

  • kubectl 在實現中會順序遍歷 APIServer暴露出的全部資源的Group/Version/Kind,直到查詢到需要處理的資源。這種遍歷方式導致了使用者在大規模叢集下使用 kubectl 的效能體驗受到很大影響。在v1.14版本中,kubectl的順序遍歷行為終於改為了並行,極大地提升了kubectl的使用體驗(經過測試,效能指標提升了10倍以上)。

  • 在 1.14 中,APIServer 裡的一個重要變更,是對單次 PATCH 請求內容裡的操作個數做出了限制,不能超過10000個,否則就不處理此請求。這樣做的目的,是防止 APIServer 因為處理海量的甚至是惡意PATCH 請求導致整個叢集癱瘓。這也其實也是社群的 CVE-2019-1002100 主要的修復方法。

  • Kubernetes 的 Aggregated API允許 k8s 的開發人員編寫一個自定義服務,並把這個服務註冊到k8s的 API 裡面像原生 API 一樣使用。在這個情況下,APIServer 需要將使用者自定義 API Spec 與原生的 API Spec 歸併起來,這是一個非常消耗CPU 的效能痛點。而在v1.14中,社群大大優化了這個操作的速率,極大地提升了APIServer 歸併 Spec 的效能(提升了不止十倍)。

文中相關連結一覽

Release Note :
github.com/kubernetes/…
Support for Windows Nodes is Graduating to Stable (#116 ):
github.com/kubernetes/…

Durable Local Storage Management is Now GA (#121):
github.com/kubernetes/…

Pod Priority and Preemption in Kubernetes (#564) :
github.com/kubernetes/…

Pod Ready++ (#580) :
github.com/kubernetes/…
Added Kustomize as a subcommand in kubectl (#73033, @Liujingfang1):
github.com/kubernetes/…
github.com/Liujingfang…

使用者友好度:
72641:github.com/kubernetes/…
64820:github.com/kubernetes/…
73716:github.com/kubernetes/…

穩定性:
72730:github.com/kubernetes/…
73802:github.com/kubernetes/…
74389:github.com/kubernetes/…
72709:github.com/kubernetes/…

大規模場景下的效能提升與優化:
73345:github.com/kubernetes/…
74000:github.com/kubernetes/…
71223:github.com/kubernetes/…

阿里雲和CNCF聯合開發推出的免費公開課,講解以Kubernetes主體的雲原生技術知識。一線技術專家精心打造,期待各位的學習反饋。 更多課程資訊可以一步:官宣|《CNCF x Alibaba 雲原生技術公開課》即將重磅上線


本文作者:木環

原文連結

本文為雲棲社群原創內容,未經允許不得轉載。


相關文章