最佳途徑 | 容器規模化落地如何四步走?

阿里云云棲號發表於2020-10-27

頭圖.png

隨著雲原生時代的發展,傳統 IT 基礎設施加速雲化,雲原生化成為雲上的必然趨勢。作為雲原生代表技術之一,容器技術可幫助企業提升 IT 架構的敏捷性,加速應用創新,幫助企業更加靈活地應對商業發展中的不確定性。疫情期間,線上教育、音視訊、公共健康等行業出現了大幅度的增長。一些基於雲端計算和容器技術的公司,很好地把握住了業務快速增長的機遇,實現了自身的跨越式發展。

容器規模化落地已成為企業發展“必修課”

疫情加速了企業數字化的發展程式,低延時和高併發的線上場景頻繁出現在企業日常經營中,業務創新的需求也在倒逼企業不斷運用新興技術手段。現如今,Kubernetes 逐漸成為雲原生時代的基礎設施,容器技術被廣泛應用於人工智慧、大資料、區塊鏈、邊緣計算等場景,作為輕量化的計算載體,為更多的場景賦予高度的彈性與敏捷性。在日常經營和業務創新的雙重壓力之下,越來越多的企業從小規模試用到全面擁抱容器規模化落地,以保障企業業務能夠健康且長遠發展

據信通院《2020 年中國雲原生使用者調查報告》顯示,60% 以上的使用者已在生產環境中應用容器技術,近八成使用者的生產需求需要 1000 及以上的節點規模滿足,超過 13% 的使用者容器規模已超過 5000 節點,9% 的使用者容器規模大於 10000 節點。隨著雲原生技術的進一步普及,越來越多的企業核心業務切換到容器,企業生產環境容器叢集規模呈現爆發式增長趨勢,容器規模化落地已成為企業發展“必修課”。目前開源版本 Kubernetes 最多可以支撐 5 千節點及 15 萬 Pod,已經無法滿足日益增長的業務需求。

容器規模化落地企業要過哪些難關

大規模容器叢集可以提供更大的業務負載能力,更高的流量突發能力,更加高效的叢集管理方式。作為雲原生領域的實踐者和引領者,阿里雲率先實現了單叢集 1 萬節點1百萬 Pod 的規模突破,相比於社群版 Kubernetes,單叢集節點數在社群基礎上提高了 2 倍,Pod 數提升了 6.7 倍。基於服務百萬客戶的經驗,阿里雲沉澱了“容器規模化落地四步走”的路徑方法,可幫助企業克服容器規模化落地過程中的難關,輕鬆應對不斷增加的規模化需求。

第一步:如何判斷自身是否需要容器叢集規模化?

當企業面臨流量突發型業務、複雜計算型業務、需進一步提高運維效率等業務或 IT 訴求,單叢集的容量成為當前掣肘發展的瓶頸。例如基因計算、線上秒殺等業務,會在短時間會產生大量的負載,對單叢集能容納的計算資源提出了嚴峻的挑戰,亟需單個叢集能夠支援大規模的節點來批量執行 Pod。基於此,企業就要開始考慮叢集擴容了,不過追求叢集規模大,並不是一針見效的萬能“銀彈”, 企業需要根據自身業務發展特性,優化叢集能力實現業務價值,盲目追求叢集規模化將擴大整個故障域的風險

第二步:容器規模化不是簡單擴大規模的大小,如何自下而上實現一整套體系優化,打通任督二脈?

Kubernetes 作為雲原生時代的作業系統,其自身及其部署的雲環境是非常複雜龐大的,因此容器規模化是從底層雲資源到上層應用的一整套優化體系。企業使用者需要重點解決三個層面的優化:

  1. 在雲產品層面打破對雲資源配額的限制;
  2. 在叢集元件層面提升資源規模化的天花板;
  3. 在 Kubernetes 資源層面優化叢集配置策略來保證資源規模化能力。

第三步:容器規模化後難以保障原有效能不受損,如何實現效能進一步提升,做個“靈活的巨人”?

容器叢集規模被放大 N 倍之後,對儲存、叢集網路、應用分發等效能都提出了巨大挑戰,例如大規模叢集資料中心內網路流量通常較大,網路延遲與抖動的問題也會隨之被放大,影響叢集網路傳輸效率和叢集穩定。還有大規模叢集下批量釋出更新應用的常規場景,1w 個節點瞬時的映象拉取會產生巨大的網路衝擊,給映象服務和網路頻寬帶來了巨大的壓力。容器規模化的初衷是提供更強大的技術支撐力,不僅要保障原有效能,還需要進一步提升整體效能

企業使用者可重點從四個方面入手優化:

  • Node&Pod 規模化效率
  • 網路效率(吞吐與延遲)
  • DNS 解析效率
  • 映象加速

第四步:容器規模化後最驚心動魄的難關是“穩定”

如果說叢集規模化是第一步,那麼穩定的執行上萬節點的叢集才是更加驚心動魄的,龐大的系統最重要的就是控制故障域,防止雪崩。相對於規模而言,容器規模化後的穩定性更加重要,因為大規模叢集的恢復不是簡單的重啟就能夠解決的,一旦雪崩開始,整體崩潰不可避免,嚴重影響業務接續性。對於企業而言,大規模叢集的穩定性就是業務線上的安全性。企業使用者重點需要考慮事前止血預案、資源索引和系統元件優化、以及監控所有節點隨時啟動自愈流程。

阿里雲幫助企業一站式實現容器規模化落地

針對大規模叢集在企業落地的種種難關,阿里雲基於 ACK Pro 提供了企業級的容器叢集管理能力,在 APIServer 和排程器上提供了大量效能優化,打破資源規模限制、提升效能天花板、保證叢集穩定性。通過自研高效能容器網路 Terway,優化 Pod 延遲 30%,降低大規模 Service 的效能開銷,不僅可解決大規模叢集的網路瓶頸問題,而且提供幾乎雲上原生的網路效能,使得叢集響應更迅速。企業級映象倉庫 ACR EE 支援獨享儲存,提供按需載入映象的能力,降低啟動時間 60%,可解決大規模節點拉取映象慢的問題。整合阿里雲端儲存、網路和安全能力,阿里雲一站式為企業提供容器規模化執行的最佳效能:更加高效的網路轉發、更強擴充套件能力的儲存、更高效的應用與映象分發、更穩定的大規模叢集管理

1.png

值得一提的是,阿里雲在近日 2020 雲原生產業大會中,成為首家通過信通院容器規模化效能測試的雲服務商,獲得最高階別認證—“卓越”級別。在信通院的容器規模化測評中,阿里雲容器服務的滿負載壓力測試、網路延時、網路效能損耗等多項測評結果,在參與測評的廠商中遙遙領先。 基於此,阿里雲擁有足夠彈性的“服務能力空間”,可根據企業業務量身定製滿足當前所需的容器叢集服務,除了支撐阿里集團內部核心系統容器化上雲和阿里雲的雲產品本身,也將多年的大規模容器技術以產品化的能力輸出給眾多圍繞雙十一的生態公司和 ISV 公司。通過支撐來自全球各行各業的容器雲,阿里雲容器服務已經沉澱了支援單元化架構、全球化架構、柔性架構的雲原生應用託管中臺能力,管理了超過 1 萬個以上的容器叢集,提供企業級可靠服務。

阿里雲擁有國內規模最大的容器叢集、最豐富的雲原生產品家族和最全面的開源貢獻,提供雲原生裸金屬伺服器、雲原生資料庫、資料倉儲、資料湖、容器、微服務、DevOps、Serverless 等超過 100 款創新產品,覆蓋新零售、政務、醫療、交通、教育等各個領域。阿里雲容器服務是國內唯一連續兩次入選 Gartner 2019 年和 2020 年《競爭格局:公共雲容器服務》報告的廠商,阿里雲覆蓋 Serverless Kubernetes、服務網格、容器映象等九項產品能力,與 AWS 平齊,產品豐富度領先 Google、微軟、IBM 和 Oracle 四家廠商。

2.jpg

隨著容器技術的逐漸普及,如何評價容器效能高低成為業內普遍關注的議題。針對行業痛點,中國資訊通訊研究院釋出的業內首個超大規模容器效能測評結果,客觀真實反映了容器叢集元件級的效能表現。在 2020 雲原生產業大會 上,阿里雲研究員、阿里雲原生技術負責人丁宇表示,“阿里雲一直致力於推動雲原生在國內的普及,將與信通院一起促進中國容器市場的規範化、標準化發展。”

 

原文連結
本文為阿里雲原創內容,未經允許不得轉載。

相關文章