TKE 註冊節點,IDC 輕量雲原生上雲的最佳路徑

騰訊雲原生發表於2023-01-03

林順利,騰訊雲原生產品經理,負責分散式雲產品迭代和註冊節點客戶擴充套件,專注於雲原生混合雲新形態的推廣實踐。

背景

企業在持續業務運維過程中,感受到騰訊雲 TKE 帶來的便捷性和極致的使用體驗,將新業務的釋出以及老業務都遷移到雲上 TKE 來實現。但很多企業資料中心建設較為早期,選型上採取了自建 IDC 機房的方案,長久以來的 IDC 運營維護和企業上雲的訴求產生了衝突和矛盾

1、資源難利舊/利用率低

  • 業務大部分在雲上執行,存量的 IDC 主機難以利舊;
  • 雲下資源業務利用率低(主要是 CPU 資源),平均不超過20%,資源浪費嚴重;
  • 對於 GPU 只能實現整卡利用,多數業務執行達不到單卡門檻時產生了 gpu 資源浪費;

2、運維成本高

  • 自建 Kubernetes 帶來了運維的部署交付和維護成本;
  • Kubernetes 的升級維護、元件(如 kubelet)的升級維護帶來了運維的持續運營成本;
  • 自建叢集出現問題時,尤其是系統元件問題場景下,故障定位難,修復成本高;
  • 基於自建叢集,實現運維的監控需求,要求運維進一步自建監控系統、日誌系統,增加了運維複雜度;

3、難以統一排程

  • 雲上已經使用容器服務,雲下有物理機,難以打通雲上雲下資源,實現統一排程和管理;
  • 雲上和雲下資源分佈在不同的地域,難以將不同地域的資源放在一個叢集中統一管理;

雲上和雲下的統一納管

如何解決企業 IDC 和上雲的衝突問題?這似乎在過去已經有了答案 - 混合雲部署。但是當下,我們面臨的是雲原生的新場景而非單純的上雲,因此,我們基於傳統混合雲的解決方案進一步深入思考,首創出 IDC 輕量級雲原生解決方案 - 註冊節點 :IDC 節點和 TKE 打通,雲上作為管控面來提供管理、排程、監控能力,雲下 IDC 作為支撐面來實際承載業務執行。在滿足企業資源利舊、託管運維、混合部署/排程等雲化場景的同時,將雲上關於降本增效的核心特性下沉到 IDC 節點實現無縫整合,進一步促進了 IDC 節點資源的有效、高效利用。

TKE 註冊節點的核心特性

  • 成本洞察:視覺化監控各種型別工作負載下各項維度指標的使用情況,幫助使用者發現資源浪費;
  • Crane:負載資源配額的智慧推薦和節點上業務的專有排程,提高資源利用率;
  • qGPU:強隔離的 GPU 虛擬化技術,業務分配 GPU 不是按整卡而是可按1/10卡做細粒度的分派,減少 GPU 資源浪費;

註冊節點已經支援騰訊上萬臺 IDC 節點,CPU 累計超過500w核,成為 IDC 節點輕量上雲新正規化。在上雲同時,平臺側藉助雲原生資產大盤的資源監控和 crane 的專有排程能力,提升了 IDC 節點的資源利用率,節點資源平均水位值由 15% 遷越至 50%。

註冊節點,IDC 輕量級雲原生最佳路徑

TKE 註冊節點是針對混合雲部署場景,全新升級的節點產品形態,解決了企業在 IDC 運維過程中面臨的各類問題:

  1. 資源利舊和利用率提升

    充分利用 IDC 資源,並透過 Request 推薦、動態排程、節點超賣等能力進一步提升 IDC 資源的利用率。同時針對於 GPU 資源使用,提供釐核級算力隔離與多優先順序混部。

  2. 節點託管運維

    免去在本地搭建、運維 k8s 叢集的成本,無縫整合騰訊云云原生相關服務,涵蓋日誌、監控、審計、儲存、容器安全等能力,使用者僅需要運維本地伺服器即可,並提供節點宣告式運維的能力,支援節點快速升級及回滾。

  3. 雲上雲下統一排程

    支援在單叢集內同時排程本地節點與雲上 CVM 節點,便於將雲下業務擴充至雲上,同時無需引入多叢集管理。

註冊節點產品能力

雲上能力賦能雲下

  • 視覺化資源監控:透過 CPU/記憶體利用率、節點裝箱率等指標直觀展示成本消耗和資源浪費現狀;
  • 業務配額智慧推薦:根據業務 Pod 的歷史水位,幫助使用者推薦、配置合理的 request;
  • GPU 共享有效利用:提供了 qGPU 能力,qGPU 是核心級別 GPU 虛擬化技術,實現 GPU 共享和強 QoS 隔離,效能幾乎零損耗;
  • 動態排程、重排程:提供目標利用率配置能力,基於真實利用率排程,保持節點在安全水位;

IDC 資源利舊和託管免運維

IDC 註冊節點託管至雲上,作為 TKE 的worker節點承載業務,天然實現了資源利舊;控制面在雲上 TKE,叢集元件的運維、升級、持續運營都由 TKE 自動化實現。

提升 IDC 節點利用率

基於 Crane 的專有排程器提供了節點超賣的能力,使用者可以自主配置節點的放大係數,業務動態排程至放大節點上,提升了節點的裝箱率並進一步提升了節點的利用率。

統一納管雲上和雲下節點

雲上節點和註冊節點透過不同的節點池來進行管理,業務資源排程時可指定節點池和節點型別,可以實現雲上雲下相互彈性。

註冊節點使用場景

企業 IDC 資源利舊

企業 IDC 中存在各類急需有效利舊的伺服器節點,包括 閒置節點、老舊節點、退保節點等,這些節點面臨諸多問題:

  • 機器是異構的,難以統一滿足業務的訴求;
  • 老舊機器的運維複雜,難度高;
  • IDC 節點資源利用率低,浪費嚴重;
  • 本地私有容器化建設和維護成本高;

透過註冊節點的方案,企業在極短時間內就能夠完成 IDC 節點接入 TKE 的動作(單節點10min內接入),使用 TKE 服務。並且,進一步

  • 複用 TKE 雲上能力,包括監控,日誌,安全等;
  • 提升了資源利用率:複用雲上節點利用率提升方案,最高可提升5倍;
  • 方便升級運維:雲上叢集自動升級,節點可設定升級視窗升級;

GPU 細粒度分配

當使用者業務 pod 需要使用 GPU 資源且使用量較低甚至不滿1卡時,如果採用 Kubernetes 原生的GPU 配額機制會造成資源浪費。

註冊節點無縫整合了騰訊雲 qGPU 技術,支援在多個容器間共享 GPU 卡並提供容器間視訊記憶體與算力強隔離的能力,從而在更小粒度使用 GPU 卡的基礎上,保證業務安全,達到提高 GPU 使用率、降低使用者成本的目的。依賴底層強大的 qGPU 隔離技術,可做到 GPU 視訊記憶體和算力的強隔離,共享使用 GPU 的同時,保證業務效能與資源不受干擾。

多地域統一管理

使用者在不同地域中都有存量的 IDC 機房場景下,想要實現統一的資源管理難度非常大,每個地域新建管理平面和業務釋出流程增加了運維日常工作複雜度。

註冊節點方案可以幫助使用者將不同地域的 IDC 註冊到同一個 TKE 叢集中進行統一的管理運維,統一了管控入口,降低了運維的複雜度。

雲上雲下容災排程

負載+高可用的多叢集、多套方案的運維成本高,而公有云和 IDC 資源的隔離性,天然適合用來企業落地業務的容災場景,使用者急需探尋如何透過雲上雲下實現容災排程的需求。

註冊節點方案中,業務可以自定義排程模式,使用者可以自主選擇將服務排程至雲上還是雲下,雲上雲下相互彈性,滿足單叢集容災場景。

如何建立註冊節點

使用註冊節點功能的前提條件:

  • IDC 節點作業系統:tencent os 2.4、3.1 ;
  • TKE 標準叢集:版本 v1.18及以上;網路外掛型別為 cillium overlay;
  • 網路打通:IDC 和 TKE 專線打通;

節點註冊步驟:

TKE標準叢集,進入叢集詳情頁 > 選擇左側選單欄中的節點管理 > 節點池 > 點選新建節點池,選擇註冊節點池並填寫對應引數提交。

節點池建立完成後進入節點池 > 點選新增節點,複製命令併到IDC主機上執行即可。

總結

騰訊雲TKE中提供了3種節點運維的新正規化:

  • 宣告式節點運維-原生節點;
  • 有節點的 serverless – 超級節點;
  • IDC 輕量上雲–註冊節點;

3種節點型別分別面向客戶不同的業務場景,TKE實現了一個叢集中同時納管這3種節點新正規化和TKE普通節點的統一管理、排程方案。這也是騰訊雲原生一貫的科技與人文觀念,用融合的形態幫助客戶解決各類業務支撐的問題、持續關注降低使用者的運維成本。

我們希望透過企業漸進式上雲最佳方案註冊節點,最低成本的實現 IDC 業務原地雲原生,使用者可以便捷的、分鐘級的獲得雲上雲原生的能力,實現降本增效。

相關文章