企業雲原生IT成本治理案例解析 - 中華財險雲原生上雲IT成本治理之路

阿里巴巴雲原生發表於2022-06-16

作者:莫源

前言

中華財險是國內網際網路金融行業的領導者,在企業雲原生上雲的過程中,完成了大量多租SaaS化業務的微服務化和容器化。其業務具有非常典型的金融屬性,對架構穩定性、資源成本效率、資料安全等方面都提出了更高的要求和挑戰,需要在實現降本增效的同時兼顧業務穩定性。在遷移的過程中,遇到了多租業務清算成本難、閒置/浪費資源發現難、優化策略與業務穩定性平衡難等挑戰。中華財險工程師團隊基於阿里雲企業雲原生IT成本治理方案沉澱了一套成熟的IT企業成本治理流程與系統,通過開箱即用的業務成本拆分、閒置資源視覺化發現、彈性伸縮與混部等優化策略,將叢集的閒置資源率從上雲前的30%優化到10%以內。

中華財險的上雲IT成本治理工作也榮獲信通院2022年度雲管和雲網優秀案例:https://mp.weixin.qq.com/s/XB...

中華財險的雲原生之路

雲原生上雲是目前企業上雲的最佳路徑,中華財險作為國內網際網路金融行業的領導者也在驅動業務通過微服務化、雲原生化的方式實現數字化轉型。在雲原生上雲之前,中華財險的業務存在如下問題:

  • 業務資源的管理許可權分散在各個團隊,生產環境和測試環境下沉在業務團隊,業務團隊為臨時驗證的版本冗餘了大量的資源。
  • 部分業務有明顯的週期性,峰谷容量相差較大,造成資源低負載執行時間較長。
  • 壓測環境單位時間內需要大量的臨時機器,複用閒置資源需要騰挪機器、協調跨團隊資源,流程和成本較高。
  • 缺少可量化的指標發現業務的浪費,單純的利用率指標不能作為浪費的評判標準。

為了解決上述問題,中華財險工程師團隊通過業務的微服務化、容器化的方式,將業務遷移到了阿里雲容器服務之上,基於阿里雲企業雲原生IT成本治理方案沉澱了一套成熟的IT企業成本治理流程與系統,將IT成本的治理週期從原來的季度、月度,降低到了周、天。通過開箱即用的成本視覺化與分攤能力,實時衡量團隊資源浪費情況,實現數字化的降本增效。

下面是一些優化過程中的關鍵路徑:

  • 通過名稱空間進行多租業務的邏輯管理、財資拆分、浪費衡量

中華財險工程師團隊將多租的SaaS化業務通過名稱空間作為邏輯單元在同一個叢集中進行統一管理,通過調整Request與Limit之間的比例,將原有獨立容量管理的模型,轉變為池化統一管理,提升資源的利用率。通過阿里雲企業雲原生IT成本治理方案提供的名稱空間成本核算的能力,在一個叢集內可以輕鬆實現不同業務的費用分攤,實現容量管理與財資管理。

 title=

通過ACK成本分析發現叢集浪費情況以及各應用成本分佈

  • 全量路壓測進行容量預估與可靠性驗證

在進行雲原生化的過程中,中華財險工程師團隊發現,業務團隊提交的容量估算與實際的資源使用存在比較大的偏差。因此,在上雲的過程中,中華財險工程師團隊通過使用PTS(阿里雲全鏈路壓測服務)高模擬模擬環境全鏈路壓測,確定系統水位和瓶頸,合理預估資源需求,將成本規模通過數字化的指標進行了建模,在保障叢集容量可靠性的前體下,實現了成本規模的控制。

  • 建立成本浪費的衡量標準,發現浪費情況

單純通過資源利用率的數值來判斷業務是否存在浪費從實際場景上來看是不夠有說服力的,業務團隊冗餘容量的策略一般會基於業務峰值的情況、程式高效執行的利用率區間、未來業務發展的情況等因素。在傳統的成本治理週期以月度、季度甚至年度等更長時間的情況下,冗餘是保障穩定性的最佳選擇。為了解決這個問題,中華財險工程師團隊提出了應用浪費度模型,通過結合資源利用率、波峰波谷振幅、業務斷路器引入、業務成本趨勢變化等多個因素進行整合,數字量化浪費比例,有效的發現了叢集內的真實浪費情況。

 title=

通過 ACK 成本分析發現叢集應用的浪費情況

  • 分時混部線上業務與臨時業務錯峰使用

在中華財險的業務場景中,有大量的臨時任務、模擬任務,這些任務具有周期短、資源消耗高等特性,中華財險工程師團隊發現叢集的真實使用率在白天一直處在比較低的水平,而空閒的時間足夠模擬任務和臨時任務的執行。此外,在使用分時複用的時候,還配合了快上快下的搶佔策略,既保障了叢集的整體利用率提升,又能夠在突增流量到來的時候,下線臨時作業保障業務的整體的穩定性。

  • 定時伸縮實現核心業務資源預供給

中華財險有些業務存在明顯的週期性和波峰波谷,資源比例相差數倍,在保障一定冗餘的情況下,通過使用定時伸縮的方式,可以讓出更多的叢集的排程資源,讓其他的臨時作業可以跑得更快。

  • 閒置資源回收與業務彈性交付

當資源池化後,由於不用節點的排程策略打標和約束,會造成部分節點的排程水位較低,通過識別長時間低水位的節點的方式,可以發現叢集中的閒置資源情況,降低資源浪費。並把一些低頻度的資源交付通過彈性的方式進行優化,實現成本效率的進一步提升。

中華財險基礎設施團隊一路走來,經歷了線上生產業務從傳統IT架構到上雲、上雲原生的過程,在這個雲原生化的過程中,中華財險的業務量也翻了數倍。經過雲成本優化的一系列措施,某業務容器化後總降低配置:232C 400G ,節省約7臺 32C 64G 的ECS的雲端計算資源,降低了約20%的伺服器成本。在進行了混部、業務高峰低谷的彈性伸縮等優化後,平均成本優化率可達約15%。

最後

從某種角度而言,中華財險基礎設施團隊的架構優化策略是非常樸素和實用的,通過數字化、模型化、視覺化企業IT成本,用資料指導和優化IT成本治理,將叢集的閒置資源率從上雲前的30%優化到10%以內。企業IT成本治理向來不是新技術的試驗場,選擇合適自身情況的方案,用資料量化結果,有理有據地驅動企業降本增效。

相關文章:

《阿里雲首家通過《可信雲·雲成本優化工具能力要求》評估,雲原生企業 IT 成本治理方案助力企業 FinOps

相關文章