揭秘10億+高併發應用如何實現高效穩定的開發和運維

华为云开发者联盟發表於2024-06-18

本文分享自華為雲社群《DTSE Tech Talk | 第60期:構築雲原生時代的應用穩定性》,作者: 華為雲社群精選。

本期直播主題是《構築雲原生時代的應用穩定性》,華為雲aPaaS DTSE技術佈道師韞欣,與開發者們交流了雲原生時代的應用挑戰、趨勢,跟大家分享了華為雲應用平臺AppStage的實踐經驗和優秀案例,並展望了智慧運維的未來。

雲原生時代的應用挑戰和趨勢

在飛速發展的數字時代,雲原生已經成為了許多企業的首選,它不僅提供了靈活性和可擴充套件性,還為應用程式的穩定性帶來了全新的技術革命。企業應用上雲經歷了三個階段:

第一階段,應用以“裝置”為中心,工程師們看到的是一臺臺物理伺服器,軟體是部署在伺服器上的程序,硬體和軟體相對割裂。

第二階段,以資源為中心,形成了雲化的資源池,大幅提升了資源的利用率和使用效率。

第三階段,是從以“資源“為中心走向以“應用” 為中心的雲原生階段,與第二階段相比,主要區別在於應用的設計和部署方式。雲原生應用是指使用微服務架構對應用進行解耦拆分,並以容器形式部署,更加靈活和可擴充套件,能夠更好地發揮公有云的優勢,以應對業務的不確定性,帶來更高的開發、運維和運營效率。

在這個轉變過程中,也會面臨一系列的挑戰。

• 第一個挑戰是雲原生時代的技術複雜度比較高,工具非常的碎片化,比如服務的編排與排程、容器化、安全合規等各方面的工具。雲原生應用設計、開發、運維過程中,對開發和運維人員的技能要求高,無形中增加了企業的開發成本,降低了開發效率。

• 第二個挑戰是大量工作消耗在工程能力構建上,開發人員真正的業務程式碼開發工作只佔20%左右,隱形成本非常高。首先,每個應用構建都要考慮可靠性、可用性、安全、韌性、多雲部署等一系列能力,存在重複造輪子的問題,造成了大量工作浪費。其次,國家、行業、企業對安全可信、技術規範等有諸多要求,缺乏統一的平臺來支撐落地,每個開發人員對規範的解讀不同,實現方式也會有差異,大幅降低了效率。以華為的經驗,如果這些問題得以解決,30%以上的隱形工作是可以被節省的。

• 第三個挑戰是雲原生時代,維護一個複雜且快速變化的系統,會面臨一系列的問題,比如碎片化的運維工具、版本的迅速迭代、人工效率低且不夠規範等,隨著業務鏈路越發複雜,問題跟蹤和定位會越來越困難,業務資料量的增長也會導致資料庫治理的問題變得尤為突出。

這一系列的運維問題需要未雨綢繆、提前規劃,迫切需要雲原生的運維儘快完成數智化轉型。

華為雲應用平臺AppStage實踐經驗

針對以上挑戰,華為對內部雲原生應用經驗總結提煉後,打造了華為雲應用平臺AppStage產品,為客戶提供了一站式智慧運維平臺,不僅避免了不同廠商和三方的眾多運維工具拼湊的問題,並且圍繞無人值守變更、故障全生命週期管理、業務穩定性治理等三大站點可靠性工程 (SRE)的工作內容,來構建自動化和智慧化能力,在提高運維效率的同時,也提升了服務質量、最佳化了應用可靠性。

自動化無人值守變更:幫助企業提升運維效率,減少人為錯誤

1. 核心理念就是基礎設施即程式碼,將資源、配置、環境、狀態等進行宣告化定義,避免傳統變更理解的差異,可確保任何環境、任何地點執行結果的一致性。在變更自動化的評審、執行和驗證過程中,實現全流程的自動化。

2. 透過一系列的變更灰度評估以及中斷回滾等保險措施,確保變更過程和結果的安全可信。

3. 部署和變更的過程完全不需要人工干預,減少了人員誤操作的可能,保障了變更質量。

透過這些最佳化,10分鐘就能完成一個服務的全新部署,省去了大量的人工時間。華為內部統計,在變更工作中,故障率減少了40%,部署效率提升了30%。

揭秘10億+高併發應用如何實現高效穩定的開發和運維

監控與故障管理:全棧可觀測性和故障全生命週期管理,降低了業務從故障發生到恢復的時間,提升雲原生應用整體服務質量

1. 透過對端、管、雲全鏈路可觀測能力,打通資料孤島,將這些資料有機關聯起來。

2. 透過智慧化的運維底座,將資源、配置、事件、可觀測資料建模管理,配合AIOps智慧演算法,驅動根因診斷和異常檢測等運維的高階智慧化應用。

3. 透過定期業務巡檢、監控告警、故障演練等活動,做到故障全生命週期管理,實現1分鐘AI異常檢測和故障發現,5分鐘故障根因診斷定界定位,並基於預編排的故障恢復模板和微服務治理體系,實現核心業務場景10分鐘故障快速恢復。

揭秘10億+高併發應用如何實現高效穩定的開發和運維

可用性與連續性管理:透過混沌工程演練,實現確定性恢復,助力可用性達到99.99%

1. 按IaaS-PaaS-SaaS分解可靠性要求,形成應用穩定性指標體系,對應用可用性進行度量與治理。

2. 構建混沌工程演練平臺,提供了50多種故障演練場景,80多種故障注入的方法,來充分驗證業務和應用可靠性。

3. 透過故障演練發現問題,主動提升生產環境的穩定性,做到問題的提前預防和發現。

揭秘10億+高併發應用如何實現高效穩定的開發和運維

資料庫治理:WiseDBA提供可信資料庫治理方案,快速診斷資料庫疑難問題

1. 支援RDS、GaussDB for MySQL、GaussDB for Cassandra等多個資料庫引擎的管理。

2. 可對納管資料庫進行IT化巡檢和管理,針對資料庫慢查詢進行分級治理,建立風險評估體系。

3. 支援DBDesigner、SQL稽核等正向設計,從開發階段減少風險問題。

4. 提供資料查詢、資料隱私白名單管理等能力。

FinOps:成本治理確保應用穩定的前提下,幫助企業降本增效

隨著業務的快速發展,企業在華為雲上的各類資源消耗也相應增長,需要對各類資源的使用情況進行有效管理,管控成本。

1. 應用平臺AppStage資源管理系統可構建資源臺賬,提供成本視覺化能力,清晰展示預算、資源用量和基於預測的趨勢分析。

2. 識別成本浪費和異常增長的資源型別,並進行異常實時提醒。

3. 對資源進行智慧檢測,為業務定期生成資源使用報告,推薦資源最佳化方案,同時給出成本收益分析,支撐成本最佳化目標,提升資源利用率。

華為雲應用平臺AppStage案例分享

案例:守護終端雲全球數億使用者的全場景智慧生活體驗

應用平臺AppStage支撐了華為終端雲服務11億+華為使用者和50+應用的託管和運維,助力全球業務可用性連續多年達到99.99%,持續保持優質、安全的使用者體驗,助力華為終端雲服務活躍使用者長期保持穩健增長。

案例:XX公司基於應用平臺重構軟體生產能力,成為工業軟體研發領域的領頭羊

XX公司透過應用平臺AppStage實現運維的統一入口、統一工具、統一資料,形成高效智慧的運維體系,全面提升了軟體工程協作效率,降低開發人員門檻,助力版本釋出效率提升30%,問題定位時長降低45%,運維協作效率提升15%,維護總成本降低10%。

未來展望

運維大模型開啟未來運維新時代

運維大模型:利用大語言模型的自然語言理解能力、推理規劃能力和任務執行能力,從五個方面對一站式智慧運維賦能

• 構建運維助手:幫助工程師解答日常運維工作各種問題,提升效率

• 助力巡檢監控:自動執行巡檢任務,實時監控指標,及時發現異常

• 幫助問題管理:自動探索分析日誌,給出根因診斷,匹配應急方案

• 提供變更方案:分析變更要求,分解任務,編寫指令碼,協助測試執行

• 開發運維報表:自動分析運維資料,生成運維報表,支援自然語言互動調整

知識圖譜與數字機器人融合,推動運維智慧化持續發展

運維知識圖譜:透過將業務資料分析提煉、抽取融合,加工成運維知識圖譜,並沉澱演算法能力,以支撐異常檢測和根因診斷等高階運維活動。

智慧運維數字機器人:利用智慧運維數字機器人(RPA)準確匹配恢復方案,並透過呼叫工具(API)做故障自愈和應急。

點選關注,第一時間瞭解華為雲新鮮技術~

相關文章