Apsara Stack 技術百科|雲+應用一體化混合雲全景智慧化監控平臺

阿里雲情報局發表於2022-03-09

2@2x-100.jpg

在企業數字化轉型的浪潮中,核心業務的上雲和遷雲無疑是轉型過程的重中之重,企業對於數字安全性及等保合規層面的需求也日益強烈,混合雲成為諸多大型政府企業客戶上雲遷雲的首選方案。隨著企業雲上業務的複雜化,雲上雲下技術棧的多樣化,以及雲上運維組織規模的擴大化,雲上業務的穩定性和連續性面臨著巨大的挑戰。為了保障混合雲場景下客戶雲上業務的穩定性,阿里雲混合雲應用監控平臺團隊旗下的Sunfire全景智慧化監控平臺(以下簡稱Sunfire平臺)產品,不斷轉型升級、推陳出新,走出了一條跌宕起伏的道路。在這條道路上,我們究竟經歷了哪些挑戰和困難,我們又如何思考和應對?在歷經挑戰之後,我們又取得了哪些產品技術成果和客戶價值?要回答這些問題,我們要先從監控本身談起。

亂花漸欲迷人眼:我們需要什麼樣的監控

監控是什麼?
如果你是一個網際網路技術人員,提到監控,你的腦海裡也許馬上會閃過許多優秀的開源監控工具,從Nagios,Cacti到Zabbix,以及大名鼎鼎的Prometheus。但監控究竟是什麼?怎樣的監控才是好的監控?我們或許需要認真思考一番。

01.jpg

散落在邊塞沙漠戈壁高地上的烽火臺,是我們的祖先為了掌握隱藏在塞外的敵人的行蹤而建設的監控體系。從歷史回到現實的網際網路技術監控領域,從本質上看,監控是對於現實世界實體或物件的測量和檢測,測量的結果通過監控資料的方式(視覺化地)傳遞和展示出來,而檢測的結果則會以報警(或訊息)的形式通告監控的關注者。監控工作作為運維工作的重要組成部分,需要同時關注質量、成本、效率,以期在實踐中起到符合預期的效果。伴隨這三大挑戰的磨礪業界的各種監控系統不斷演進,各有千秋。針對混合雲客戶側複雜異構的運維環境,從2015年開始,Sunfire平臺就在集團100多個事業部橫跨電商、金融、物流、文娛、雲端計算等多各業態下的日常監控和雙11大促的磨練之下不斷前行,持續完善和重新整理著我們對監控業務和技術的理解。從2019年開始,Sunfire平臺開始了商業化的程式,面向混合雲客戶提供業務、應用、平臺全景智慧化能力,也積累了諸多客戶側的成功案例。在多種多樣的監控工具中,客戶之所以選擇Sunfire平臺,一方向是因為Sunfire平臺具備針對全景監控物件進行指標、鏈路、日誌全棧的監控能力,一方面也是因為Sunfire平臺突出體現了“通過業務監控能力來發現故障,通過全景監控能力定界故障,通過事件處理能力來輔助恢復故障”的產品思路。而這種理念,特別是以業務監控為故障發現入口的理念,是來源於歷年來Sunfire平臺支援阿里巴巴集團監控的產品技術積累當中,並在每年的雙11大促和日常監控運營中不斷經受洗禮和檢驗。

淘盡黃沙始見金:Sunfire平臺支援阿里巴巴集團的監控實踐

02.jpg

在每年雙11零點來臨之前的夜晚,上萬阿里工程師聚集在阿里巴巴的各個園區。而阿里巴巴總部杭州西溪園區的核心作戰室裡,更是聚集著負責阿里核心技術鏈路的上百位工程師。他們屏息凝神,注視著核心作戰大屏和自己個人電腦上的監控大盤。作戰大屏上,雙11核心的實時交易數字正在秒級重新整理,像不斷跳動的脈搏一樣,展示著阿里巴巴經濟體的體量、規模和活力。在作戰大屏和大家電腦大盤背後的就是Sunfire平臺,再過若干分鐘,Sunfire平臺會和阿里經濟體的核心交易鏈路一起,經受數百倍於日常的流量衝擊。從雙11基於監控的全域性技術指揮延展到日常的故障應急,為了應對海量業務流量、數萬技術人員給技術風險帶來的挑戰,Sunfire平臺在監控體系和監控技術架構設計上,走出了一條和業界不同的道路。

從業務監控出發:雙11戰火洗禮下的監控道路選擇

作為一個網際網路行業的技術人員,提到監控,我們往往會想起各種針對系統資源和水位的監控,以及對於應用程式效能的監控等,而在Sunfire平臺中,上面這些內容卻並非平臺功能的主角。Sunfire平臺是一個以業務監控為主、以應用和資源監控為輔的監控平臺。這種監控思路和實踐和業界通用做法大相徑庭。Sunfire平臺之所以走出一條和業界不同的道路,追本溯源,也許還是和阿里特有的雙11技術場景和阿里集團技術風險的機制息息相關。

在探討監控的思路之前,我們首先需要回顧另外一項阿里技術體系給網際網路技術界所做出的創新和貢獻:全鏈路壓測。在雙11的最初幾年,阿里核心交易鏈路面臨著巨大流量帶來的未知風險。通過微觀層面的針對每一個應用、中介軟體、資料庫模組的自檢和盤點已經無法完整地保障複雜系統的穩定性,因為在超大流量的衝擊之下,究竟哪一個系統會先‘頂不住’已經無法預先通過微觀層面的技術分析來識別。因此,阿里技術人創造出了全鏈路壓測體系,通過構造超大規模的流量來對系統進行全域性壓測,再根據業務指標的影響來決定壓測的效果。在業務量和成功率達到極限之後,再通過系統監控發現各個元件的問題。這個通過業務指標判斷系統整體極限和瓶頸的方案,需要對業務指標有一套高效的監控機制。同時,這種從巨集觀業務出發而不是從微觀系統應用出發的風險暴露機制,也給監控領域以啟示:首先通過關注業務發現問題,再通過關注應用和系統以定界和恢復問題,成為阿里監控體系的基本思想。

03.jpg

在雙11之外的日常工作中,阿里巴巴集團有一套非常體系化的故障發現、應急、處理機制,而這一機制的總體入口和起點也是業務監控。重視業務,進而重視業務監控,和阿里集團最初的電商屬性和重視業務運營的文化相關,我們一直希望通過技術保障讓故障帶給消費者和商家的傷害儘可能減少。在技術人員和資源有限的情況下,需要首先關注影響業務的技術問題,業務影響面越大的技術問題應該被給予更多的關注和資源投入去解決。

因此,Sunfire平臺堅定地走向了以業務監控為主,以應用、系統監控為輔的監控道路,並在過去持續支援了不斷擴大的監控體量和規模,也經受住了歷年雙11流量洪峰和全域性應急指揮的雙重考驗。當然,因為選擇了這條監控道路,Sunfire平臺在技術側也探索和成長出了和業界(特別是開源界)的監控系統不一樣的技術架構。

海量監控指標實時計算場景下的監控架構演進

監控系統的功能版塊往往可以拆解為資料採集、指標計算、指標儲存、報警、資料展示(包括API)等幾大部分,每個部分都有相應的模組提供支撐。在開源世界裡,監控系統的目標更多的是針對系統、應用的狀態進行監控報警。為了適配不同的監控物件,監控系統往往需要在資料採集層面具備較好的開放性和可整合能力,以適應不同的監控物件資料採集的需求。監控系統一般會通過探針或客戶端(Agent)的方式對眾多監控物件進行分散式的資料的採集,而報警和展示往往需要將分佈於各個監控物件上的指標進行一定程度的匯聚和計算才能進行。針對系統、應用監控,監控系統指標匯聚和計算層面的需求往往相對簡單,更多是根據CMDB按應用例項或分組、叢集等維度對資料進行空間聚合,並按監控時效性進行時間匯聚。而針對業務指標監控,在匯聚和計算層面的需求就變得比較複雜。業務指標的計算更多地依賴服務端程式的日誌,而對於日誌格式的清洗、日誌欄位的篩選過濾,以及日誌中不同維度進行多維的分組的統計、聚合等操作,則需要一個較為複雜的計算邏輯。因此,一個業務監控系統從技術架構層面來看,更像是一個實時計算系統。

在實時計算領域,我們常常會用到流式計算的模式來實時計算資料指標,而與流式計算相對應,業界還存在著批量計算的模式,二者各有特點,適用於不同的業務場景。Sunfire採用專為監控場景自研的實時採集 & 計算框架,具有更好的擴充套件性和更快的響應速度,在架構層面也更加接近於批量計算的模式,但可能達到和流式計算一樣出色的時效性,同時兼顧了監控運維中保障資料齊全度的特徵。Sunfire 的核心任務排程框架 通過技術創新將日誌採集、資料聚合、資料分析和報警在架構上分離。整個架構在任務排程的同時,增加了計算任務的監督和重試,使整個業務流程在架構上獲得了較好的區域性調整和自愈的能力。在這套架構的支援下,Sunfire承載了阿里巴巴集團來自100多個事業部的60W+以上的業務指標監控及千萬級別的系統、應用監控指標。同時,得益於Sunfire強大的實時計算能力和方便的使用者配置體驗,也有很多使用者利用Sunfire平臺進行實時的業務運營指標計算和統計,來進行業務層面的運營分析和決策。

04.jpg

除了業務指標計算的複雜性之外,Sunfire平臺所面臨的海量監控物件規模也是推進Sunfire平臺技術架構演進的重要因素。面對阿里集團超過百萬規模的監控物件,以及海量使用者訪問造成的流量壓力,Sunfire平臺的計算排程策略集中體現了‘面向失敗的設計’的思想。橫跨數十萬個來自上百個事業部的業務指標,其流量受到各個行業業態的差異和運營因素的影響,經常會產生區域性的計算任務堆積而造成計算熱點。Sunfire平臺通過完善的任務排程和錯誤重試機制保障了指標資料的實時性和完整性,也通過完善的自監控和自運維繫統來發現監控平臺的潛在隱患,方便地進行保護和降級。同時,面臨可以預期的流量高峰,包括電商的雙11、6.18大促, 高德出行的節假日高峰等,Sunfire平臺可以通過系統化的方式評估每一個業務、應用、監控項所消耗地計算資源和儲存資源,同時允許使用者標識出監控項的重要程度,並綜合化地優化調配資源,為不同級別的監控項提供不同的QOS保障,並方便地在異常時刻對不重要的監控項進行降級處理。在業務監控之外,Sunfire平臺也保持了對於阿里集團複雜的應用狀態和各中中介軟體的監控能力,並演化出以應用為中心的各類智慧化監控能力和報警能力。

在阿里集團巨大的技術體量和使用者規模之下,Sunfire平臺也在質量、成本、效率情況取得了非常好的平衡。Sunfire平臺能夠在各種全域性故障時刻(甚至是阿里技術體系的全域性機房級故障演練時刻)保障自身的穩定性,讓數萬技術人員能夠明確地觀測自己業務、應用和系統的狀態;而當監控指標下跌時,Sunfire平臺能夠明確地判別下跌的原因是業務用量本身的變化,還是系統運維層面的問題。 Sunfire平臺自身的容器規模過萬,我們通過不斷地技術優化和運營優化,讓監控自身的成本可明確度量並逐步降低;在過去的一年,在我們的不斷優化下,相同計算規模的資源開銷相比之前降低了10%以上。我們通過自研的任務排程引擎,能夠做到在百萬級容器規模下計算業務指標(如淘寶秒級的交易筆數等)的時間遲延做到4.7秒;輔之以我們經歷了多年線上戰火洗禮的智慧基線演算法策略,Sunfire平臺可以在幾十秒的時間內全自動地智慧化發現線上故障併發出通告,且不依賴任何的人工規則配置。一路走來,Sunfire平臺已經進成為阿里集團技術風險體系的基石,持續支援著集團龐大的技術體系的穩定高效執行。

而今邁步從頭越:從支援阿里集團走向服務雲上企業客戶

從2019年開始,Sunfire平臺開始探索監控產品的商業化輸出。我們從物流行業入手,嘗試將支援阿里集團的監控平臺改造為面向企業客戶的商業化監控產品。雖然Sunfire平臺在阿里集團海量規模下的取得成功,但我們轉型商業化輸出之路卻走得很不平坦。

戰場從阿里內部轉到外部企業,客戶從集團技術體系下成長起來的技術人員變成了外部企業的運維、研發團隊,Sunfire平臺在阿里集團戰場上積累下的一些產品、技術優勢突然變得“無用武之地”。首先,在監控理念層面,業界的企業往往將監控理解為系統、應用、中介軟體等物件的監控,Sunfire平臺更加擅長的業務監控理念在客戶那裡尚未落地生根。同時,客戶在系統、雲平臺層面的運維職責和應用研發、運維層面的運維職責的割裂,也加大了業務監控落地的難度。其次,Sunfire平臺長於海量叢集的規模化監控,而客戶本身的體量很難和阿里集團相比,同時企業上雲的規模也很難一下子擴充套件到較大的體量,可能我們能夠接觸到最大的客戶叢集規模也只相當於阿里集團規模的幾十之一。最後,Sunfire平臺秒級監控能力在外部企業的運維管理需求層面找不到場景:外部企業的指標監控多數是在分鐘級,同時部分傳統應用和系統向外暴露和產出資料的遲延也達到了數十分鐘,這種情況下討論秒級監控也失去了意義。在企業化監控的戰場上,Sunfire平臺引以為傲的優勢無從發揮,卻又面臨著諸多新的挑戰。

監控功能版塊建設的挑戰

05.jpg

來自Gartner的行業分析報告《2021 Strategic Roadmap for IT Operations Monitoring》指出,不同監控工具分層採集資料造成的割裂和壁壘正在消亡,以open telemetry為代表的開放協議進一步將各類監控資料透出和採集的標準推向統一。在雲原生可觀測性的大旗下,各類應用層的監控工具和產品不斷演進,不僅在指標(Metrics)、鏈路追蹤(Tracing)、日誌(Logging)三大領域不斷分開演進,更多地監控工具也在探索三者的融合。企業客戶需要監控系統方便地支援各類的應用形態以及響應的資料暴露方式,包括支援諸多的開源系統的監控。同時,監控物件和監控後設資料也需要具備更多的開放性。在此之外,視覺化領域的大盤、大屏等專注監控展示的介面的功能需要也是企業級監控。AIOps領域的智慧化監控見諸各種媒體報導,而在企業級場景實際落地並取得最佳實踐的產品卻並不多見。在企業級監控產品的市場上,針對異構資料採集能力、資料視覺化能力、智慧化能力等層面的監控功能需求越來越多地出現在企業客戶的需求文件和專案標書中。如果不能迅速補齊相應的功能版塊,則會在競標或PK的場合無法同競品平起平坐、參與角逐。

高效低成本交付的挑戰

To B的企業級軟體交付的難度和To C的網際網路產品以及公有云產品不可等量齊觀。即使是經過若干年打磨的成熟型通用化產品,也需要付出一定量的定製化開發成本,以讓產品的通用能力在企業具體的業務流程和技術環境中發揮使用。針對監控產品來說,企業客戶,特別是混合雲環境下的企業客戶,其組織管理結構和網路架構往往決定了監控類產品交付部署的複雜性。監控物件的組織需要和企業自有的CMDB進行打通,這往往又牽扯到雲平臺本身的CMDB和服務發現機制的聯動。監控使用者的組織結構也需要和企業客戶的行政管理結構打通,這才能保障監控報警資訊被高效地響應和處理。監控系統中的資料採集和傳輸,需要在客戶複雜的網路環境下高效工作,併兼顧企業級客戶資料安全和跨網頻寬成本的限制。為了應對和客戶上述的挑戰,監控產品的輸出往往伴隨著人力服務成本的輸出,用以解決上述的問題。而如果產品本身無法在可交付性和可運維性層面持續優化,讓周級別的交付成長縮短到天級或小時時,則產品本身的競爭力就會被大幅度削弱,甚至陷入無法交付的窘境。

監控整合的挑戰

和大型網際網路企業不同,各個行業的政企客戶往往採用傳統IT架構,及IT系統也可能是由不同的組織或供應商開發,研發和運維權責的歸屬往往情況各異。這就決定了客戶現場往往會存在不止一類的監控工具,這些監控工具或為開源工具,或為應用開發商自帶的監控工具,或為企業客戶自研的監控工具。在企業客戶現場存在監控運維領域“八國聯軍”的情況往往成為常態。而這也進一步加劇了監控資料之間的割裂,增加了企業運維的成本。傳統政企客戶也希望能夠統一技術框架和軟體選型,打造“大一統”的局面。但礙於各種原因,推動現有系統進行改造往往十分困難。作為企業級監控產品,如果無法有效地(無侵入式地)和企業客戶側的監控系統進行整合,則可能很難在企業客戶側發揮更大的作用。

面對諸多挑戰,Sunfire平臺在保持自身優勢的基礎上,進行了較大規模的功能和技術架構轉型,將從阿里集團監控平臺演進成面向混合雲場景下的一站式全景智慧監控平臺。在功能層面,Sunfire平臺做到了符合業界監控平臺化產品的主流趨勢並具備完整的功能廣度深度及開放能力。同時,在監控智慧化、時效性以及混合雲場景下的安全生產方案支撐層面具備了自己差異化競爭優勢。

直掛雲帆濟滄海:面向混合雲的一站式全景智慧化監控平臺

作為企業級監控平臺,Sunfire平臺為客戶創造的核心價值是提升客戶發現、定界、處理問題的效率,提升客戶雲上業務的穩定性和連續性。從這個價值出發,我們不僅僅需要通過以業務為入口的監控發現問題,更需要通過分層監控能力來幫助客戶定界問題,還需要通過高效的(報警)事件處理、定級和通知協同機制來幫助客戶進行應急響應和快恢預案的執行。Sunfire平臺的功能演進,也圍繞著這個思路展開。

全景智慧化監控能力
商業化版本的Sunfire平臺,在轉型之初就將集團版本“以業務監控為主,以應用監控為輔”的設計理念升級為“全景智慧化監控”,並在業務、應用及雲資源監控及智慧化監控層面進行了大量的功能演進和補齊。

06.jpg
07.jpg

業務監控是集團版Sunfire平臺的拳頭功能,我們在原有能力的基礎上,在業務鏈路編排、業務全景大屏以及API管理等功能進行了優化和增強。我們將集團版本凌亂的業務監控資料夾結構,演進成縱向的業務樹和橫向的業務鏈路,更加清晰地表述了客戶業務的層次結構和相互關聯。同時,我們在業務指標維度上也提供了多維下鑽的能力,幫助客戶更好地組織業務監控,發現故障時的影響面。為了滿足企業級客戶執行指揮和態勢感知的需求,我們和體驗及前端團隊合作,打造了全景監控大屏,能夠以美觀的方式展示業務層次和鏈路,以及應用和資源的狀態。同時,為滿足企業客戶二次開發的需求,我們還優化了Sunfire平臺的API體系,提升了API的使用、管理效率及安全性。

08.jpg
09.jpg

在應用監控監控層面,我們全面相容了prometheus生態,利用社群的力量,極大程度地提升了應用和開源元件監控的標準化程度。同時,我們也基於探針的方式支援了對於應用狀態、應用遠端呼叫的監控能力,更好地支援了細粒度的問題定界和排查。最後,我們通過和開源工具skywalking整合的方式,提供了應用鏈路分析的能力,補全了雲原生可觀測性中關於鏈路分析的功能版塊,動態地展現和監控應用及介面級的鏈路。在雲資源監控層面,作為阿里雲混合雲-雲效產品團隊的一員,Sunfire平臺無縫地整合了對阿里雲監控在雲例項監控層面的能力,同時全新提供了以應用為視角的雲上應用資源水位監控能力。我們還在不斷探索應用和雲例項之間的拓撲自動發現能力,助力更細力度的問題定界。

10.jpg

以“智慧基線”為代表的智慧監控策略一直是Sunfire平臺在AIOps領域的優勢產品,這套基於時間序列分析和機器學習的智慧監控框架經歷了阿里集團多年的線上故障發現和定級的磨礪。在商業化版本里,我們將智慧基線的時效性提升到秒級,同時將單指標智慧基線升級為場景化的“黃金指標”智慧檢測能力,可以自動地發現諸如“流量下跌”“效能下降”等發生在多個監控項的組合故障場景,且不需要人工實現在監控項上作規則配置。未來,我們的智慧化能力還會不斷在發現、定界、事件處理等多個維度孵化落地。

伴隨著功能演進,Sunfire平臺輸出版本的架構也由以實時計算為核心的架構演進為面向雲原生可觀測性的架構。Sunfire平臺對於promethes和skywalking兩個開源平臺的整合,並非只是組合部署,而是將開源軟體的架構與Sunfire平臺進行了有機的融合和增強。我們整合了prometheus的指標計算能力,也將其和Sunfire平臺的任務排程機制及儲存能力結合起來,讓promethues監控具備了高可用和規模化擴充套件的能力。我們將skywalking的服務發現能力和Sunfire平臺的後設資料結合起來,簡化了部署配置,也讓應用鏈路和Sunfire平臺的三層全景聯動起來。

在融合架構的支援下,分層全層的智慧化監控能力也不只是各層功能的羅列和堆砌,而是被全景框架有機的聯絡在一起。當問題發生時,Sunfire平臺具備三層橫向、縱向的穿透定位能力,幫助客戶發現雲上應用的問題並輔助定界。

面向混合雲客戶的一站式監控整合能力

如上文所述,混合雲客戶側往往已經存在和伴生了很多監控工具及平臺,如何能夠和這些企業級平臺協作和整合,是考驗監控平臺落地能力的一個關鍵因素。Sunfire平臺通過監控資料整合和監控報警整合兩個層面來實現對客戶側監控的整合。

Sunfire的業務監控、應用監控及監控後設資料分別具備極強的監控資料整合能力。業務監控的接入能力從單一的日誌資料來源,演進成為支援本地日誌、日誌平臺服務、資料庫(SQL)、應用探針、開源元件(ELK)等多種多樣的資料來源的接入能力,滿足了各類客戶的需求。特別是一些無法推動傳統應用改造的場景,可以方便地通過多資料來源的能力快速實現業務監控接入。應用監控基於promethues生態,支援數百種開源元件的監控接入和監控報警及展示能力。只要能夠被prometheus監控的物件,可以無縫被Sunfire接入。同時,Sunfire的後設資料發現能力能夠無縫整合k8s,讓基於k8s運維的客戶側應用能夠一鍵接入Sunfire。

11.jpg

對於無法採集或透出時間序列資料的已有第三方監控工具,Sunfire事件中間支援接入各類監控系統產出的報警事件。事件中心對於這些事件進行解析,並能夠結合監控CMDB和智慧化策略,對事件進行降噪、分類、定級和通告。事件中心可以實現對多個監控來源裡針對同一監控物件的報警事件進行統一的收斂和狀態跟蹤,避免客戶運維人員在多個監控平臺的報警間來回跳轉影響效率。

在全景智慧化監控的框架和監控整合能力的加持下,Sunfire平臺已經具備了故障發現、定界、處理的全生命週期能力,能夠更好地作為安全生產解決方案的核心產品在客戶側落地。

面向安全生產解決方案的服務化能力

在政企客戶數字化轉型的過程中,往往會面臨規模不斷增大、技術棧越來越複雜以及組織和人員日漸膨脹的局面。這些都給雲上資料化業務的穩定性和連續性帶來不小的風險。為了系統性應對和管控這些風險,阿里雲混合雲平臺和中國信通院一起,推出了業內首個數字化安全生產標準 《基於雲端計算的數字化業務安全工程要求》。基於此標準,我們也推出了面向企業客戶的安全生產解決方案,全面解決混合雲客戶雲上業務穩定性管理領域的問題。作為安全生產解決方案的核心產品,Sunfire平臺除了全景化智慧監控能力和事件處理能力之外,還將支援安全生產範圍內的故障定級、定界、快恢能力。

12.jpg

基於阿里集團業務故障定級規範的經驗,結合混合雲平臺的特點及客戶的需求,我們創新性地提出了雲平臺和客戶側應用業務一體化定級的理念。通過全景監控框架和雲平臺監控產品的整合,我們將針對雲底座、雲例項、雲產品、雲上應用、雲上業務五類監控物件的監控報警作為輸入,基於雲產品的高可用架構、雲產品之間的依賴關係以及應用級別等結構化基礎資料,產出平臺、應用、業務三個序列的統一定級結果,方便客戶基於故障級別確定影響面和決定應急協同的人員規模。基於全景智慧監控框架和監控整合能力所涵蓋的監控資料,我們基於業務、應用鏈路和雲資源拓撲等多種後設資料,結合自研的各類智慧化定界分析運算元(包括但不限於業務上下游流量分析、業務多維下鑽分析、應用鏈路分析、雲例項狀態分析等),提供主動式的故障定界產品能力。幫助客戶明確故障的影響面,以及鎖定故障根因的範圍,幫助客戶確定快速恢復業務的方式。一旦出現問題,平臺的第一選擇並不是查詢問題原因,而是儘可能地執行快速恢復的預案。Sunfire平臺將從應用(微服務)級的快速恢復能力入手,提供一系列自愈的自動化能力,供應急人員決策執行。未來,也將結合專有云應用架構,提供業務級和子系統級的快恢能力,包括和客戶側預案進行整合的能力,方便運維人員在一站式平臺上觀測系統並作出決策。

和客戶共同成長
從支援第一個外部客戶以來,Sunfire平臺產品已經輸出給了數十家企業客戶,落地在超過50個客戶混合雲現場,監控著超過2萬個客戶側雲上應用的執行容器(節點)。這些客戶遍佈能源、公安、政務、證券、金融等多個行業。我們欣喜地看到,Sunfire平臺正在幫助客戶建立起完整的監控體系,改變之前監控體驗殘缺或割裂的現狀,並讓客戶更放心地將核心業務和應用放在雲平臺上執行。

例如,在能源行業的頭部企業客戶側,經過半年多的共建,Sunfire平臺共接入200+應用服務的監控與管理;實現400+監控指標的部署,涉及100個業務場景,3000+監控物件節點,告警次數5000+。基於Sunfire的事件收斂能力,將日均700+的報警收斂為200左右,降低了客戶的運維成本。客戶側的領導每天會基於Sunfire平臺的監控告警進行業務及系統情況的梳理及優化方案的制定。2021年的一個早晨,Sunfire平臺的監控準確發現客戶業務故障,並通過報警通知客戶監控中心人員啟動應急,後通過回滾客戶應用版本後恢復業務。在這樣的表現下,客戶也給我們發來了表揚信,肯定了我們產品和服務的價值。

當前,我們已經和深度使用的客戶一起,在監控領域一起探索智慧監控、根因定界等領域的技術能力。我們可以期待,在不久的將來,這些能力會伴隨著我們的產品功能在客戶側落地,取得更好的效果。

放眼當下,Sunfire平臺作為阿里雲混合雲平臺的標準化產品能力,將會落地到越來越多的政企客戶的監控實踐當中,助力客戶保障雲上業務穩定性,讓客戶更加放心地用好雲。展望未來,Sunfire平臺作為連線IT系統和企業業務的重要樞紐,扮演著平衡業務質量和IT成本的重要角色。在數字化轉型的洪流中,Sunfire品平臺將和客戶一起成長,為企業的數字化治理髮揮更大的作用。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69986074/viewspace-2868352/,如需轉載,請註明出處,否則將追究法律責任。

相關文章