提升運維效率三倍以上 深度揭秘螞蟻業務智慧可觀測平臺

支付寶技術團隊發表於2022-08-23

 

美聯儲支付系統當機、亞馬遜雲服務當機、國內 B 站等網際網路服務平臺當機 …… 近年來,全球範圍內當機事件頻發,系統穩定性逐漸成為行業關注的焦點。

隨著網際網路服務深度融入生產生活,軟體需要完成多樣化的需求,勢必需要擴大系統、引入新興技術架構,資訊系統的複雜度迅速提升,這些都導致系統穩定性的挑戰愈加艱鉅。中國信通院雲端計算與大資料所馬鵬瑋認為,資訊系統穩定性成為業內焦點已經是必然趨勢。

為了幫助各行各業實現更高效的運維,為業務提供全方位的穩定性保障,近日,螞蟻數科釋出了業務智慧可觀測平臺BOS。該產品可賦能雲上雲下的異構應用獲得開箱即用的智慧可觀測能力,幫助企業提升運維效率3倍以上。在產品釋出會上,螞蟻數科的產品專家馬恆洋,對傳統IT運維存在的挑戰,以及業務智慧可觀測產品的功能進行了全面解讀。

傳統IT運維面臨的四大挑戰

目前各行業都在進行數字化轉型,比如建設 Devops、分散式架構、容器化改造等。在享受數字化和雲化帶來福利後,複雜業務場景和大規模使用者量,給今天的運維帶來了全新挑戰和更大風險壓力,主要挑戰如下:

一、業務數字化運維缺失:現階段大多數企業偏向於應用或資源視角運維,缺少從業務視角進行運維、運營的能力。並且企業的業務場景又紛繁複雜,比如面向使用者的手機銀行、微信銀行等,面向內部員工的財務、HR 系統, 以及面向夥伴的開放平臺等。這些複雜的業務場景沒辦法透過傳統運維手段將其量化和視覺化,更無法將業務與應用系統進行關聯對映;

二、鏈路的覆蓋率很低:40% 左右使用者體驗故障是由客戶端自身導致的,60% 左右是客戶端呼叫服務端或中介軟體引起的,所以原先單點請求呼叫變成了長鏈路呼叫,任何一筆請求可能經過客戶端-服務端-中介軟體等多個異構節點,每次出現故障時,運維人員無法快速感知呼叫鏈路上哪個環節出現異常或效能瓶頸;

三、運維產品多且割裂:很多企業都有購買和自建了各種監控產品,比如應用、中介軟體、基礎資源的監控等,這些產品由不同部門使用,同樣也建設了日誌和鏈路等運維工具,但故障發生時仍需人工手動的收集資訊,導致排障週期很長,比如應用出現故障時,可能是因為執行所在虛擬機器異常導致的,但卻是兩個監控平臺各自發出告警資訊,無法自動關聯;

四、運維資料無統一標準:海量運維資料不能實現資料的多維關聯分析,就不能支撐上層可觀測和智慧運維能力,更無法實現運維資料的分析和挖掘。

上述四類挑戰最終導致運維人員每天陷入到海量告警風暴中,但又無法準確發現故障;生產事故頻繁出現,但又無好的觀測和應急手段;並且每次故障都要拉齊相關的業務方、應用研發和運維等多方協同,效率不僅低下而且協同成本高。

如何應對這些挑戰呢?傳統方式是透過監控聚焦發現基礎資源故障點,以運維人員為主;近年來,雲原生興起,可觀測性概念與技術也得到很好的發展和傳播,針對應用系統提供各種觀測手段,如指標、鏈路、日誌,可以更好去發現系統故障的根因,將系統內部白盒化和感知系統內部正在發生什麼,使用者也從運維擴大到應用研發。

但面對複雜的業務場景,這還遠遠不夠。螞蟻集團有複雜的業務場景,而每個業務完成也都會經過很多應用系統,所以業務內部在發生什麼就變得很重要。螞蟻沉澱出將業務場景視覺化和資料業務語義化,以此實現業務和應用關聯對映。當業務異常時,可利用智慧化的觀測技術手段,以此實現快速的故障定位和恢復。

業務智慧可觀測服務的五大能力

業務智慧可觀測服務 BOS(Business-Intelligent Observability Service)是基於螞蟻大規模技術風險防控實踐自研的一套運維平臺,具有業務數字化運維、全息可觀測定位、智慧場景化防控、一體化資料分析和大規模實踐等產品特性,將業務場景視覺化和資料業務語義化,賦能雲上/雲下的異構應用開箱即用的智慧可觀測能力,為業務提供全方位的穩定性保障,建設業務觀測新正規化,讓穩定更有力量。

 

業務智慧可觀測服務包含以下核心價值: 

核心價值1:業務數字化運維

螞蟻有著上百個業務域,具有業務種類多、業務場景數量多、業務量級高等特性,所以就需要時刻檢測和發現業務異常,比如流量下跌/突增、流量失敗等。並且當業務異常時能夠提供快速診斷的能力,所以對鏈路、日誌和指標等觀測資料,按照業務場景模型進行聚合,以此提供業務數字化運維的能力:

  • 透過對業務鏈路和日誌資料融合,並增加業務依賴軌跡,可構建業務多階段模型,比如交易業務(交易建立-> 交易付款-> 交易支付成功),讓業務方、研發和運維人員都能過視覺化熟悉業務流程走向,並可自動感知到業務上下游依賴,以及透過業務影響面定義故障和拉齊應急;

  • 透過對鏈路和日誌資料融合,並增加業務語義行為,可自動聚合成業務單依賴鏈路,比如支付這個動作,支付業務在服務端的請求呼叫依賴是什麼樣的,當支付業務受損後,可檢視對應的業務鏈路,識別鏈路中的應用服務和中介軟體等異常節點,將業務異常與應用異常自動關聯對映;

  • 透過將指標和日誌資料融合,並增加業務語義維度,可靈活自定義配置豐富的業務指標,比如交易量和轉賬率等,並藉助全息可觀測能力去快速的發現和定位故障,提供業務連續性保證。

業務數字化運維從業務出發定位應急和視覺化系統,但這需要可觀測能力和資料已建設完成,我們提供一整套完整的定位充分度度量機制,去衡量可觀測基礎資料的完整性;並且根據業務優先順序和重要性,充分的梳理每個業務,實現更廣的覆業務蓋率,這樣就可以對平臺內的業務一目瞭然。

核心價值2:全息可觀測定位

端到端全鏈路觀測:提供從客戶端->服務端->中介軟體的分散式全鏈路追蹤能力,透過鏈路圖、拓撲圖和時序圖等多種視覺化方式,識別和鎖定鏈路呼叫中的異常點和效能瓶頸;針對客戶端應用,提供崩潰分析功能,以監控APP的閃退、卡死、卡頓等崩潰類事件,並及時上報APP對應的記憶體堆疊資訊,方便定位問題,此外還提供啟動分析、網路分析、電量分析、記憶體分析、H5 效能分析、小程式分析等客戶端監控能力;

提供豐富服務端效能監控,視覺化展現應用自身各方面執行情況,如應用的服務介面、資源使用、JVM Runtime 、埠存活等,並且將細粒度的觀測資料按照單服務、機房、單元化和應用等維度聚合,實現指標的逐層下鑽能力;並且真正意義上實現將指標、鏈路和日誌等可觀測資料進行超融合,比如 error 錯誤數可檢視對應錯誤日誌資訊統計、慢介面和慢 SQL 等指標可查詢對應的鏈路明細資料、單鏈路中可檢視應用執行指標和關聯日誌;

效能診斷分析:提供 CPU 快照分析、記憶體快照分析、執行緒分析、異常分析的效能監控能力,可真實還原始碼執行過程,幫助快速定位執行緒、堆疊等引起的程式故障。同時 Arthas 是診斷 Java 領域線上問題的利器,利用位元組碼增強技術,可以在不重啟JVM程式的情況下,檢視程式的執行情況;

故障定位自愈:將相關告警和異常事件按照風險維度進行聚合,提供單應用診斷、鏈路診斷、依賴診斷、故障決策分析能力,可快速定位到故障點,如已知風險事件,可自動觸發已配置風險預案,以此實現故障自愈能力;

應用安全治理:基於插樁技術將安全策略注入到應用執行時環境,來抵禦黑灰產網路攻擊的應用安全防護能力,RASP 安全技術可在應用執行時檢測攻擊並進行自我保護,其攻擊攔截防護率高達98.7%,RT<1ms ;當服務異常時,可基於 ServiceMesh 實現服務治理的能力,並在鏈路和監控中觀測 sidecar 節點,以此保證 sidecar 穩定性,避免對業務的影響,在服務治理介面提供豐富的觀測資料融合展現;最後與應用變更流程打通,可實現對變更流量的實時觀測能力。業務智慧可觀測服務真正實現了對應用全生命週期的防-治-變能力。

核心價值 3:一體化資料分析

業務智慧可觀測服務除了提供豐富的可觀測資料採集能力外,還能夠與第三方系統資料整合,按照符合開源 Open-telementry 標準協議的資料模型,對上報的資料進行預處理和二次計算,統一儲存到高可靠的資料庫中。

並對接第三方運維變更平臺的後設資料中心或CMDB,將異構後設資料轉換為統一技術風險後設資料,按照不同業務定位場景聚合為不同的影響面模型,如系統依賴影響、業務鏈路影響、客戶資產影響等,在影響面模型上融合時序資料,構建成實時技術風險資料中臺,使頂層可觀測能力和底層異構資料來源真正解耦。

 

一體化資料分析的目的並不僅僅是將資料進行統一納管,更重要的是對資料進行關聯分析,以此支撐各種技術風險場景運維,如故障診斷、根因分析、上卷下鑽等。用此解決業務來源下跌、服務損耗比等故障,比如當業務異常時,我們對業務的相關變更檢測、對業務相關應用診斷、和應用依賴分析等,之後將整個業務故障診斷鏈路上的所有異常點進行聚合推送給應急人員,以此在最短的時間內感知到故障影響面和作出應急決策,最終實現螞蟻技術風險應急的 1-5-10 目標(即一分鐘發現異常、五分鐘定位問題、十分鐘恢復故障)。

核心價值 4 :智慧場景化防控

螞蟻內部做了很多 AIOPS 演算法和工具的探索,最終沉澱出一套包含智慧演算法的部署、訓練、迴歸,以及決策的打標迴流完整演算法能力平臺。和告警模組深度結合,基於時序資料可將未出現過的突刺判定為業務異常,如突升/突降、緩升/緩降、跌零、長趨勢異常、頻率異常等。並給出當前點未告警的詳細原因,比如同比過濾、環比過濾、同升同降過濾等;且準確率穩定 > 90%, 能夠識別>5%漲跌幅的異常波動,智慧場景化防控幫助更多的企業實現自動化運維,釋放運維人力成本。

核心價值5  11.11大規模實踐

業務智慧可觀測服務作為安全生產和穩定性保障的眼睛,所以其自身的穩定性極其重要。業務智慧可觀測服務框架可針對不同量級觀測物件,實現快速彈性擴所容。所有元件皆是螞蟻自研,具有很強的技術兜底性保障。並且整個平臺在採集、計算、儲存等都具備超強高效能,以及支援多地多中心容災部署架構,可實現 4 個 9 的金融急容災能力,以此應對各種大規模場景,保障業務不間斷。

開放相容各類異構應用

今天越來越多的企業去建設可觀測體系和產品能力,因為觀測可以讓企業不同部門、人員都能夠獲得更大的競爭優勢。

對於運維工程師、研發工程師,透過全息可觀測能夠實現以可觀測能力,將業務設計-研發-執行-運維全流程融合,端到端全鏈路視覺化可定位呼叫瓶頸,一站式應用觀測可快速診斷故障根因;對於專案管理者、架構師可以透過業務影響定義故障,實現多部門協作應急,提供業務場景/拓撲/鏈路/大盤多檢視,實現業務與系統對映,打破資料孤島,以此實現業務化運營;對於企業可以降低業務生產故障,提供更好安全穩定性保障,以此實現安全生產的目標。

業務智慧可觀測服務會以更加開放和相容的形態對外提供服務。在阿里雲公有云提供全套業務觀測服務,可以搭配 SOFAStack 金融級雲原生分散式解決方案和其他阿里云云產品一同使用,更好的享受雲原生帶來便捷。同樣支援混合雲私有化的輸出,目前能夠部署在阿里雲飛天、vmware 虛擬機器、Kubernetes 容器、openstack 等多種異構環境,並且支援國產化架構,獲得了信創認證。

今天分散式和容器化應用僅佔企業系統的一部分,大部分的應用系統都在雲下,執行在經典虛擬機器上,這些核心系統同樣面臨著前述運維挑戰,而業務智慧可觀測服務能夠對各種異構語言、異構技術棧的應用系統,提供開箱即用的業務觀測能力,讓雲下的應用也享受可觀測技術紅利。

如果部分企業已基於開源產品進行可觀測的嘗試,比如 Skywalking、Prometheus 、EFK 等。業務智慧可觀測服務同樣能夠相容,可收集開源鏈路產品上報的鏈路資料、可採集基於 prometehus 協議生成的監控指標、可對接查詢 ES 的原始日誌,讓應用系統無縫且無成本的遷移到業務智慧可觀測服務上。

此外,螞蟻數科還提供SRE諮詢和配置服務。搭配螞蟻 SRE 的諮詢服務,可深入的調研和調了解企業運維現狀,並結合螞蟻的技術風險實踐,梳理出一份針對企業自身運維發展和 SRE 體系的建設的諮詢報告。除了業務智慧可觀測服務的產品,也提供相關的業務配置服務,根據企業的試點應用打造業務樣本間,如業務場景、業務指標、業務大盤、巡檢指令碼、故障診斷樹、預案等,並在配置過程中對企業人員進行賦能,可實現產品更好的落地和企業真正的自主可控。

目前金融行業的國有大行、股份制銀行、城商行、農信社、保險領域的多家機構都已經使用業務智慧可觀測服務。比如寧波銀行的可觀測和故障診斷自愈、中華財險的混合雲統一觀測平臺等。 

螞蟻集團數字行業事業部總經理餘濱表示:“未來螞蟻數科將提供更豐富的產品體系,並聯合相關的生態夥伴,去服務更多企業數字化轉型,讓業務智慧可觀測的產品、技術和服務給企業帶來更多價值。”

螞蟻數科是螞蟻集團的科技業務板塊,致力於將螞蟻集團在區塊鏈、人工智慧、雲端計算、安全科技等領域的核心技術能力持續對外開放,為中小金融機構數字化升級、小微商家數字化經營、產業鏈數字化協作和跨境服務數字化轉型貢獻力量。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69904796/viewspace-2911615/,如需轉載,請註明出處,否則將追究法律責任。

相關文章