Flashcat與出行科技企業一起實踐多雲可觀測

SRETalk發表於2024-03-14

當前架構

某出行科技企業從單個公有云往多雲轉型,依託於國內領先的公有云提供商,採用多雲架構,在可用性、彈性、成本、供應商依賴方面,擁有了顯著的優勢。

相應的,多雲架構也給技術團隊帶來了一定的複雜度和技術挑戰,最顯著的就是如何高效的構建跨雲的可觀測性體系,提升故障發現、問題排查、效能分析等方面的能力。

可觀測性工具現狀:近10個分散的工具

跨雲使用多個雲監控工具,具體而言,存在以下痛點:

  1. 工具多,體驗不一致,技術團隊學習成本很高
  2. 儀表盤和告警策略的配置維護工作量大,需要在多平臺重複配置
  3. 資料孤島現象嚴重,關聯分析成本高,效率低
  4. 需要為所有研發人員開通公有云控制檯許可權,管理維護成本高,存在資訊保安隱患

特別的,當故障不可避免的發生時,最耗時的階段是故障發現、故障定位環節。在當前的可觀測平臺現狀下,技術團隊需要登入兩個雲平臺,挨個分別檢視各個監控工具的資料,這大大增加了問題排查的複雜性和耗時。

從故障中早恢復1分鐘,對使用者帶來的影響就會少一分,如何構建一個高效的故障發現和定位系統,也是可觀測性平臺建設的重中之重。

故障處理全生命週期

解決方案

Flashcat的目標是提供一個跨雲統一的可觀測性工具,使用 Flashcat,可以在一個平臺上完成指標、日誌、鏈路追蹤資料的統一採集、視覺化、告警、分析和OnCall,免去搭建和維護多套 Prometheus/Zabbix/Grafana/ELK/Jaeger/雲監控的工作量,遮蔽多雲監控的複雜度。

(一)落地效果:統一的監控平臺

利用Flashcat的多資料來源整合能力(包括Metrics源、Logging源、Tracing源、事件源四大類),透過對接資料來源後,使用者就可以在Flashcat平臺上,對這些資料來源背後的資料,進行集中的查詢、視覺化分析、告警等。

利用Flashcat整合多雲監控工具

以上,使用者只需要學習和使用Flashcat平臺即可,不用再面對之前分散的多個工具,具體我們從以下四方面展開介紹:

多雲統一的儀表盤

Flashcat儀表盤支援眾多的圖表,主要有時序圖、表格、餅圖、蜂窩圖、排行榜、儀表盤等,並和Grafana相容,本次落地過程中,把之前使用Grafana積累下來的皮膚,全部匯入到了Flashcat中。此外Flashcat內建的儀表盤模板也非常多,其中包括公有云產品,例如阿里雲ARMS、阿里雲ECS、JVM等,快速的補齊了監控看板。

多資料來源統一告警

針對接入的資料來源,利用Flashcat多資料來源統一告警功能,把騰訊雲和阿里雲的指標告警規則、日誌告警規則統一維護到了Flashcat平臺,降低了告警策略的配置維護工作量。

此外,當告警觸發後,透過Webhook把告警傳送到FlashDuty進行統一管理,包括聚合降噪、值班、分派、升級、觸達等,大大改善了on-call效率,釋放了工程師的人力。

Flashcat多資料來源告警

以日誌告警為例,當前業務告警嚴重依賴日誌告警,所以在接入SLS-logstore、SLS-metricstore、CLS後,就可以在Flashcat平臺上配置和管理這些日誌告警規則了:

Flashcat SLS日誌告警

Flashcat的日誌告警規則配置頁面,支援多查詢條件語法高亮、支援表示式模式、支援|| && 括號等運算方式,可以很好的滿足多雲平臺的日誌告警需求。

當告警觸發之後,在Flashduty平臺上跟進整個告警的全生命週期過程。不僅僅降低了告警的接收總量(壓縮率在80%左右),減輕了告警對工程師工作的打斷影響,也減少了因為告警漏處理或者未及時處理帶來的工作失誤。

(二)落地效果:高效的故障發現定位體系

在階段一,統一了多個雲廠商不同的工具的可觀測性資料。如何讓這些資料發揮價值,是階段二的落地重點。

Flashcat故障定位最佳實踐

參考Flashcat故障定位最佳實踐,分別構建了北極星滅火圖多維分析

北極星

指的是以核心業務視角,對業務健康指標進行實時的量化,進而發現“真”故障,並驅動起整個故障處理流程。所謂“真”故障就是指那些表示業務受損的指標,例如“乘客發單量”,“司機接單量”,“訂單撮合率”,“線上司機數”等業務最關心的指標。透過定義、提取、實時檢測這些北極星指標,技術團隊就能第一時間發現業務受損的情況並及時介入,真正做到先於使用者發現問題,先於業務發現問題。

從SLS生成北極星

最終構建起了適合出行業務特點的北極星指標體系,當這些北極星指標發生異常波動的時候,Flashcat的智慧檢測可以在1分鐘內發出電話告警。 出行北極星

滅火圖

指的是以技術視角,實時量化並展示IT系統健康全景,快速收斂故障範圍並確定故障源,引導使用者透過不斷下鑽排查定位故障。在滅火圖建設中,利用了Flashcat滅火圖模板快速匯入能力,對核心主流程上的每個模組和介面,都構建了對應的滅火圖卡片。

總結

經過雙方技術專家的共同努力,根據出行業務自身的特點和行業特性,結合快貓星雲在多雲統一監控方向的最佳實踐,構建起了統一的監控平臺高效的故障發現定位體系,最終為公司的多雲架構的落地增強了關鍵一環。

關於快貓星雲和夜鶯

夜鶯 (Nightingale) 是一款開源雲原生監控工具,是中國計算機學會接受捐贈並託管的第一個開源專案,在GitHub上有8000顆星,有數千家企業使用者使用。快貓星雲以開源夜鶯為核心打造的“Flashcat平臺”,是國內頂級互聯⽹公司可觀測性實踐的產品化落地,致力於讓可觀測性技術更好的落地和發揮價值。

近一年多來,快貓星雲服務了零售、遊戲、智駕等多個領域的標杆使用者,助力企業快速構建了行業領先的統一可觀測性平臺,比如:金拱門、海底撈、吉野家、高濟健康、益豐大藥房 / 叮噹快藥、UU跑腿、陽光出行、哈囉出行、小馬智行 / 莉莉絲遊戲、悠星網路、途遊遊戲、盛大等。

相關文章