海大集團的可觀測平臺建設實踐

SRETalk發表於2024-08-30

海大集團介紹

海大集團是以科技為主導的中國農業龍頭企業,1998年成立於廣東廣州,目前業務涵蓋飼料、種苗、動保疫苗、智慧養殖、食品加工等現代農牧全產業鏈,在全球擁有分子公司逾600家、員工達4萬人,位列2023中國企業500強第238位、2023中國民營企業500強第87位。憑藉亮眼的業務表現和品牌影響力,海大集團連續5年榜上有名,上榜2024年《福布斯》全球企業2000強第1415位。

海大集團

需求和挑戰

海大 IT 部門在構建統一觀測平臺之初,就定下了 4 個明確目標:

  1. 要覆蓋不同業務板塊(比如我們有眾多的業務板塊和業務系統)
  2. 要滿足異構的 IT 環境(容器/K8s、物理機、虛擬機器、公有云並存)
  3. 要打通從業務視角到 IT 視角的監控
  4. 要具備高效的故障發現和定位能力

在使用 Flashcat 方案之前,我們採用 Prometheus 來收集微服務的監控資料,並配合 alertmanager 傳送告警、Grafana 視覺化;使用 Zabbix 來監控網路和機器裝置;同時使用 EFK 技術棧、阿里雲日誌服務來收集和監控日誌;在鏈路跟蹤方面,既有用 SkyWalking、ElasticAPM,也有使用阿里雲 ARMS。

可以看到,隨著業務的發展和架構的演化,我們不斷地引入了各類監控工具,來滿足不同場景、不同環境、不同 IT 架構的監控需求。維護好和使用好這些監控工具,給我們帶來了不小的挑戰:

  • 多個監控工具,維護成本高;每個工具,都需要學習一遍,使用門檻高。
  • 資料分散在不同的系統中,在分析問題、定位故障的時候,效率低下。
  • 多個監控工具發出的告警,沒有地方集中檢視和分發,告警噪音大,告警處理過程不透明,容易遺漏。
  • 雖然已經有了這麼多的監控工具,仍然面臨監控資料採集不全、需要補充完善的情況,比如我們各種型號網路裝置的負載監控、網路全鏈路監控、業務指標監控等。

我們希望能夠建立一個統一的觀測平臺,更好地去保障系統的穩定性,提升整個技術團隊的效率。

解決方案

Flashcat 是快貓星雲以開源夜鶯為核心打造的一體化可觀測平臺,有以下特點:

  • 統一採集,配套的採集器Categraf,採用外掛化思路,內建整合上百種採集外掛,GPU、伺服器、網路裝置、中介軟體、資料庫、應用、業務,雲上雲下,均可監控,開箱即用;
  • 整合融合,除過使用採集器,還可以整合企業內部已有的、雲上雲下的可觀測配套系統,無需推倒重來,充分利舊,快速見效,串聯打通資料,發揮協同分析的價值;
  • 統一告警,在一個平臺上支援指標告警、日誌告警、智慧告警,支援幾十種資料來源對接,收集各類監控系統的告警事件,進行統一的告警收斂、降噪、排班、認領、升級、協同,大幅提升告警處理效率;
  • 統一觀測,將 Metrics、Logs、Traces、Events、Profiling 等多種可觀測性資料融會貫通,並預置行業最佳實踐,既提供全域性業務視角、技術視角的駕駛艙,也提供層層下鑽的故障定位能力,有效縮短故障發現和定位時間;

Flashcat

我們特別看重 Flashcat 這幾個特性:

  • 能監控業務指標,把業務指標和 IT 系統的健康度掛鉤聯動起來
  • 能對接企業已有的、採集好的資料,落地快速阻力小、風險也小
  • 有一套成熟的網際網路特色的故障發現定位方法論,能支援我們去推進 1-5-10 穩定性保障體系構建
  • Flashcat 提供的告警聚合降噪功能,能有效降低告警的數量

因此,我們和 Flashcat 技術團隊合作,制定了以下落地路線圖:

路線圖

落地效果

我們參照 Flashcat 的穩定性保障模型,對所有的業務板塊、基礎架構、大資料、集團網路,從上到下建立了北極星、滅火圖、多維分析報表,實現了故障發現、定位、分析的立體化方案。

板塊和層級梳理

其次,我們以資料來源對接現有的監控資料為基礎,同時採用Flashcat配套的all-in-one採集器Categraf,對我們的可觀測性資料進行了採集完善,從而快速、平滑的實現了使用一個平臺,滿足完整的可觀測性需求的目標,大大提升了使用者體驗和使用效率。

落地效果

最後,我們將原先分散的告警,全部收集到了Flashcat的統一告警事件響應平臺上,落地了告警聚合降噪、認領、升級、排班、分發等能力,實現對告警事件的全生命週期管理和對告警資料的全面分析,資料驅動告警治理最佳化,顯著提升了 oncall 效率。

本文作者海大集團IT系統副經理呂利兵。

相關文章