一、背景
最近容器組在開發雲平臺的監控、報警功能。
大致的實現策略是:
1、雲平臺頁面上配置告警規則
2、Prometheus完成監控資料的聚合
3、當Prometheus聚合後的監控資料滿足告警規則,觸發釘釘告警
二、過程
1、告警規則配置,一般情況下,業務服務的服務型別為deployment。告警規則:Pod記憶體使用率大於50%
2、步驟1中建立告警規則時,會同步在Prometheus上建立一個相同規則的Alert任務
3、複製Alert任務的聚合表示式,可以在Graph中實時檢視到記憶體的佔用情況
4、收到告警通知
三、Chaos Mesh
那麼,是什麼讓記憶體的佔用突然增高到90%以上,從而能觸發告警條件的呢?(告警條件:Pod記憶體使用率大於50%)
Chaos Mesh登場了。
Chaos Mesh作為一個雲原生的混沌工程平臺,提供在 Kubernetes 平臺上進行混沌測試的能力。
Chaos Mesh包括針對Kubernetes上覆雜系統的故障注入方法,並涵蓋了Pod,網路,檔案系統甚至核心中的故障。
Chaos Mesh功能很強大,這裡只用到給Pod注入記憶體佔用。
步驟如下:
推薦:
https://www.kubernetes.org.cn/7443.html( 混沌網格(Chaos Mesh)的設計和工作原理 )
https://cloud.tencent.com/developer/article/1579651(kubernetes系列教程(二十)prometheus提供完備監控系統)