2024 年了,IT 運維監控系統都有哪些推薦?

SRETalk發表於2024-08-12

大浪淘沙,2024 年的今天,市面上很多監控系統慢慢淡出了大家的視野,而一些新的監控系統也逐漸嶄露頭角。今天我們就來看看 2024 年的當下,哪些 IT 運維監控系統最值得關注。

Prometheus

Prometheus-architecture

毫無疑問,Prometheus 是最值得關注的監控系統,因為 Prometheus 的規範和生態都非常厲害,很多中介軟體、資料庫,直接就內建支援了 Prometheus,比如 ETCD、Kubernetes、RabbitMQ、Nginx VTS 等等,這個勢能是非常強大的。

尤其是在容器和微服務監控場景,Prometheus 生態是不二之選,因為:

  • 由於資源的生命週期比較短,通常是基於服務發現來發現監控目標,而不是資產管理式(Zabbix就是資產管理式)。
  • 多維度篩選的需求強烈,比如透過標籤聚合、過濾、分組等。需要一個針對性的 Query Language。PromQL 就是為此而生。

當然,這裡我們說的是 Prometheus 生態,至於是否真的使用 Prometheus 二進位制倒不一定,因為 Prometheus 本身的儲存和查詢效能並不是很好,所以很多公司會選擇使用 Prometheus 的相容產品,比如 VictoriaMetrics、Thanos 等。

Grafana

Prometheus 可以搞定資料採集、儲存問題,並提供查詢介面、查詢語言,但是對於資料的展示,Prometheus 本身並不是很強大,通常大家會選擇使用 Grafana 作為展示工具。

Grafana 不僅僅為 Prometheus 提供了很多的 Dashboard 模板,而且還支援多種資料來源,比如 InfluxDB、Elasticsearch、Loki、MySQL、PostgreSQL、CloudWatch、Zabbix 等等。Grafana 的視覺化能力,基本就是開源領域的標杆甚至事實標準了。

Grafana Dashboard

Nightingale

Nightingale

很多公司有多套 Prometheus,我在社群裡見過一個公司有 200 多套 Prometheus,四五套、八九套的更是比比皆是,此時,大家就很想統一管理,比如公司有 8 套 Kubernetes,每套 Kubernetes 都有一個 Prometheus,這些 Prometheus 的資料類似,告警規則通用,每次修改一個告警規則,要修改 8 套 Prometheus,這就很麻煩了。另外,監控能力作為基礎能力,通常是開放給公司所有業務研發團隊,需要一些許可權管控、知識沉澱的能力,Nightingale 可以幫助你解決這些問題。

Nightingale 的核心是做一個告警引擎,支援對接 Prometheus、VictoriaMetrics、Thanos、M3DB、Loki 等多種資料來源,統一管理告警規則。而且考慮了邊緣機房網路割裂的場景,即便是邊緣機房和中心機房之間的網路壞掉了,邊緣機房內部也可以自閉環生成、傳送告警。

Zabbix

Zabbix

Zabbix 相對比較老了,擅長伺服器、網路裝置的監控,不擅長 Kubernetes、微服務的監控,由於越來越多的公司採用公有云,公有云自然搞定了硬體、網路裝置的監控,所以 Zabbix 的市場份額在逐漸下降。

國內很多公司在使用 Zabbix,社群較為活躍,很多公司基於 Zabbix 封裝了商業化產品,如果你是網工或系統運維,Zabbix 還是值得關注的。

其他

當然,還有一些其他的監控系統,比如:Cacti、Nagios,都太老了,不推薦使用。Cacti 在網工圈子裡還是有一定的市場份額,Nagios 基本銷聲匿跡了。

監控作為穩定性保障的重要手段,涉及到的內容非常駁雜,如果您找乙方協助構建監控、可觀測性方案,歡迎聯絡我們做產品技術交流:https://flashcat.cloud/contact/

相關文章