已經有 Prometheus 了，還需要夜鶯？

SRETalk發表於2024-05-09

原文網址 : https://www.cnblogs.com/ulricqin/p/18182868

談起當下監控，Prometheus 無疑是最火的專案，如果只是監控機器、網路裝置，Zabbix 尚可一戰，如果既要監控裝置又要監控應用程式、Kubernetes 等基礎設施，Prometheus 就是最佳選擇。甚至有些開源專案，已經內建支援了 Prometheus 協議的指標暴露，比如新版本的 Zookeeper、新版本的 RabbitMQ、Nginx vts 等等。Prometheus 的影響力可見一斑。

很多場景裡講到的 Prometheus 這個詞，其實已經不僅僅是 Prometheus 專案本身了，而是 Prometheus 生態，包括 Prometheus 定義的指標格式、傳輸協議、查詢語言、各類 Exporter 採集器、各類相容的儲存等。

在 Prometheus 生態裡，採集可以使用各類 Exporter，儲存可以使用 VictoriaMetrics，看圖可以使用 Grafana，看起來已經非常完備了，為啥又冒出一個“夜鶯（Nightingale）”的開源專案，還聲稱和 Prometheus 無縫對接？本文嘗試探討一二。

夜鶯介紹

從夜鶯官網摘出一段夜鶯專案介紹：

夜鶯監控是一款開源雲原生觀測分析工具，採用 All-in-One 的設計理念，集資料採集、視覺化、監控告警、資料分析於一體，與雲原生生態緊密整合，提供開箱即用的企業級監控分析和告警能力。夜鶯於 2020 年 3 月 20 日，在 github 上釋出 v1 版本，已累計迭代 100 多個版本。

夜鶯最初由滴滴開發和開源，並於 2022 年 5 月 11 日，捐贈予中國計算機學會開源發展委員會（CCF ODC），為 CCF ODC 成立後接受捐贈的第一個開源專案。夜鶯的核心研發團隊，也是 Open-Falcon 專案原核心研發人員，從 2014 年（Open-Falcon 是 2014 年開源）算起來，也有 10 年了，只為把監控這個事情做好。

後端程式碼：https://github.com/ccfos/nightingale

前端程式碼：https://github.com/n9e/fe

看完專案介紹，只能知道夜鶯是一個監控系統，到底和 Prometheus 有哪些差異點，暫時沒有看出來。別急，我們先來看看 Prometheus 的問題。

Prometheus 的問題

Prometheus 的採集、儲存、看圖都已經解決的挺好了。唯獨就是告警，對某些公司來講，可能會有如下痛點：

一個公司有很多套 Prometheus，規則分散在多個 yaml 中不方便管理
希望能有一套易用的、許可權隔離的 UI，把監控能力開放給全公司各個團隊並讓他們自服務，別啥事都來找監控團隊
直接使用 Promql 查詢資料、配置告警規則要求有點高，能否內建一些規則庫、查詢語句，讓知識可沉澱，讓普通使用者也能開箱即用
告警規則希望能夠更靈活一些，比如支援不同的規則不同的生效時間，能夠內建提供一些告警自愈的機制等等

夜鶯就是為此而生的。其實夜鶯老版本是自成體系的，脫胎自 Open-Falcon，但是隨著 Prometheus 大勢起來，夜鶯就開始擁抱 Prometheus 生態了。可以把夜鶯看做是時序資料的告警引擎。當然，夜鶯也提供看圖、儀表盤的能力，甚至可以檢視 Elasticsearch、Loki、TDEngine 的資料，不過當前現狀就是夜鶯的告警能力大家用的最多，儀表盤大都仍然使用 Grafana 居多。典型的夜鶯使用的架構如下：

可以用夜鶯完全替代 Prometheus 嗎？

其實不是替代的關係，是協同的關係。在夜鶯看來，Prometheus 主要是作為時序庫使用，除了 Prometheus 這個時序庫，還可以選擇 VictoriaMetrics、Thanos、M3DB、TDEngine 等其他時序庫。夜鶯呢，則只是作為一個時序庫的告警引擎，既可以對接 Prometheus，也可以對接其他時序庫，使用者在夜鶯裡統一管理告警規則，對異常資料做判定，產生告警事件，並做後續分發通知、告警自愈等邏輯。

另外，如果你有多個機房，時序庫分散在多個機房，機房之間的網路不好，即便發生網路割裂你也希望邊緣機房能夠自治不影響告警，夜鶯也非常合適。這種情況夜鶯稱為邊緣機房部署模式，時序庫和告警引擎下沉部署，網路斷了也沒事，網路好的時候還可以在中心端統一檢視資料，統一管理告警規則，其架構圖如下：

上例中，演示了 3 個機房的部署架構，其中機房 A 和中心機房之間網路鏈路很好，機房 B 和中心機房之間的網路鏈路不太好，各個機房都有時序庫。所以，中心機房的夜鶯告警引擎直接處理中心機房和機房 A 的時序庫，機房 B 的時序庫由機房 B 的告警引擎處理，也就是圖中的 n9e-edge，n9e-edge 會從中心機房的夜鶯同步告警規則，然後對本機房的時序庫做告警判定。

這樣一來，即便機房 B 和中心機房之間網路割裂，由於 n9e-edge 記憶體中早就同步到了告警規則，所以機房 B 的告警引擎還是可以正常處理機房 B 的兩個時序庫的告警判定工作。提升了監控系統整體高可用性。

什麼場景用夜鶯而非 Prometheus？

關鍵看你的痛點是什麼。如果現階段使用單點的 Prometheus 也可以很好的解決你的問題，完全沒必要換，在任何公司，技術工具的遷移都是會受到各種阻力的，懂的自然懂。

如果你有告警規則管理的痛點、邊緣機房告警高可用的痛點，那可以嘗試一下夜鶯。任何工具都有自己的優缺點，根據場景選擇。

夜鶯可以接收各類監控系統的告警統一做事件通知嗎？

有些朋友看到夜鶯可以對接各類時序庫，做告警判斷生成告警事件並分發，就想說，那我其他的監控系統產生的告警能否也交給夜鶯去傳送呢？這樣就可以統一管理告警通知模板、聯絡人、認證登入許可權等問題。

實際是不行的。這是一個典型的事件 OnCall 需求，收集各個監控系統（比如 Prometheus、Zabbix、Open-Falcon、藍鯨、各類雲監控、ElastAlert 等）的告警，統一做告警收斂降噪、排班、認領升級、按條件靈活分發等，這個需求要想做好，值得用一個單獨的產品來搞，我們姑且稱這個產品為 OnCall 產品。OnCall 產品和各個監控系統之間的關係是：

20240509115353