「服務端」node服務的監控預警系統架構

尚妝產品技術刊讀發表於2019-03-03

原文網址 : https://flycode.co/archives/285816

本文由尚妝前端開發工程師欲休撰寫

本文發表於github尚妝部落格，歡迎訂閱！

需求背景

目前node端的服務逐漸成熟，在不少公司內部也開始承擔業務處理或者檢視渲染工作。不同於個人開發的簡單伺服器，企業級的node服務要求更為苛刻：

高穩定性、高可靠性、魯棒性以及直觀的監控和報警

想象下一個存在安全隱患且沒有監控預警系統的node服務在生產環境下執行的場景，當某個node例項掛掉的情況下，運維人員或者對應開發維護人員無法立即知曉，直到客戶或者測試人員報告bugs才開始解決問題。在這段無人處理的時間內，損失的訂單數和使用者的忠誠度和信任度將是以後無法彌補的，因此對於node程式的業務開發者而言，這就要求程式碼嚴謹、異常處理完備；對於node框架的維護者而言，則需要提供完善的監控預警系統。

功能

當一個服務程式在後端執行時（daemon），作為開發者我們關注的資訊主要有以下幾點：

服務程式是否正在執行，isalive
服務程式的記憶體使用率，是否存在未回收（釋放）的記憶體
服務程式的cpu使用率，在計算量大的情況下是否需要分片處理、延時處理
服務程式的實時響應時間和吞吐量

而作為一個運維人員，關注的不僅僅是node服務程式的相關資訊，還包括物理主機的使用狀況：

物理硬碟所剩儲存空間
記憶體、cpu使用率
網路接入是否正常

可以看出，不管是針對主機還是程式進行監控，我們的關注點大多數是資源使用率和業務量處理能力，因此我們的監控預警系統也著重實現這些功能。

系統簡易架構

目前生產環境下的node服務大多采用多程式或者cluster模式，而且為了響應突發流量往往採用多機部署，因此監控和預警的目標實體就是多物理（虛擬）機下的多個子程式。

比如，目前node服務在單機上往往採用1+n的程式模型：所謂1，即1個主程式；n，表示n個工作程式，而且這些工作程式是從主程式上fork出來，同時根據經驗，n的值往往等同於主機的cpu核心數，充分利用其並行能力。那麼，採用該種程式模型的node服務部署線上上4臺物理機上，我們需要監控的則是4xn個程式，這涉及到了分散式資料同步的問題，需要尋找一種方法實現高效、準確和簡易的資料存和讀，並且儘可能的保證這些資料的可靠性。

在這裡，筆者採用了分散式資料一致系統ZooKeeper（下文簡寫為ZK）實現資料的存和讀。之所以沒有采用傳統的資料庫是由於讀寫表的效能，如為了防止多個程式同時寫表造成衝突必須進行鎖表等操作，而且讀寫硬碟的效能相對記憶體讀寫較低；之所以沒有采用IPC+事件機制實現多程式通訊，主要是由於node提供的IPC通訊機制僅限於父子程式，對於不同主機的程式無法進行通訊或者實現複雜度較高，因此也並未採用該種方式。

採用ZK來實現多節點下的資料同步，可在保證叢集可靠性的基礎上達到資料的最終一致性，對於監控系統而言，不需要時刻都精確的資料，因此資料的最終一致性完全滿足系統的需求。ZK服務叢集通過paxos演算法實現選舉，並採用ZK獨特的演算法實現資料在各個叢集節點的同步，最終抽象為一個資料層。這樣ZK客戶端就可以通過訪問ZK叢集的任意一個服務節點獲取或讀寫相同的資料，用通俗的語言來形容，就是ZK客戶端看到的所有ZK服務節點都有相同的資料。

另外，ZK提供了一種臨時節點，即ephemeral。該節點與客戶端的會話session相繫結，一旦會話超時或者連線斷開，該節點就會消失，並觸發對應事件，因此利用該種特性可以設定node服務的isalive（是否存活）功能。不過，目前node社群針對ZK的客戶端還不是很完善（主要是文件），筆者採用node-zookeeper-client模組並且針對所有介面promise化，這樣在進行多級znode開發時更可讀。

上圖是筆者設計的監控預警系統的架構圖，這裡需要著重關注一下幾點：

ZooKeeper部署與znode節點使用
單機內部node程式的程式模型：1+n+1
precaution程式的工作內容以及與master和worker的通訊方式

下面著重詳述以上幾點。

ZooKeeper部署與編碼細節

上節已提到，ZooKeeper抽象為一個資料一致層，它是由多個節點組成的儲存叢集，因此在具體的線上環境下，ZK叢集是由多個線上主機搭建而成，所有的資料都是儲存在記憶體中，每當對應工作程式的資料發生變化時則修改對應znode節點的資料，在具體實現中每個znode節點儲存的是json資料，便於node端直接解析。

在具體的程式碼中，我們需要注意的是ZK客戶端會話超時和網路斷開重連的問題。預設，ZK客戶端會幫助我們完成網路斷開後重連過程的簡歷，而且在重新連線的過程中會攜帶上次斷開連線的session id，這樣在session未超時的前提下仍會繫結之前的資料；但是當session超時的情況下，對應session id的資料將會被清空，這就需要我們的自己處理這種情況，又稱作現場恢復。其實，在監控系統中，由於需要實時查詢對應節點資料，需要始終保持session，在設定session expire時間的情況下終究會出現ZK客戶端會話超時的情況，因此需要我們實現現場恢復，需要注意。

程式模型

大多數開發者為了提高node程式的並行處理能力，往往採用一個主程式+多個工作程式的方式處理請求，這在不需要監控預警系統的前提下是可以滿足要求的。但是，隨著監控預警功能的加入，有很多人估計會把這些功能加入到主程式，這首先不說主程式工作職能的混亂，最主要的是額外增加了風險性（預警系統的職能之一就是打點堆快照，並提醒開發者。因此主程式內執行查詢、打點系統資源、傳送郵件等工作存在可能的風險）。因此為了主程式的功能單一性和可靠性，建立了一個precaution程式，該程式與主程式同級。

採用1+n+1模型並不會影響請求處理效率，工作程式的職能仍是處理請求，因此新的程式模型完全相容之前的程式碼，需要做的就是在主程式和precaution程式執行的程式碼中新增業務部分程式碼。

通訊方式

在監控預警系統中，需要實現precaution程式<-->master程式、master程式<-->worker程式、precaution程式<-->worker程式的雙向通訊，如打點記憶體，需要由precaution程式通知對應worker程式，worker進行打點完成後傳送訊息給precaution程式，precaution進行處理後傳送郵件通知。

首先，worker與master的通訊走的是node提供的IPC通道，需要注意的是IPC通道只能傳輸字串和可結構化的物件。可結構化的物件可以用一個公式簡易表述：

o = JSON.parse(JSON.stringify(o))複製程式碼

如RegExp的例項就不是可結構化物件。

其次，worker和precaution的通訊是通過master作為橋樑實現的，因此其中的關節點就在於precaution與master的通訊。

最後，precaution與master的通訊採用domain socket機制實現，這兩個程式是隻是兩個node例項而已，因此無法採用node提供的IPC機制，而程式間通訊可以採用其他方法如：命名管道、共享記憶體、訊號量和訊息佇列等，採用這些方法實現固然簡單，但是缺點在於兩個程式耦合度相對較高，如命名管道需要建立具體的管道檔案並且對管道檔案大小有限制。使用domain socket，最大的好處就是靈活制定通訊協議，且易於擴充套件。

node的net模組提供了domain socket的通訊方式，與網路伺服器類似，採用domain通訊的伺服器偵聽的不是埠而是sock檔案，採用這種方式實現全雙工通訊。

業務量計算和資料打點

這裡提到的業務量，指的是監控預警系統所關注的資料業務，如記憶體和cpu利用率、吞吐量（request per minute）和響應時間。其中，記憶體和cpu利用率可以通過linux下的相關命令如top來查詢，響應時間和吞吐量則通過koa中介軟體實現粗略統計。不過為了方便開發者把精力集中到業務上去而非相容底層作業系統，建議使用pidusage模組完成資源利用率的測量，而針對吞吐量筆者並未找到相關的工具進行測量，僅在中介軟體中粗略計算得出。

在precaution程式中，設定了兩個閾值。一個是warning值，當使用記憶體大小超過了該值則進行日誌打點，並開始週期性的node堆記憶體打點；另一個是danger值，超過該值則進行記憶體打點併傳送郵件提醒，根據附件中的近三個快照分析記憶體。

總結

採用上述監控預警架構，可以有效的實現多節點下多程式的監控，在確保程式可靠性的基礎上完成侵入性較小的、安全性較高的、可擴充套件性強的實現。以後不管是臨時擴張主機節點還是更改子程式數量，都可以瞬時在UI介面上直觀體現，如

vivo服務端監控系統架構及演進之路
2022-02-23
服務端架構
vivo 服務端監控架構設計與實踐
2022-02-21
服務端架構
運維架構服務監控Open-Falcon
2021-09-09
運維架構
Spring Cloud構建微服務架構-spring cloud服務監控中心
2019-02-18
SpringCloud微服務架構
微服務架構之「監控系統」
2019-05-21
微服務架構
搭建服務端效能監控系統 Prometheus 詳細指南
2024-06-19
服務端Prometheus
工服智慧監測預警系統
2024-10-05
Java後端分散式系統的服務監控：Zabbix與Nagios
2024-08-28
Java後端分散式iOS
vivo服務端監控老版本架構設計
2022-02-23
服務端架構
Windows遠端桌面服務漏洞預警通告
2019-05-15
Windows
服務監控工具
2024-12-07
架構設計 | 分散式體系下，服務分層監控策略
2020-09-17
架構分散式
vivo 服務端監控體系建設實踐
2023-01-03
服務端
硬貨！Zabbix監控AIX系統服務案例
2024-10-10
AI
Java服務端監控：Prometheus與Grafana的整合
2024-09-01
Java服務端PrometheusGrafana
Ubuntu下監控服務
2020-04-16
Ubuntu
mPaaS 服務端核心元件：移動分析服務 MAS 架構解析
2019-03-07
服務端元件架構
mPaaS 服務端核心元件：移動同步服務 MSS 架構解析
2019-04-17
服務端元件架構
基於Nginx+Keepalived的LB服務監控（郵件報警）
2018-09-20
Nginx
面向服務的架構
2022-05-27
架構
挑戰 - 微服務架構下的服務端測試
2020-06-14
微服務架構服務端
微服務架構，客戶端如何catch服務端的異常？
2024-03-06
微服務架構客戶端服務端
服務端思維指南 | 常用效能監控指南
2018-09-16
服務端
構建Spring Boot應用的微服務服務監控與告警
2024-08-23
Spring Boot微服務
SpringBoot系列——admin服務監控
2021-06-17
Spring Boot
node服務端渲染(完整demo)
2019-01-09
服務端
微服務架構中的服務邊界與服務識別
2018-08-23
微服務架構
.Net Core服務監控報警指標上報Prometheus+Grafana
2020-06-18
指標PrometheusGrafana
微服務架構—服務降級
2018-07-31
微服務架構
單體架構&微服務架構&中臺服務架構
2018-09-06
架構微服務
Grafana+Prometheus 監控 MySql服務
2018-08-13
GrafanaPrometheusMySql
prometheus監控golang服務實踐
2020-11-17
PrometheusGolang
談服務可用性監控
2020-12-24
智慧警務視覺化應用監控系統搭建
2020-12-01
視覺化
2018服務端架構師技術圖譜
2018-07-03
服務端架構
APM效能監控軟體的監控型別服務及監控流程
2022-06-08
型別
聊聊admin服務的架構模式
2023-09-22
架構模式
微服務架構之「服務註冊」
2019-04-08
微服務架構