Supervisor 管理程式,Cloud Insight 監控程式,完美!

OneAPM官方技術部落格發表於2016-05-19

Supervisor 是由 Python 語言編寫、基於 linux 作業系統的一款伺服器管理工具,用於監控伺服器的執行,發現問題能立即自動預警及自動重啟等。

Cloud Insight 是一款次世代監控工具兼資料管理平臺。使用 StatsD 採集效能指標,在 HBase 儲存之上,使用 OpenTSDB 來對效能指標進行聚合、分組、過濾。

使用 Supervisor 的原因

  • 如果你有很多程式在跑,不時還需要 start/stop/restart 一下程式
  • 如果哪天由於某種原因,程式掛了,你需要重啟程式或定時執行指令碼
  • 如果有多個程式,有些是同一專案,儘量可以同時啟動/停止等

如果你有以上任意一種情況,那用 Supervisor 管理程式無疑再合適不過了,把你所有 *nix 程式都配置進 ini 檔案中,這樣所有的程式就變成了 Supervisor 的子程式。對於子程式,Supervisor 可以做到準確管理(有 web 介面),可以進行分組,一組組的 或者授權非 root 使用者。

Supervisor 管理程式, Cloud Insight 監控程式

Supervisor 只能管理程式,對程式進行操作,但不能監控程式,雖然有 web 介面可以顯示/管理的程式,但不具備一般意義上的監控。例如實時展示程式資料,出現問題有相應報警郵件。

Cloud Insight 可以監控 Supervisor 管理的程式數量和執行情況,也可以單獨監控程式,也就是說程式無論是否被 Supervisor 管理,Cloud Insight 都可以監控。

Supervisor 管理程式,Cloud Insight 監控程式,完美!

像上面圖片這樣,監控所有程式的 IO 讀寫,記憶體,CPU,開啟檔案等等,也可以配置單個某一個程式的上述指標,檢視正常情況下程式的資源消耗,如果出現異常郵件報警。例如假死等情況發生的時候,程式也沒掛,但資源消耗會有異常,這些通過告警通通提前知道。

Cloud Insight 支援監控 Supervisor

Cloud Insight 不僅可以監控程式相關的資料,同樣支援監控 Supervisor。Supervisor 管理程式的啟動/停止/重啟,如果 Supervisor 本身出問題了,那前面那些程式操作也就執行不了,雖然 Supervisor 本身不會出現什麼問題,但這也不是萬無一失的,所以監控上還是好的。

監控程式,設定告警

如果有一個程式掛了,或者假死,怎麼能夠及時知道?

Supervisor 管理程式,Cloud Insight 監控程式,完美!

配置上圖這樣的報警策略:

  • 選擇效能指標:指標任意選一個 process 的指標,over 選定特定程式,例如 process:python 就是監控 Python 程式資料的。
  • 設定報警條件:設定一個閾值,達到閾值時會觸發報警;此外還可以配置設定資料丟失(程式掛了自然也就不會再傳送資料)時,直接傳送報警郵件。
  • 再下面,就是命名報警和設定通知使用者。

總之,如果你關心你的應用程式情況,或者在使用 Supervisor,不妨試試 Cloud Insight,永久免費版等你來用!

OneAPM Cloud Insight 集監控、管理、計算、協作、視覺化於一身,幫助所有 IT 公司,減少在系統監控上的人力和時間成本投入,讓運維工作更加高效、簡單。想閱讀更多技術文章,請訪問 OneAPM 官方技術部落格

本文轉自 OneAPM 官方部落格

參考文件:

相關文章