身為運維人員,該如何做好企業業務監控?

老男孩IT教育機構發表於2022-10-28

  通常情況下,大部分企業都會做基礎設施監控,認為做好基礎設施監控就可以解決大部分問題,至於業務方面監控,等有人來說了再處理也可以,殊不知這種想法會有多少隱患,以下是詳細的內容:

  業務監控要做什麼?

  1、Web站點監控

  對公網服務的Web站點,無論是SAAS的還是在我們自己部署的站點都需要進行站點URL監控。公網站點監控建議使用商業服務進行監控,因為這些服務通常可以從多個地域來檢測你當前站點的訪問情況,通常是站點狀態碼和響應速度的監控。

  對內網服務的Web站點也需要監控,因為內網是無法從公網訪問的,所以內網建議使用自建Prometheus去監控站點的狀態和響應速度。

  2、健康檢查介面

  此處做服務健康檢查介面監控,提供一個或多個監控API,監控應用自身狀態、監控應用和資料庫連線狀態,監控應用和中介軟體連線狀態。

  健康檢查介面建議統一使用/health路徑的介面,如果是三個介面那麼/app_health代表服務、/db_name_health代表資料庫連線狀態、/middleware_name_health代表中介軟體連線狀態。

  單獨介面返回APP_OK,db_name_OK,middleware_name_OK,多個介面返回OK表示服務和資料庫和中介軟體正常。

  有些JAVA的Sprint框架是自帶健康檢查介面的,這些直接使用即可。

  3、日誌監控

  首先,所有業務日誌要接入日誌中心。哪些關鍵字需要做告警?需要專案經理和開發負責人討論給出。確保有必要的關鍵字做告警,避免告警的泛濫。

  4、鏈路追蹤

  鏈路追蹤可以有選擇性的接入,如果業務比較簡單平時執行著也沒有什麼問題可以不用接入。一般業務如果上下游呼叫鏈較多,且業務邏輯比較複雜,同時會有大併發需求,對響應速度要求也比較高的可以接入。

  主要給使用者解決找出響應時間較長的API,並檢視是否函式中存在問題。有些商業的鏈路追蹤工具還可以看到SQL語句的問題。這些都可以幫助開發人員更好更快的解決業務程式碼中的問題。

  5、大屏監控

  針對業務大屏,首先我們要考慮哪些業務資料要放到大屏中?這裡建議放業務負責人或管理層關心的資料。比如:使用者線上人數、使用者訂單實時量資料。

  這些資料能讓業務負責人或管理層直觀的看到當前的業務狀況.還可以針對一些預估的異常值進行告警配置。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69952527/viewspace-2920920/,如需轉載,請註明出處,否則將追究法律責任。

相關文章