prometheus 問題排查 grafana頁面資訊查詢不全

liwenchao1995發表於2024-11-28

目錄
  • prometheus 問題排查 grafana頁面資訊查詢不全
    • 問題描述
    • 問題排查

prometheus 問題排查 grafana頁面資訊查詢不全

問題描述

登入客戶生產環境,grafana監控redis叢集的頁面,應該有6個節點,但是現在每次重新整理,只能出現2-3個節點的資訊,有的時候甚至一個節點資訊都沒有。

問題排查

首先登陸prometheus的節點, curl http://xxxx/19100 ,curl訪問exporter的埠,發現都不通。 登陸exporter的節點 發現埠都是存活的,透過頁面訪問mertics 發現也能抓到資料,說明exporter本身工作沒問題。

然後在exporter上檢視防火牆,發現防火牆是開著的,且沒有對prometheus的server放開。索性關閉防火牆,返回grafana頁面,發現還是老樣子

問題升級,登入prometheus本身的檢索頁面,curl http://xxx:19090, 檢索頁面發現有個粉紅色警告資訊,檢索條件 redis_up ,發現和grafana頁面一樣,偶爾只能重新整理出幾個redis節點,有的時候甚至一個都沒有。所以判斷是 prometheus和exporter之間出了問題

Warning: Error fetching server time: Detected 296.73200011253357 seconds time difference between your browser and the server. Prometheus relies on accurate time and time drift might cause unexpected query results.

這說明prometheus和exporter之間的時間間隔較大。登入prometheus和exporter,透過date發現時間間隔差了5分鐘,而這些伺服器本身無法訪問外網,也沒搭建ntpdate時間伺服器
所以透過同步prometheus 和exporter之間的時間

sudo date -s "2024-11-28 10:00:00"
# 寫入硬體
sudo hwclock -w

最後,重啟prometheus,登入prometheus,檢索 redis_up 發現能發現所有redis節點了
登入grafana驗證,發現也能看到所有節點了

相關文章