WGCLOUD分散式監控平臺:導致agent主機下線離線的原因整理

年少縱馬且歌發表於2022-12-05

agent主機下線問題,agent日誌列印 防篡改校驗失敗或者 防篡改校驗錯誤次數大於10次,不再上報資料


這個問題注意幾點,按照順序依次排查下


1、 wgcloud的server和agent的主機系統時間差不能大於15個小時,若時間差不超過15小時列印【防篡改校驗錯誤】類似資訊,忽略即可,不會有影響


2、 若是v3.3.5之前版本,server主機的9997埠(這是守護程式wgcloud-daemon-release的預設埠)要開放給agent主機,保證agent主機可以telnet通server的9997埠

若是v3.3.5或以後版本 ,9997埠已經不需要開放給agent主機訪問


3、 修改了守護程式wgcloud-daemon-release的預設埠導致的,server配置檔案和守護程式配置檔案沒有同步修改埠,檢視修改說明


4、若是v3.3.5或之後版本,檢視server本機是否能正常訪問獲得返回值,如:2faa233a1400201bedc199fe1d8ab393,若server主機的localhost不能使用,可以在配置檔案server/config/application.yml,將配置項daemonUrl: 中的localhost改成server主機ip


5、 wgcloud-server-release.jar不要編輯修改,若編輯過,還原到安裝包裡的wgcloud-server-release.jar即可


6、 server和agent要保持同一個版本號


7、server端的守護程式(wgcloud-daemon-release)不要關閉,特別是Windows注意不要關閉守護程式視窗。若是Linux,守護程式可能是被kill了,檢視守護程式是否還存活(ps -ef | grep wgcloud)

還有一種可能是server部署在Windows,不小心左鍵點選守護程式的視窗,進入編輯模式了,右擊恢復就好了

如果此原因導致的話,重啟server(守護程式會隨著server啟動)後,1小時內所有agent會陸續恢復上線,也可以手動重啟agent(立即上線)


8、 server如果執行在arm、龍芯等系統,需要將守護程式wgcloud-agent-release替換為對應的版本,點選下載


9、 如果server或守護程式(wgcloud-daemon-release)長時間沒有啟動執行,那麼當server重新啟動後,agent會在1小時內陸續自動恢復上線,不用重啟agent。也可以手動重啟agent,會立刻恢復上線


10、 可能是agent主機ping不通server主機,或訪問不到server埠,我們可以在agent主機使用ping [server主機IP]和telnet [server主機IP] 9999來測試連通性


11、如果是在docker部署 server,我們檢查下是否把config/application.yml中的守護程式url中的localhost改為宿主機ip了,如下

一般需要改下,除非是docker容器內可以訪問的話,那就可以不改

#守護程式訪問url,server服務使用,agent不使用(一般保持預設即可)
  daemonUrl: 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70024568/viewspace-2926700/,如需轉載,請註明出處,否則將追究法律責任。

相關文章