CM agent 傳送heartbeat給CM server 不斷髮生 connection refused:timed out
1、首先測試 cm agent 連線至 cm server 7182埠,看是否聯通(是連通)
2、然後嘗試 hard_restart agent 後依舊無法修復
3、觀察到許多 hive bdr 依舊和 cm server 保持通訊,開始懷疑是同步任務壓力過大。強制停掉此agent後,kill 掉後臺所有的hive程式,再啟動這個 cm agent)
service cloudera-scm-agent next_stop_hard
service cloudera-scm-agent stop
ps -a | grep hive #找出hive程式號
kill -9 [程式號]
service cloudera-scm-agent start
結論:由於跑了太多的hive replication,所以有好幾個datanode掛了。需要hard stop,kill掉後臺的hive程式後再重啟。
