linux伺服器平均負載上100,原因分析

weixin_34205076發表於2017-11-08

  公司內網有臺memcache伺服器經常掛了,是臺vm機器,ssh不能登入。用VM軟體進去,看到記憶體有溢位,所有命令都不起作用。只能通過VM的終端重起,每次重起後,沒過幾天,又掛了。因為是開發的測試虛擬機器,所以一直沒在意。

   今天又瞟了一下虛擬平臺,發現有紅色報警,無意中進去,看了一下TOP,工作這麼多年,沒見到過伺服器有這麼大的平均負載。

 

看程式是一個叫log2sh.sh佔用比較多,再看下它的程式數。總共有120多個

這是一臺memcache伺服器,沒有這個log2sql.sh,所以可以徹底結束這些程式,編一指令碼,執行一下。

再檢查一下計劃任務。crontab -l

   第三項,有個啟動log2sql.sh計劃,猜測,設計這個任務的管理員,應該是每12小時執行一下這個log2sql.sh。但因為前面有個*,所以變成了每分鐘執行一下log2sql.sh指令碼。這是一臺memcache伺服器,mcd_gmetric.sh與log2sql.sh與應用無關,去掉,只留NTP服務。

負載下來了很多了,目前是50多,再等等看。

負載到1了,CPU使用了0%,伺服器正常了。

 

經驗:即使是內網伺服器,管理員密碼還是要注意,不要隨便給出去,這臺機器有兩個部門知道密碼,不知誰在裡面弄什麼東西。



     本文轉自itwork 51CTO部落格,原文連結:http://blog.51cto.com/369369/761963,如需轉載請自行聯絡原作者




相關文章