機房驚魂記

zhang41082發表於2019-03-17

這不是什麼鬼片,而是發生在機房的一次事故。

因為擴容需要,去機房新增一個盤櫃,然後把這些空間新增到主機,因為主機不能動態識別這些新新增的空間,所以重啟主機。主機上跑的業務不能停機很久,於是重啟命令敲完,準備接個顯示器上去看看啟動的過程,萬一需要按個F1或者碰見什麼故障暫停了,也好及時處理。沒想到驚險一刻很快就來了。

[@more@]

顯示器電源往拖線板上一插,啪啪的冒了幾下火星,嚇了一跳,這倒沒啥,小時候剛學會玩電器的時候,被電、冒火星甚至電線燒掉都發生過,這點小故障嚇不到我的。不過恐怖的是馬上收到簡訊報警,開啟一看,儲存故障,抬頭看了一眼儲存,一片黃燈,這下知道問題嚴重性了,整個機櫃因為剛才的火星全部短路跳閘了,導致整個機櫃全部斷電!

我暈死,這個機櫃有儲存、光纖交換機、網路交換機,馬上開始檢查整排的機器,確認故障影響範圍,同時打電話通知電力維護人員進行檢查。還好,儲存是雙路電源的、重要主機的網路鏈路和光線鏈路也都是雙路冗餘的,檢查到最後,只有一個不是很重要的DATAGUARD是隻有一路光纖的,這個主機的庫已經宕了,因為生產庫已經出現日誌不能寫到備庫,報警已經收到了。

電力維護人員確認是一個保險跳掉了,重新開啟後,一切加電,開始恢復,重啟DATAGUARD的庫,測試主機往這邊的歸檔,應用正常。然後檢查其他一切業務也都正常,總算問題搞定,而且幸運的是,這個機櫃上跑的都是公司內部業務,停一會半會,跟兄弟們解釋下也還能說的過去。如果換做對外業務的生產系統,從停電到上電,然後開始主機重啟,重啟庫等等,沒有半個小時是搞不定了,半個小時,很嚴重的事故了!

這個讓我想起了一個比較誇張的說法,就是不要一個人去機房,萬一觸電了也沒人知道,看來還真的不是忽悠的。

經驗教訓:

1、能冗餘的一定要冗餘。這次就是因為大部分都是有冗餘,儲存沒宕,所以影響面還不是很大。

2、冷靜,一定要冷靜!

3、NOTHING IS IMPOSSIBLE!

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/25016/viewspace-1022835/,如需轉載,請註明出處,否則將追究法律責任。

相關文章