機房驚魂記
這不是什麼鬼片,而是發生在機房的一次事故。
因為擴容需要,去機房新增一個盤櫃,然後把這些空間新增到主機,因為主機不能動態識別這些新新增的空間,所以重啟主機。主機上跑的業務不能停機很久,於是重啟命令敲完,準備接個顯示器上去看看啟動的過程,萬一需要按個F1或者碰見什麼故障暫停了,也好及時處理。沒想到驚險一刻很快就來了。
[@more@]顯示器電源往拖線板上一插,啪啪的冒了幾下火星,嚇了一跳,這倒沒啥,小時候剛學會玩電器的時候,被電、冒火星甚至電線燒掉都發生過,這點小故障嚇不到我的。不過恐怖的是馬上收到簡訊報警,開啟一看,儲存故障,抬頭看了一眼儲存,一片黃燈,這下知道問題嚴重性了,整個機櫃因為剛才的火星全部短路跳閘了,導致整個機櫃全部斷電!
我暈死,這個機櫃有儲存、光纖交換機、網路交換機,馬上開始檢查整排的機器,確認故障影響範圍,同時打電話通知電力維護人員進行檢查。還好,儲存是雙路電源的、重要主機的網路鏈路和光線鏈路也都是雙路冗餘的,檢查到最後,只有一個不是很重要的DATAGUARD是隻有一路光纖的,這個主機的庫已經宕了,因為生產庫已經出現日誌不能寫到備庫,報警已經收到了。
電力維護人員確認是一個保險跳掉了,重新開啟後,一切加電,開始恢復,重啟DATAGUARD的庫,測試主機往這邊的歸檔,應用正常。然後檢查其他一切業務也都正常,總算問題搞定,而且幸運的是,這個機櫃上跑的都是公司內部業務,停一會半會,跟兄弟們解釋下也還能說的過去。如果換做對外業務的生產系統,從停電到上電,然後開始主機重啟,重啟庫等等,沒有半個小時是搞不定了,半個小時,很嚴重的事故了!
這個讓我想起了一個比較誇張的說法,就是不要一個人去機房,萬一觸電了也沒人知道,看來還真的不是忽悠的。
經驗教訓:
1、能冗餘的一定要冗餘。這次就是因為大部分都是有冗餘,儲存沒宕,所以影響面還不是很大。
2、冷靜,一定要冷靜!
3、NOTHING IS IMPOSSIBLE!
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/25016/viewspace-1022835/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 《逆水寒》凶宅驚魂實用技巧詳解 《逆水寒》凶宅驚魂嚇人嗎?
- 程式設計師 12 小時驚魂記:凌晨遷移資料出大事故!程式設計師
- 記一次驚魂的Win10啟動卡死問題恢復過程Win10
- 《靈魂籌碼》一週年生日趴驚喜開幕
- 《孤島驚魂5》中的地形渲染技術-網格生成
- 機房上機總結
- 十月新遊前瞻 | 密特羅德、孤島驚魂 6、帝國時代 IV、旅行遊記
- IDC機房之UPS
- 機房合作總結
- 霧港驚魂夜:《劍與遠征:啟程》新賽季開啟
- 育碧:截至2023年《孤島驚魂 5》玩家人數已突破 3000 萬
- 育碧:《孤島驚魂5》是育碧本世代銷量最高的遊戲遊戲
- 《流言偵探》開發商WoodenWolf推出狼人殺新作《發條人驚魂夜》
- 房房房
- IDC機房運維心得運維
- 機房合作UI優化UI優化
- 機房重構總結
- 《孤島驚魂5》最低電腦配置要求和推薦電腦配置介紹
- 魂系之魂
- 機房運維的真香定律運維
- OpenMLDB 跨機房容災方案
- 跨機房ES同步實戰
- 韓國伺服器機房伺服器
- 香港主流的機房有哪些
- 《黃泉:孤島驚魂》正式版上線 一起來唱《小星星》
- 《孤島驚魂 6》GI 評測 9 分:傳承系列優點,實現自我超越
- TSINGSEE青犀影片匯聚機房動環智慧監控方案,提升機房安全穩定性Gse
- 《孤島驚魂 6》篝火評測:合格以上,突破未滿的育碧沙盒新嘗試
- 伺服器機房的組成伺服器
- three.js 製作機房(下)JS
- three.js 製作機房(上)JS
- [20200430]監測機房溫度.txt
- 平穩突破單機房容量瓶頸,B站離線多機房架構實踐架構
- 雜篇:計算機的世界:[-bit之魂-]計算機
- 類魂的魂在哪裡?——類魂遊戲設計思考遊戲設計
- IDC運維怎麼便捷配置機房交換機運維
- 同名驚悚電影全新改編 《女鬼橋二 釋魂路》將於5月9日發售
- 本月玩什麼 | 怪物獵人崛起 曙光、火紋無雙 風花雪月、採石場驚魂