如何做好資料中心裡大本大宗的割接工作

知與誰同發表於2017-09-15

割接是對正在使用的線路、裝置進行操作,將會直接影響到上面承載的業務。割接是資料中心工作的重要部分,由於涉及到業務變更、軟體升級、裝置上下線等操作,可能會對現有業務造成影響,甚至中斷,所以割接也是資料中心工作中最具挑戰的部分。一次割接任務完成的是否漂亮,對資料中心未來的運營效果有很大影響,一般在割接之前都要做縝密計劃,確保割接順利。我們知道,資料中心裡的故障80%都是人為失誤造成的,而割接必然涉及到人為操作,出錯是必然的,哪個資料中心割接沒出過幾次小問題,只要能夠及時補救,一般不會產生過多負面影響,這緣於資料中心內部是一個非常龐大的資訊系統,成千上萬臺協同運轉,哪裡配合不好,都可能影響業務,達不到割接之前制定預期的效果。尤其是現在各種新技術不斷在資料中心裡落地,雖然提升了資料中心的執行效率,減少了人力成本,可一旦出了問題,排查起來非常困難,就算是頂尖的技術專家也難於對整個資料中心的系統技術都掌握,這都增加了割接難度,使得每次割接都像過鬼門關一樣。那麼,我們來看看資料中心業務割接有哪些需要注意的地方,避免犯錯誤,從而提升業務割接的成功率。

首先,要對割接方案進行評估,多大風險,尤其是對正在執行業務的系統是否有影響。根據評估,確定可能影響業務中斷的時長,然後提前向資料中心使用者發公告,對於重要大客戶要單獨溝通,得到大客戶許可之後,再發布割接公告,公告裡明確說明本次割接的目的,比如為了提升客戶訪問資料中心的速度、業務系統軟體升級、裝置更換等等,讓客戶一看就知道割接做哪些事情。公告裡還要講明割接操作開始和結束時間(基本都是夜裡兩點到五點的時間段),期間可能引起的業務中斷時長,具體訪問哪些業務會有影響。資料中心在割接之前,有主動告知的義務,讓客戶提前有準備,做好各種資料備份。

其次,要制定詳細的割接方案。包括割接的整體方案介紹、詳細的操作技術方案、回退方案、人力部署和分工安排、預期效果、割接過程中的資訊採集和資料監控等等。所以割接前,需要做大量的準備工作,準備得越充分,割接時越順利,也許割接時就幾分鐘甚至只是一個裝置操作命令,但準備工作也許要花費幾天甚至數月來準備,這就像嫦娥奔月工程,從嫦娥發射到飛到月球軌道,只有兩三天時間,但我們卻需要花費一兩年的時間來設計和準備工作,前期工作是海量的。要考慮到割接的過程中可能出現異常情況,針對出現不同情況有相應應對的方案,如果在割接前沒有考慮清楚,一旦出現預知之外的情況,將沒有應對方案,在短時間內很難想到很好的解決方案,這時如果處理經驗不足,往往就是執行回退方案,割接出現失敗。還有,割接的所有方案和技術操作都要符合資料中心規章制度和相關標準,不允許違規操作。比如:在重大節日封網期間操作,將高階別的裝置操作許可權交由低階別工程師,有低階別工程師代替操作,割接時要嚴格按照預定步驟,有條不紊地執行。對於特別重大的割接,還要搭建模擬環境,進行演練,有條件的話還需要在資料中心現網的業務環境中進行割接預演,根據模擬演練的情況,對割接方案進行完善,對不足的地方進行改進。

第三,要做好資料業務備份。不少資料中心的業務是不允許中斷的,資料更是不同於出現錯誤或者丟失的情況。這時就要啟動冗餘備份方案,比如可以在割接前將業務平滑切換到備份系統中,割接完再將業務切換回來,保持業務不受影響,有時還可以將資料備份起來,讓業務停轉,割接完成後,再啟動業務運轉,繼續使用備份資料,千萬不可出現無備份,業務裸奔的危險情況。最近,廣西移動在進行擴容割接時,就出現了誤操作導致使用者資料丟失的故障,影響了幾十萬使用者,十幾個小時手機無法通話,這就是一例明顯割接的準備工作不足,資料備份沒有做好的例子。無論在任何情況下,資料是資料中心最寶貴的資產,其中有太多千萬使用者賬戶資訊,一旦出現丟失或者錯誤,造成的影響都很惡劣,這比業務一時無法訪問還嚴重,就好比我們正在用電腦寫文章,突然電腦斷電,之前辛苦寫的文章因沒儲存全丟了一樣,害的自己還得重新寫,浪費不少時間,這比電腦斷電但之前寫的文章還在要嚴重地多,這樣我大不了等來電時繼續寫就行了。

最後,要做好監控和總結。因為割接幾乎都在後半夜進行,這時資料中心業務量最低,此時割接完可能看不出業務狀態,需要觀察一兩日業務的執行狀態,直到確認完全沒有問題割接執行部分才算基本結束。接下來就是要對這次的割接工作進行總結。資料中心裡的割接工作是比較頻繁的,有的資料中心甚至天天晚上都有割接安排。每次割接完後,都要針對割接過程中出現的問題進行分析,及時改進,並在下一次割接中避免。如果割接失敗,更是要總結失敗原因,對整個割接的過程進行詳細分析,調整後面的割接方案,避免同樣的錯不犯第二次。除了對發現的問題及時改進,也要總結經驗,將割接的過程中所見所得記錄下來,這些割接的經驗可以保留下來,供其它人員在割接時學習使用,從而提升整個資料中心運維人員的技能水平。往往在這種割接業務的關鍵工作中,才是最鍛鍊人的,也是很好的學習真本領的機會。
本文轉自d1net(原創)


相關文章