請站在使用者的角度考慮系統恢復(轉)

ger8發表於2007-08-09
有些事情,比如說系統的恢復,看上去似乎很簡單,但在實際操作中卻變得越來越複雜,讓人感到難以解釋。有些時候,之所以會出現這種情況是因為不同的人看問題的視角不同--比如說IT人員和使用者之間就存在這種問題;畢竟,同大多數使用者相比,IT人員對系統的瞭解要全面細緻的多。但是,還有一些時候,這種情況的出現是由一種誤解造成的:什麼是最重要的?IT人員和使用者的理解自然不同。我自己也是在親身經歷了慘痛的教訓之後才瞭解這些問題的。

我的經歷
我負責的由初級網路建築師和高階網路工程師組成的IT小組曾經負責一個網路安裝專案。美國山區時間一天早晨四點,我們忽然接到電話,報告系統出現了問題。幸運的是,當時我們正在處理測試中的資訊中樞出現的一些問題,所以大家的頭腦都很清醒。我與電話中心的負責人通了話。主要的資料中心出現了問題。全部中樞服務都關閉了。他需要我們的幫助,需要趕在東海岸的人們上班之前恢復一些服務。

我讓自己手下一半的員工回了酒店,另外一半留下來處理問題。在經過了最初幾個小時的混亂之後,我們已經使相當部分的系統執行起來,足夠使用者的穩定使用了。與此同時,電話中心和資料中心的工作小組也在拼命工作。當先回酒店休息的另外一半小組成員睡醒之後,他們也立即趕來協助。

我們在非常短的時間內迅速完成了郵件系統的改裝,使其不再依賴中央網路伺服器,這樣做雖然使郵件的路由變得複雜了,卻使服務得到了恢復。幾天後,ERP系統也完全恢復了正常。

儘管剛開始的時候情況有些混亂,但是從總體上來看,IT小組對於此次系統恢復過程還是相當滿意的。我們面對非常困難的情況作出了迅速的反應,透過連續奮戰使服務得到了恢復,甚至還透過一個新設計的電話系統隨時向公司的管理人員和員工通報系統恢復的進展情況。的確,有些工作我們是可以以更高的效率完成的。但是,我們畢竟也是普通人,不可能保證以最高的效率完成所有的工作,這點應該是大家可以理解的。

但是,我們的好心情沒能持續多長時間。由於無法得到自己想要的資訊,客戶們開始感到憤怒。從定貨到貨品傳送,大多數使用者在尋找自己需要的資料時都遇到了困難。有的使用者甚至公開質疑IT部門在過去的三天內是否確實採取了恢復系統的行動。

我與IT使用者組的一個負責人(我們就稱他Dave吧)通了電話。Dave告訴我說,現在公司上下都在對IT部門表示質疑和憤怒。看上去我們似乎在工作的過程當中忽視了某些對於員工來說至關重要的東西--NetWare伺服器上的一套電子表格,這套電子表格是每個員工在處理訂單的時候都要用到的。我們在自我慶祝的時候絲毫都沒有想到,我們的使用者幾乎無法進行他們的工作。

成功與失敗並存
這次經歷讓我學到了很多重要的東西,使我對系統的恢復操作有了新的更深的認識。這些認識既來源於這次經歷中的成功,也來自這次經歷中的失敗。

首先,從積極的方面來看,我們在這次系統恢復過程當中所採用的逐步恢復服務的計劃還是成功的,因為這樣確保了使用者可以首先獲得最基本的服務(登入,列印和收發區域內的電子郵件)。接下來,我們又恢復了我們認為最重要的點對點的通訊交流。在使用者能夠進行工作,客戶可以傳送訂單後我們才開始全面恢復所有的服務內容。

其次,我們的員工管理計劃進行的非常成功。我們把IT小組的成員分成了兩個小組交替工作,每十二個小時換一次班,這樣既保證了恢復工作的不間斷進行,又使員工們不會由於工作時間過長而感到疲勞,影響工作。我們還根據工作需要來調整不同崗位上的員工數量。剛開始只有一少部分的員工負責二級資料中心的工作,其他人都把精力放在了接電話,釋出資訊,處理服務層次上。隨著情況的不斷好轉,我們逐步的把員工都轉移到了二級資料中心。

再次,我們的溝通戰略雖然事先沒有經過演練,但卻以很高的效率完成了資料的釋出。我們成功的利用了各種正式和非正式的渠道。即使是那些對我們的系統恢復工作不滿的使用者也不得不承認我們的恢復過程的公開性和透明度。他們可以定期瞭解到關於系統恢復的即時資訊,在這一點上對我們有足夠的信任。

不幸的是,並不是所有的事情都像我們希望的那樣成功,那樣順利。就拿我們分層次的步驟來說吧。我們成功的恢復了那些我們認為重要的服務。但是,我們忽略了同使用者的溝通,沒有了解到對他們來說哪些服務是最重要的、是他們希望首先恢復的。有的時候,我們的猜測和判斷是正確的,但有的時候,也會出現錯誤。在有過了這次經歷的教訓之後,我明白了:既然使用者可以告訴我們他們認為哪些服務的恢復是最重要的,我們為什麼還要去猜測呢?

我們向使用者釋出的資訊有的時候也是互相沖突的。我們三個負責人(我本人,電話中心的負責人和資料中心的負責人)在向使用者釋出資訊之前並不總是能夠確定我們釋出的資訊是同步的。我們本來可以指定我們三人中的一人主要負責資訊的釋出工作,或者可以把這個工作交給CIO。但是,CIO太忙了,由於問題不僅僅出現在資料中心,他還有很多別的事情需要去做,所以我們不想再給他增加負擔。

注意二級ERP
我們得到的另外一個教訓是關於二級ERP的。我們把主要的精力放在了正式的ERP的恢復上。但是,大多數企業都有一個二級ERP,它由連線在一起的電子表格和桌面資料庫組成,對大量的日常工作進行處理。我們公司的二級ERP是建立在一臺舊的、沒有保護的NetWare文件伺服器上的。儘管公司的章程通常不允許我們為二級ERP提供正式的技術支援,但是有的時候,系統的恢復工作需要我們打破公司章程,以恢復二級ERP的商業功能。坦率的說,在問題發生之前,我們就應該將一些共享成分轉移到我們可以提供支援的伺服器上。

儘管隨著公司業務的不斷擴充套件,在各種各樣的系統恢復過程中我又遇到過很多其他的問題(法律上的,操作上的,以及公司政策上的等等),但是有了這次經歷中所獲得的經驗教訓,在系統恢復的過程中我始終保持著分層次處理的觀念,合理對員工進行配置,迅速進行協調溝通,並且從使用者而不是IT人員的角度出發。有了這些"法寶",遇到再麻煩的問題我都能夠從容妥當的處理了
[@more@]

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/7839396/viewspace-937693/,如需轉載,請註明出處,否則將追究法律責任。

相關文章