不幸運的世界(才華橫溢的HP現場工程師)

tonykorn97發表於2008-03-25

前言:
由於各種各樣的原因,CE瑣語已經停筆很久了,但是諷刺性的生活卻一直在進行,各種各樣的想法卻一直充斥在腦中,雜亂,但並不瑣屑。無意打翻一本老舊的字典,撿起一看,看到一個神奇的單詞“Apocalypse”,發呆,頓時又想起寫一點無聊的東西,啟發一下無奈的自己。


你出去買爆米花的時候,銀幕上偏偏就出現了精彩鏡頭。


已經有太長時間沒有胡言亂語,窗外一片春光明媚,辦公室裡的sales們也不再歇斯底里的辱罵著電話的那一端,使用者也不再在電話威脅我們如果不趕緊修好就要控告我們云云,我都不知道怎麼來用諷刺性的灰色幽默來描述生活了,難怪唐朝的李白杜甫們總是在被他們老闆貶職到荒山野嶺,才能寫出些飽含血淚憂國憂民的詩詞,……鄙視。
我對大家說:“咦?資料不丟了,機器不hung了?是不是不太對勁?”

下午去使用者那邊開會,看到了旁邊機房裡的superdome,那是一臺曾經讓我懂得很多除了UNIX之外的人生哲理的大傢伙。——紅色attention燈居然都沒有閃,一片綠綠的runng和power燈,看著真不讓人習慣。
心不在焉的聽使用者領導做報告,於是想起了這臺superdome的輝煌歷史。
偶唯一一次凌晨4點被電話從床上拖起來的經歷(凌晨1點被拖起來的不算),歸功於這臺PA-RISC的superdome。說實話,如果不是因為這次的經歷,我其實對superdome一直是蠻有好感的,深灰色的主機,碩大的身軀,每次用top命令都幾乎看不到尾部的CPU列表,dmesg看記憶體大小的時候還要驚歎“靠,32G,比我這破筆記本的硬碟還大”,強啊,整個就是一航空母艦。
自從培訓的時候就對superdome產生的美妙幻想,直到第一次對superdome進行維修的時候破滅;當我罪惡的雙手把這一堆價值連城身形碩大神秘高貴的寶貝機器開啟,取下cell板,取出system backplane的時候,發現無非也就是一堆積滿灰塵的cpu和記憶體條,我想起大學時死黨對我的訓誡“再漂亮的女人,底細無非也就那樣……”頓時心情沮喪得不得了。
在那樣一個原本充滿幻想的凌晨,我的電話中醒來,艱難的從使用者不標準的普通話中得到了我最不想要的資訊——“你們的機器down了,在最關鍵的月底出帳的時候down了!”
等我睡眼惺忪的衝到機房裡的時候,superdome已經起來了,但是,機櫃門上血紅的fault燈在不合適宜的常亮著,和使用者圓睜的怒目一樣,不敢直視。
“機器已經起來了,但是你們superdome為什麼這麼容易down?”質疑聲在我的腳步剛到機房邊的時候就已經飄過來了。
“我看看情況。”我決定先穩下來,在主機的console上,並且懷著不可告人的目的搜尋著,試圖找到一點能幫自己解脫尷尬境地的線索,比如使用者的誤操作,比如應用程式的錯誤,比如機房電源環境不穩定,我真陰險。
什麼都沒有找到,除了ts99中亂七八糟的HPMC資訊和/var/adm/crash下面黑壓壓一片crash檔案,教科書般標準的HPMC現象。主機crash本來並不可怕,可怕的是使用者的MC/SG環境並不十分完善,雖然package能夠切換到備機執行,但是有部分資料庫業務無法在備機上執行,使用者不同意切換到備機,我寒……
“這兩天是我們出帳的時間,必須在今天之內修好!!”使用者的資訊中心主任如是說。銷售也打來電話,說使用者的領導已經把這事反映到總部去了,影響比較大,後果很嚴重……
趕緊要在偶們工會里找強人了,不然大夥會栽在這個副本里。一到上班,偶就藉助老闆的力量,找到了偶們工會的60級法師——劉為剛大師。劉大師分析了整個故障歷史狀況:
1、4個月之前,出現過相同的故障現象,主機反覆HPMC,根據HPMC的decode,指出某條bus有問題,故障源可能是io chassiss—mid plane--Reo Cable—system backplane—cell board,結果是小弟我換了io chassis / mid plane/ system backplane後,故障消失。
2、2個月之前,又出現了相同的現象,根據HPMC的decode,故障描述還是一樣,還是指出該條bus有問題。當時為了徹底根除病根,我們又換了system backplane,和cell board。
這次的HPMC 的解碼結果,居然還是一樣,我們居然被同一顆石頭絆倒了3次!
現在唯一沒有更換過的就是RIO了,“難道是傳說中最可怕的RIO cable的問題?”我冒汗。劉大師點頭,很肯定的樣子。前幾次出現HPMC的時候,我們分析,RIO cable的結構很簡單,幾個連線線而已,而且綁紮和固定都非常好,幾乎不可能出問題,所以我們的懷疑物件都集中在CELL board / backplane這些大傢伙上,RIO cable出問題的機率實在太小。況且,這勞什子的更換步驟簡直……
劉大師最終的意見:更換RIO cable吧(劉大師的口氣中透著同情)。我翻看service manual,手冊上寫著:It is very difficult to remove the RIO cable, you should remove everything in the cabinet, then………,我靠,什麼叫remove everything……,再看看機櫃內部的結構,我幾乎哭了,這cable原來是埋藏在機櫃內部走線槽中的,必須把所有的chassis, backplane, 托架,連線,全部都拆出來,把機櫃都掏空,比分屍案還殘忍……
我不知道我一個人是否能更換RIO cable,而且白天這臺superdome又HPMC了3次,使用者的投訴愈加強烈,我再次求援,“老闆,如果你不想來幫我收屍,就派個強壯點的兄弟過來,我們晚上要大幹一場了”老闆很理解,於是從浙江調來了另一個60級的戰士——猛男趙。
話說這位趙兄,身高185, 胸圍110,肌肉發達,傳說在浙江移動痛打superdome,蠻毆XP512,無人能敵,確實了得。偶大喜,引至現場,薦與主任,主任無語……
當天晚上的戰況讓我瞭解到,召喚猛男來助陣絕對是個正確選擇。我和趙兄各執兇器,把superdome給肢解成20多塊,把機櫃內全部拆空,總算把埋在深處的RIO cable給挖出來,換掉了。我指著地上的一大攤superdome備件,悲情滿面的說,老趙,把這一堆玩意裝回去,還能用麼?
管不了那麼多,不等我們祭奠完,主任就來催了,“什麼時候能搞完?”我和趙兄七手八腳的把一堆零件給裝回去,還用JUST給測試了一把,貌似正常,我倆才戰戰兢兢的開啟電源。
自檢——10秒中斷——啟動OS,機器居然還是正常起來了,我第一次覺得不可思議,就像看到被大卸八塊的人居然有復生了一樣。
我說:主任,好了。
主任:真的好了麼?要是再出問題呢?
我說:這玩意要是再出問題,我就把superdome的櫃門吃掉。
趙兄:……

我這麼說是有原因的,因為這次的故障還是和以前的一模一樣,而沒有更換的part只剩下這條cable了,我確信這是硬體引起的HPMC,而且還有劉大師為我們撐腰……
當然,最後,我沒有把單價1000多美元的superdome的櫃門吃掉,這臺該死的主機平穩執行了幾個禮拜,再也沒有down。這一系列複雜神秘恐怖費解的靈異故障事件原來是因為埋藏在一大堆數價值十萬美元零件中成本僅大約20塊的破cable真的出了問題,就有這麼不湊巧。
於是,我瞭解到:
1、這個本來就缺乏奇蹟的世界上原來還是有這樣不湊巧的奇蹟發生。
2、感謝RC的法師們,你們遠端殺傷,斃敵於千里之外;感謝onsite的戰士們,你們吸引了使用者的怒氣,充當肉盾,讓我們的法師能安心進攻;感謝無所不能的老闆,你們幫我們加血,加魔法值,加備件;感謝CCTV,感謝Channel [V]……

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/312079/viewspace-245843/,如需轉載,請註明出處,否則將追究法律責任。

相關文章