如何排除伺服器故障

把我給崩了發表於2016-06-17

  本文主要分三部分:第一部分講的是伺服器故障排除的基本原則性問題;第二部分講述了一些伺服器硬體故障排除的例項;第三部分講述了一些伺服器軟體故障排除的例項。

  第一部分 伺服器故障排除的基本原則性問題

  一、伺服器開機無顯示應怎麼辦

  1、檢查供電環境,零-火;零-地電壓

  2、檢查電源指示燈,如果亮,正常嗎

  3、按下電源開關時,鍵盤上指示燈亮嗎?風扇全部轉動嗎

  4、是否更換過顯示器,更換另一臺顯示器

  5、去掉增加記憶體

  6、去掉增加的CPU

  7、去掉增加的第三方I/O卡

  8、檢查記憶體和CPU 插的是否牢靠

  9、Clear CMOS

  10、更換主要備件,如系統板,記憶體和CPU

  二、伺服器故障排錯的基本原則是什麼

  1、儘量恢復系統預設配置

  a:硬體配置:去除第三方廠商備件和非標配備件

  b:資源配置:清除CMOS,恢復資源初始配置

  c:BiOS,F/W,驅動程式:升級最新的BIOS,F/W和相關驅動程式

  d:TPL:擴充套件的第三方的I/O卡屬於該機型的硬體相容列表(TPL)嗎

  2、從基本到複雜

  a:系統上從個體到網路:首先將存在故障的伺服器獨立執行,待測試正常後再接入網路執行,觀察故障現象變化並處理

  b:硬體上從最小系統到現實系統:指從可以執行的硬體開始逐步到現實系統為止

  c:軟體上從基本系統到現實系統:指從基本作業系統開始逐步到現實系統為止

  3、交換對比

  a:在最大可能相同的條件下,交換操作簡單效果明顯的部件

  b:交換NOS載體,既交換軟體環境

  c:交換硬體,既交換硬體環境

  d:交換整機,既交換整體環境

  三、伺服器故障排除需要收集哪些資訊

  伺服器資訊:

  1、機器型號

  2、機器序列號(S/N:如:NC00075534)

  3、Bios 版本

  4、是否增加其它裝置,如網路卡,SCSI 卡,記憶體,CPU

  5、硬碟如何配置,是否做陣列, 陣列級別

  6、安裝什麼作業系統及版本(Winnt 4, Netware, Sco, others)

  故障資訊:

  1、在POST時,螢幕顯示的異常資訊

  2、伺服器本身指示燈的狀態

  3、報警聲和BEEP CODES

  4、NOS的事件記錄檔案

  5、Events Log 檔案

  確定故障型別和故障現象:

  1、開機無顯示

  2、上電自檢階段故障

  3、安裝階段故障和現象

  4、作業系統載入失敗

  5、系統執行階段故障

  第二部分 伺服器硬體故障處理幾例

  硬體故障是指伺服器硬體出現異常而導致的各類錯誤。由於伺服器構成比較複雜,因此在檢查的時候必須認真、仔細。下面以一臺萬全4500為例說明。(例子,在實際問題中如果遇到相似現象,也需要具體問題具體分析,不要盲目套用)

  有一臺萬全4500,配有256M記憶體,使用一個PIII XEON 500帶2M快取記憶體的處理器。開機後沒有任何顯示,但系統日誌上提示了一條CPU電壓為0伏的資訊,系統指示燈三燈不停在閃爍(指示燈三燈閃爍是伺服器的另一種報警方式,我會在文後說明)。這種錯誤一般是處理器電壓調節模組(VRM)出錯或CPU出錯或CPU與CPU板塊接觸不良,但也可能是CPU板塊出錯,這時情況就比較複雜了,必須經過認真慎重的思考。因為CPU板塊在整個伺服器中,佔有舉足輕重的地位,如果它出錯伺服器是會報致命錯誤的,並且在系統日誌中會提示致命錯誤,但報CPU電壓錯的情況也有5%左右。我們立刻把CPU調換在另一CPU插槽中,開機後依然是剛才的那種故障。所以在初步判斷中,可以排除是CPU板塊壞。

  這時,取出CPU仔細擦拭金手指,以及CPU板塊中與CPU接觸的地方後,開機依然無顯示。

  相對處理器壞的情況來說處理器電壓模組(VRM)出現故障的情況比較大。於是立即在另一臺萬全4500中取下一個處理器電壓模組,安裝在此伺服器中。開機後,伺服器依然沒有任何顯示,系統日誌上依然提示CPU電壓為0伏的資訊,系統指示燈三燈依然不停在閃爍。這時的情況就比較明顯了。於是立即從另一臺萬全 4500中取下一個CPU安裝後,開機正常。

  總結:

  在伺服器的維修中,線索都會顯得撲朔迷離,一般來說不可能一次就可以準確地判斷出問題的所在。這樣就要求相關人員要有信心及耐心。出現錯誤一般的流程是透過系統日誌上的資訊來解決,如果沒有解決問題再找出其它因素,然後再看日誌資訊。總之,伺服器出錯後,必須一步一步解決,沒有捷徑可言。

  又如:

  有一臺萬全4200開機不顯示,發現開機時系統日誌沒有任何資訊,且系統指示燈不亮。初步判斷是電源方面出現了錯誤。經過仔細檢查,發現伺服器的電源是正常的,因此最大的可能就是伺服器的電源管理板出現故障。更換電源管理板後,開機顯示正常。但這時,新的問題來了:自檢時,用CTRL+M不能檢測到硬碟。

  硬碟在別的伺服器上是正常的,因此立即清除此伺服器的CMOS,但依然不正常。立刻上網找到此伺服器的最新BIOS,升級BIOS後也不能解決問題。又檢查硬碟籠子和伺服器裡的資料線及電源線後依然出錯。這時,一般情況會懷疑是伺服器的I/O板(輸入輸出板塊)有問題。但就在這個時候,我發現在I/O板上有一個非聯想的舊式網路卡,立即去除此網路卡後伺服器就一切正常。

  硬體故障並不單單指硬體有問題,它也指硬體之間不相容。因為伺服器的正常運作需要各部件之間的大力協調。建議大家在採購各元件時,都採用同一品牌原裝的,並且要採用能發揮伺服器效能的元件(上例中的舊式網路卡即使正常也會嚴重影響伺服器效能),這樣才不會發生莫明其妙的故障。

  還有一種情況:使用者需要把他的萬全3200升級到雙網路卡,我建議他購買原裝網路卡,但當他看到萬全 4500的網路卡是採用的INTEL 82559晶片後,斷然決定不使用原裝網路卡而採用另一品牌也採用INTEL 82559的網路卡。過了幾天,他打電話給我說,他的新網路卡不能使用網路冗餘及資料校驗,並懷疑伺服器有問題。維修工程師帶了一個INTEL 82559網路卡到使用者那裡,仔細檢查了伺服器的環境完全正常後,把INTEL 82559網路卡安裝到機器上後一切正常。這個例子更加說明了,要發揮伺服器的最大效能及功能,必須使用原品牌原裝的配件。非原品牌非原裝的配件,不能支援伺服器的某些功能,嚴重的會影響到伺服器的正常使用。

  要避免硬體故障發生頻率,伺服器管理人員必須注意伺服器的使用環境完全正常。比較重要的伺服器必須在恆溫、恆溼的環境;電壓也要符合,不僅要採用UPS,還必須接地線,必須是左零線、右火線,零地電壓在1~3伏。在開、關伺服器上必須符合正常的流程。工作人員必須嚴格執行操作流程。

  一般情況來說,伺服器維修人員對於硬體故障只要有豐富的經驗都能很快找出故障所在,如果不能解決就必須迅速與伺服器的售後服務中心020-32487454聯絡。

  第三部分 伺服器常見軟故障解決思路與例項

  伺服器軟體故障是在伺服器故障中佔有比例最高的部份,約佔70%,解決的過程必須更加深思熟慮。導致伺服器出現軟體故障的原因有很多,最常見的是伺服器 BIOS版本太低、伺服器的管理軟體或伺服器的驅動程式有BUG、應用程式有衝突及人為造成的軟體故障。下面分別舉例說明各類軟體故障的維修方法。

  有一臺萬全3500伺服器,配置為雙PIII 500帶521K快取記憶體的CPU、512M記憶體。開機後,系統日誌報電壓調節模組異常(VRM)的錯誤,報錯的資訊是:“Voltage Regulator Module (VRM) over/under-voltage 2.88V/0V”。從表面來看,極有可能是伺服器的電壓調節模組或其它硬體出現故障,極容易導致維護人員認為是硬體故障。維護人員立刻使用其它萬全3500的硬體來測試,發現即使使用新的配件,此伺服器依然報VRM錯。就在一籌莫展的時候,維修工程師帶來了最新的CPU管理板(CPU Management Control)的韌體(FIRMWARE),於是升級了CPU管理板塊的FIRMWARE後,伺服器恢復立即正常。

  FIRMWARE升級方法是, 1) 用軟盤啟動計算機,然後插入firmware軟盤並執行上面的相關檔案cabrillo; 2) 系統重新整理BMC(主機板控制器)和HSC(熱插拔背板控制器); 3) 然後系統詢問執行第幾個選項(通常為2); 4) 然後系統詢問伺服器的電源配置(通常為2); 5) 如果回答有兩個電源,系統詢問伺服器是否有輔助風扇——即在第三個電源(冗餘電源)的位置上 是否有風扇(通常為N); 6) 然後系統詢問是否重寫 BMC kernel use area;(通常為N)然後系統詢問是否輸入一個asset tag; (通常為N) 7)最後系統詢問在重新整理後是否要重新啟動系統;(通常為Y)。這種升級方法也適合重新整理系統BIOS等,命令的引數不同以及更新FIRMWARE及BIOS檔名不同,引數請參考伺服器的說明。

  任何一款伺服器的FIRMWARE及BIOS都會有不同的BUG,因為BUG在所難免,所以我們不能錯誤地認為伺服器的BIOS程式就很完善,而應該經常更新伺服器的FIRMWARE及BIOS,只是在升級之前應該小心謹慎,錯誤的升級方法將會導致嚴重的後果。

  目前流行的中高檔伺服器都擁有強大的管理程式,為客戶提供了方便的管理途徑;伺服器也擁有各種作業系統下的驅動程式,方便了客戶在各種作業系統中的使用。但是,世上任何一款程式都會有一些BUG,這些BUG將影響使用者使用。但是伺服器廠商總是會在第一時間內開發出新的程式,客戶只需要及時更新這些程式就可以避免這類故障。

  當伺服器的軟體故障為此類時,表現的現象也不盡相同。一般來說,管理程式BUG會導致系統速度變慢,CPU佔用率變高,無法正常使用某些功能等;驅動程式的BUG會導致當機、與某些軟體有衝突,磁碟工作不穩定等。檢視管理程式是否出錯的最好的辦法就是在系統中首先禁止此類管理工具,再觀察伺服器是否還是異常。由於管理工具是隨著系統啟動而啟動的,所以應首先避免它的啟動。以WINDOWS NT4為例,就首先在管理工具服務中禁用某些伺服器軟體服務,再修改登錄檔中的啟動項即可。如果是驅動程式有問題的話,就以安全模式進入系統,看是否正常。但是需要注意的是,在安全模式中,系統速度變慢是正常的(特別是磁碟I/O方面)。

  伺服器的維護人員就應該經常在伺服器網站上下載最新的管理工具程式及驅動程式。這樣會減少很大一部份軟體故障的發生。

  相比之下,軟體衝突造成的故障判斷比較困難,需要管理人員有比較豐富的經驗以及敏銳的觀察力。

  曾經有一位使用者說,他有一臺萬全的伺服器無法安裝SQL SERVER 2000,已經重灌N次NT了,排除是系統故障。而這唯一的伺服器又將作為非常重要資料庫伺服器,因此非常著急。於是維修工程師去了他的公司檢視。這臺伺服器所在的機房是非常標準、完善的機房,檢查了這臺伺服器的情況,發現並沒有硬體上的故障,於是排除了光碟機讀盤力差的可能。但是,使用者刻的SQL SERVER 2000光碟引起了工程師的懷疑,工程師讓他拿出了正版的 SQL SERVER安裝,結果還是不行。在安裝的過程中,沒有出現絲毫錯誤,可就是在執行的時候會自動退出,沒有任何提示。但是,我在管理工具中的事件檢視器的系統日誌中卻發現了一條資訊:windata.exe導致一個無效的資料溢位。Windata是使用者自己編寫的一個程式,而且是隨作業系統啟動而啟動的程式。我立即結束掉這個程式後,再執行SQL一切正常。

  對於此類軟體故障,操作員最好先檢視有關的日誌,看看系統中是否有可疑的程式。目前的伺服器無論是高階還是低端,對於SQL等標準程式的支援是相當可靠的,所以排除的重點就是結束可疑程式。

  還有一種軟體故障是人為因素造成的,它一般是人為誤操作(包括沒按操作流程的操作)、意外關機(包括電源突然不供電)或非正常關閉應用程式造成的。

  人為誤操作因素只要加強管理都可以避免此類故障發生。在這裡就詳細說明意外關機或非正常關閉程式造成故障的方法。

  正常關閉系統程式非常重要,尤其是WEB伺服器,一個使用者就是因為沒有正常關閉系統程式而經歷了一次資料損壞甚至丟失的經歷。

相關文章