DISK OPERATION ERROR,交換機級聯單模光纖鏈路故障解決

djb1008發表於2010-11-19
  1. 問題描述

兩臺IBM DS6800 分別放置在主中心機房和容災機房,透過B5000 McData4400兩個光纖交換機的級聯,實現LVM的容災.兩個交換機之間透過單模光纖連線,兩個機房的物理距離大致為3.5公里.

因為別的單位的施工導致了單模光纖的中斷 ,通訊公司修復故障後,單模光纖恢復連線,可能是光纖的連線節點增加或者接線質量的問題,光纖鏈路的損耗達到8.23DB.1公里的損耗大概是1DB.而容災中心的單模模組是4KM,所以連線雖然是通的,但中間不斷有連線故障,最終導致作業系統層報磁碟錯誤.

[@more@]

#errpt

DCB47997 1118230710 T H hdisk86 DISK OPERATION ERROR

DCB47997 1118211010 T H hdisk86 DISK OPERATION ERROR

DC73C03A 1118143810 T S fscsi0 SOFTWARE PROGRAM ERROR

DC73C03A 1118143810 T S fscsi0 SOFTWARE PROGRAM ERROR

D666A8C7 1118143810 T H fcs0 ADAPTER ERROR

DC73C03A 1118143810 T S fscsi0 SOFTWARE PROGRAM ERROR

DC73C03A 1118143810 T S fscsi0 SOFTWARE PROGRAM ERROR

D666A8C7 1118143810 T H fcs0 ADAPTER ERROR

D666A8C7 1118143710 T H fcs0 ADAPTER ERROR

C62E1EB7 1118143610 P H hdisk86 DISK OPERATION ERROR

……

如上,AIX不斷的報錯,差不多每一分鐘都在報'DISK OPERATION ERROR'的錯誤.

#datapath query device

DEV#: 2 DEVICE NAME: vpath2 TYPE: 1750500 POLICY: Optimized

SERIAL: 68947310208

==========================================================================

Path# Adapter/Hard Disk State Mode Select Errors

0 fscsi0/hdisk86 OPEN NORMAL 2743907375 193

1 fscsi0/hdisk88 OPEN NORMAL 0 0

2 fscsi1/hdisk94 OPEN NORMAL 2946584858 10

3 fscsi1/hdisk96 OPEN NORMAL 0 0

我們可以看到,儲存到主機的4個鏈路都是open/normal狀態.errors在不斷增加。

Hdisk86 是透過fcs0 裝置連線的,所以先檢查這個鏈路的情況

#lscfg -vl fcs0

Device Specific.(Z8)........20000000C98F0996

…...

Hardware Location Code......U5802.001.0080624-P1-C4-T1

  1. 問題分析

根據HBA卡的wwn(20000000C98F0996),我們確定了它連線的光纖交換機。這個交換機就是鏈路出現問題的那個;然後檢查透過這個交換機連線IBM DS6800aix主機的磁碟都在報錯。從而確定是這個鏈路恢復以後訊號衰減多於以前導致了鏈路的連線出現傳輸不穩定的故障。

  1. 問題解決

更換容災中心的單模模組,由原來的4km更換為10km的單模模組,經過半小時的觀察,OS層不再報'DISK OPERATION ERROR'的錯誤了,問題得到解決。

單模光纖的連線的衰耗的範圍為5-18,目前的這個鏈路的衰耗在正常的範圍內,問題出在單模模組的選擇上,容災中心的單模模組是4KM的所以無法實現正常穩定的通訊,更換為10km,鏈路恢復了正常。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/32980/viewspace-1041752/,如需轉載,請註明出處,否則將追究法律責任。

相關文章