IBM DS6800 路徑訪問故障解決

djb1008發表於2010-12-28

故障描述

某資料庫伺服器在識別IBM DS6800LUN時,只認到2條路徑(應該是4條路徑)。而且兩次因為磁碟的報錯,導致資料庫異常停止。

[@more@]

路徑查詢的情況如下:

# datapath query device

# datapath query device

Total Devices : 4

DEV#: 0 DEVICE NAME: vpath0 TYPE: 1750500 POLICY: Optimized

SERIAL: 13ADLLA0116

==========================================================================

Path# Adapter/Hard Disk State Mode Select Errors

0 fscsi0/hdisk2 OPEN NORMAL 0 0

1 fscsi0/hdisk4 OPEN NORMAL 556091 0

2 fscsi1/hdisk10 OPEN NORMAL 0 0

3 fscsi1/hdisk12 OPEN NORMAL 1099717 0

DEV#: 1 DEVICE NAME: vpath1 TYPE: 1750500 POLICY: Optimized

SERIAL: 13ADLLA0201

==========================================================================

Path# Adapter/Hard Disk State Mode Select Errors

0 fscsi0/hdisk3 OPEN NORMAL 339906 0

1 fscsi0/hdisk5 OPEN NORMAL 0 0

2 fscsi1/hdisk11 OPEN NORMAL 839075 0

3 fscsi1/hdisk13 OPEN NORMAL 0 0

DEV#: 2 DEVICE NAME: vpath2 TYPE: 1750500 POLICY: Optimized

SERIAL: 68947310116

==========================================================================

Path# Adapter/Hard Disk State Mode Select Errors

0 fscsi0/hdisk6 OPEN NORMAL 63 0

1 fscsi0/hdisk8 OPEN NORMAL 1358237 4

DEV#: 3 DEVICE NAME: vpath3 TYPE: 1750500 POLICY: Optimized

SERIAL: 68947310201

==========================================================================

Path# Adapter/Hard Disk State Mode Select Errors

0 fscsi0/hdisk7 OPEN NORMAL 1340724 0

1 fscsi0/hdisk9 OPEN NORMAL 0 0

作業系統不斷在報磁碟的錯誤,如下:

# errpt|more

IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION

DCB47997 1202152710 T H hdisk8 DISK OPERATION ERROR

BFE4C025 1202151610 P H sysplanar0 UNDETERMINED ERROR

DCB47997 1202030810 T H hdisk7 DISK OPERATION ERROR

DCB47997 1202030610 T H hdisk7 DISK OPERATION ERROR

光纖卡FCS1,無法建立到儲存的鏈路,光纖卡資訊如下:

# lscfg -vl fcs1

fcs1 U7879.001.DQDKMAG-P1-C6-T1 FC Adapter

Network Address.............10000000C95A6A29

Device Specific.(YL)........U7879.001.DQDKMAG-P1-C6-T1

故障分析

確定是不是光纖卡FCS1有故障

IBM公司定了一個相同型號的光纖卡,更換掉舊的FCS1,重新配置光纖交換機的ZONE,重新配置DS6800hostconnect。在AIX中重新刪除vpath及相關路徑,重新cfgmgr識別裝置,仍然還是2條路徑,則判斷不是原來的FCS1的問題。

確定是不是主機有故障

更換了一臺主機,重新配置zonehostconnect,讓新的主機可以訪問出現故障的DS6800 LUN,仍然只有2條路徑。則判斷不是主機的問題。

確定是不是光纖交換機的故障

主機到儲存經過了brocade 5000 mcdata4400 的級聯鏈路。收集了光纖交換的supportshow資訊,提交給IBM後臺技術支援進行分析,沒有得到明確的答覆。

檢查了zone的資訊,刪除舊的zone,新建新的zone,重新認裝置,仍然只有兩條鏈路。很多主機都是透過這個級聯方式訪問該儲存的,路徑沒有問題。由此判斷不是光纖交換機和兩個不同品牌交換機間的級聯問題。

確定是不是IBM DS6800 的問題

收集了大量的IBM DS6800 的系統資料,提交給IBM 後臺進行分析。後臺發現了一些問題,主要是DS6800 1個儲存控制器找不到那張新換的光纖卡的資訊。IBM 後臺給出了兩個解決方案:

1.在圖形管理介面重新定義 hostconnect(不使用dsclirmhostconnectmkhostconnect命令),執行這個方案後,問題仍然存在。

2.使用圖形管理介面,分別啟動一下兩個儲存控制器,執行這個方案後,問題仍然存在。

故障解決

經過了前面多方面的分析與實驗,我確定應該是DS6800 裡面LUN與主機匹配出現了問題。

刪除主機相關的volgrp,hostconnect,新建一個新的volgrp,並分配新的lunvolgrp,然後重新hostconnect,在主機端進行cfgmgr後,可以認到4條路,由此可以判斷是舊的lun出了問題,lun(FBVOL)裡面的資料應該沒有問題,只是在DS6800 裡面的一些匹配資訊出現混亂,這與前段時間單模光纖鏈路被割斷,然後長時間才恢復有一點關係。

認到4條新的LUN的路徑後,刪除對這個LUN的訪問,恢復舊的LUN的訪問設定,在AIX中進行cfgmgr,也可以認到4條路徑,問題得到解決。

至於為何會這樣,IBM也覺得很奇怪,至今無法解釋。

# datapath query device

Total Devices : 4

DEV#: 0 DEVICE NAME: vpath0 TYPE: 1750500 POLICY: Optimized

SERIAL: 13ADLLA0116

==========================================================================

Path# Adapter/Hard Disk State Mode Select Errors

0 fscsi0/hdisk2 OPEN NORMAL 0 0

1 fscsi0/hdisk4 OPEN NORMAL 2017407 11

2 fscsi1/hdisk10 OPEN NORMAL 0 0

3 fscsi1/hdisk12 OPEN NORMAL 1910209 0

DEV#: 1 DEVICE NAME: vpath1 TYPE: 1750500 POLICY: Optimized

SERIAL: 13ADLLA0201

==========================================================================

Path# Adapter/Hard Disk State Mode Select Errors

0 fscsi0/hdisk3 OPEN NORMAL 2064767 0

1 fscsi0/hdisk5 OPEN NORMAL 0 0

2 fscsi1/hdisk11 OPEN NORMAL 1819045 0

3 fscsi1/hdisk13 OPEN NORMAL 0 0

DEV#: 2 DEVICE NAME: vpath2 TYPE: 1750500 POLICY: Optimized

SERIAL: 68947310116

==========================================================================

Path# Adapter/Hard Disk State Mode Select Errors

0 fscsi0/hdisk6 OPEN NORMAL 0 0

1 fscsi0/hdisk8 OPEN NORMAL 1276713 9

2 fscsi1/hdisk14 OPEN NORMAL 0 0

3 fscsi1/hdisk16 OPEN NORMAL 1971563 3

DEV#: 3 DEVICE NAME: vpath3 TYPE: 1750500 POLICY: Optimized

SERIAL: 68947310201

==========================================================================

Path# Adapter/Hard Disk State Mode Select Errors

0 fscsi0/hdisk7 OPEN NORMAL 1443626 0

1 fscsi0/hdisk9 OPEN NORMAL 0 0

2 fscsi1/hdisk15 OPEN NORMAL 2299279 0

3 fscsi1/hdisk17 OPEN NORMAL 0 0

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/32980/viewspace-1043760/,如需轉載,請註明出處,否則將追究法律責任。

相關文章