卷組中的VGDA屬性帶來的系統可靠性問題

perfychi發表於2013-04-29

 From:http://zhaolinjnu.blog.sohu.com/62160449.html

為了保證系統的可靠性,我們常常要對rootvg做鏡相(mirrorvg),或對其它重要的卷組做鏡相.並不是說只要做了鏡相,我們的系統就已經足夠的 安全。如果volumn group的引數設定不當,例如vg的重要特性引數QUORUM是否關閉,如果出現硬碟損壞時,將直接影響著整個卷組的狀態。下面以rootvg為例來說 明quorum引數:

1.首先來檢視當前rootvg的quorum引數設定:smit chvg=>輸入rootvg即可

                                                       Change a Volume Group   
                                                                               
Type or select values in entry fields.                                         
Press Enter AFTER making all desired changes.                                  
                                                                               
                                                        [Entry Fields]         
* VOLUME GROUP name                                   rootvg                   
* Activate volume group AUTOMATICALLY                 yes                      
    at system restart?                                                         
* A QUORUM of disks required to keep the volume       no                       
   group on-line ?                                                             
其它資訊省略


當然也可以通過lsvg root檢視此引數值:

test_stb:/home/oracle>$lsvg rootvg|grep QUORUM
OPEN LVs:           10                       QUORUM:         1

對於一個卷組來說,quorum只有兩個值:一個是YES(數字值為3),另外一個值是NO(數字值 為1).與卷組quorum引數相關的物理結構是卷組中物理卷PV頭部的VGDA部份,而且每個物理捲上此部份的資訊的個數隨著vg裡面pv的個數而有所 不同,下面用圖示表示為:

 如果一個卷組中只有一個磁碟PV1,那麼將會在PV1上出現兩個VGDA;如果一個VG裡有兩個 PV(PV1,PV2),那麼在PV1將會有兩個VGDA,PV2上只有一個VGDA;如果一個VG裡有三個或三個以上的PV,那麼每個PV上將會只有一 個VGDA。至於每個盤上有幾個VGDA,可以通過命令檢視:

test_stb:/home/oracle>$lspv hdisk0|grep "VG DESCRIPTORS"
TOTAL PPs:          546 (69888 megabytes)    VG DESCRIPTORS:   2
test_stb:/home/oracle>$lspv hdisk3|grep "VG DESCRIPTORS"
TOTAL PPs:          546 (69888 megabytes)    VG DESCRIPTORS:   1

VGDA儲存這個vg上包括哪些PV,分佈有哪些lv,有哪些檔案系統。從上面的圖可以看出,如果其中的盤pv損壞,可以計算出丟失的比率。那quorum引數與vgda到底有什麼關係呢?

假設rootvg 裡只有兩塊硬碟hdisk0(2個VGDA),hdisk3(1個VGDA),我們實際的情況通常也是這樣。

當quorum=yes 的時候,如果hdisk0損壞,那麼只有33%的VGDA可用,而這個比例<=50%,此時AIX作業系統會自動把此rootvg varyoff下來.如果不是hdisk0損壞,而是hdisk3損壞,那麼rootvg裡還有66%的VGDA個數可用>50%,那麼 rootvg狀態不變,系統正常執行。

當quorum=no 的時候,不管你是hdisk0,還是hdisk3損壞,rootvg都不會因為一個磁碟損壞而把整個vg varyoff下來,系統照樣正常執行,及AIX作業系統不會以50%的閥值來check當前可用VGDA數的比率。這種引數設定下,只要及時更換損壞的 硬碟,就可以保證系統的可靠性。AIX5305安裝好後,rootvg QUORUM引數的值預設為No.如果沒有及時更換壞掉的硬碟,而系統又在這個時候需要重新啟動,那麼rootvg將需要強行varyonvg -f rootvg

上面只是以rootvg為例,其它vg也是這樣,但AIX作業系統對其它VG的QUORUM引數的默 認配置為YES的,通常情況下,其它vg的盤也比較多,所以通常情況下,壞掉一個硬碟,也不會將有效的VGDA比例拉到50%以下。況且其它vg的pv很 多時候都是使用儲存上的lun了,底層的一個硬碟的損壞,對於作業系統來說是看不到的,所以可用的VGDA的比率保持在100%。

偶原來都沒有注意到這個問題,這兩天參加2007 IBM SYSTEM P6經驗交流會時聽到的,接下來還有其它的會議內容(個人覺得值得講的)也會寫在blog上,與大家一起分享.

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/27042095/viewspace-759509/,如需轉載,請註明出處,否則將追究法律責任。

相關文章