HPUX Error 23 File table overflow

iteye_20954發表於2011-12-29
一套HP-UX 11.23+Oracle 10g 10.2.0.4 RAC環境,早上10點多發現節點1出現異常,在告警日誌中出現如下錯誤:
Thu Dec 29 10:56:43 2011
Errors in file /opt/oracle/product/admin/portal/udump/portal1_ora_24701.trc:
ORA-15025: could not open disk '/dev/vgarch/rraw02'
ORA-27041: unable to open file
HPUX-ia64 Error: 23: File table overflow
Additional information: 3
搜尋了下,該錯誤是因為開啟檔案數達到最大值造成的,於是檢視了下該節點的開啟檔案數:
sar -v 3 5 或者 kcusage nfile 都可以檢視
# kcusage nfile
Tunable Usage / Setting
=============================================
nfile 65924 / 66000
可以從上面結果看到這個值已經快到最大值了。
接著更嚴重的情況出現了,執行系統命令也會出現錯誤了:
# kcusage nfile
/usr/lib/hpux64/uld.so: Unable to open '/usr/lib/hpux64/dld.so'.
Abort(coredump)
$ crs_stat -t
aCC runtime: Uncaught exception of type "FatalCommsException".
Abort(coredump)
$ tail -1000 /opt/oracle/product/admin/portal/bdump/alert_portal1.log | grep -iE 'ora-|error'
sh: Cannot create a pipe.

同時同事在另一臺堡壘機上也登陸不了系統。
時間緊迫,只剩下另一個節點在跑著,想著趕緊把這個節點拉起來,手工重啟節點之後,問題得到解決,檢視了下nfile也降到了正常水平。
接下來的問題就是查下是oracle bug還是os bug,或者說還是預設引數值不適合,需要增加該引數的值。
附:
檢查作業系統的核心引數,可以使用作業系統管理器來檢視下引數設定值是多少:
/usr/sbin/sam命令可以開啟管理器,以此開啟Kernel Configuration--Configurable Parameters可以檢視具體的引數。
關於引數的設定,oracle建議設定如下:
nfile (15*nproc+2048)
nproc 4096
可以得出nfile=15*4096+2048=63488.
另外有網友說到如果要進行監控,那麼提醒閥值=oracle.process*oracle.datafiles+2048,極限值=nproc*oracle.datafiles。
-The End-


相關文章