linux kernel引發的oracle問題及解決

jeanron100發表於2013-12-16
最近測試環境的連線數老是不夠用,session/process 都相應的從5000提到了8000,但還是不夠,而且還是不斷有新環境需要增加。最後根據評估,session數需要50000左右
根據粗略的計算來說,process也需要調整,按照如下的公式.
sessions=(1.1*process+5)

把semmns做了大幅度的調整,從32000調到了70000
> cat /proc/sys/kernel/sem
250     32000   100     256

> sysctl -a |grep sem
kernel.sem = 250        70000   100     256 


第二天收到郵件說變更已經部上去了。說Process只調到了16000,當時看到郵件也沒在意。
以下是監控的指標圖,幾分鐘抓一個session報告。生成的圖表如下。


開始兩天,發現有了很大的改進,連線能夠正常關閉,而且session數不到7000的樣子。根據反饋沒發現連線數的問題。
過了兩天發現session數到8000以上就開始很吃力了。而且會時不時的有一些連線不上的情況。我寫了個指令碼,抓session快照的時候也有時候連不上庫。
檢視alert和listener日誌,有以下的錯誤資訊。

--&gtfrom Listener.log
03-DEC-2013 12:43:41 * (CONNECT_DATA=(CID=(PROGRAM=JDBC Thin Client)(HOST=__jdbc__)(USER=testwrk34))(sid=TEST)) * (ADDRESS=(PROTOCOL=tcp)(HOST=172.19.192.41)(PORT=56631)) * establish * TEST * 12518
TNS-12518: TNS:listener could not hand off client connection
TNS-12536: TNS:operation would block
  TNS-12560: TNS:protocol adapter error
   TNS-00506: Operation would block
Linux Error: 11: Resource temporarily unavailable


--&gtfrom DB alert log
Errors in file /opt/app/oracle/aaa/admin/TEST/diag/rdbms/TEST/TEST/trace/TEST_psp0_30562.trc:
ORA-27300: OS system dependent operation:fork failed with status: 11
ORA-27301: OS failure message: Resource temporarily unavailable
ORA-27302: failure occurred at: skgpspawn5
Tue Dec 03 12:38:05 2013


在MOS上檢視相關的資訊,說是nproc的配置太低了,無法分配程式了。
但是檢視nproc的情況,感覺沒什麼問題。
*               soft    nproc   32768
*               hard    nproc   65536

我就有些糊塗了。檢視機器上其它的例項程式數,加起來都不到200個。

繼續檢視session的情況。最後反覆驗證,確認session數到8000的時候就開始有問題了。就開始琢磨nproc為什麼沒生效。
想到幾天前的郵件,一檢視,終於發現了端倪。

他們當時起庫的時候,發現已經報了proc的錯誤,當調整process的時候,庫直接起不來了。
SQL> startup
ORA-27154: post/wait create failed
ORA-27300: OS system dependent operation:semids_per_proc failed with status: 0
ORA-27301: OS failure message: Error 0
ORA-27302: failure occurred at: sskgpwcr2
ORA-27303: additional information: semids = 264, maxprocs = 45000
SQL> exit                                             

起庫的哥們已檢視nproc的配置,db process設定為16000的時候庫才能起來,然後他就直接設定為了16000,然後還有一些其他的問題,直接順手解決了。
test2 @test1:/root > grep nproc /etc/security/limits.conf 
#        - nproc - max number of processes
#@student        hard    nproc           20
#@faculty        soft    nproc           20
#@faculty        hard    nproc           50
#ftp             hard    nproc           0
*               soft    nproc   8192
*               hard    nproc   16384

SQL> startup
ORA-04031: unable to allocate 15193312 bytes of shared memory ("shared pool","unknown object","sga heap(3,0)","KEWS sesstat values")
SQL>
Tunning sga 
*.sga_max_size= 6442450944  ==> 8442450944
*.sga_target=6442450944     ==> 8442450944

SQL> startup
ORACLE instance started.

Total System Global Area 8417955840 bytes
Fixed Size                  2233168 bytes
Variable Size            3321892016 bytes
Database Buffers         5066719232 bytes
Redo Buffers               27111424 bytes
Database mounted.
Database opened.

檢視郵件的情況,才發現nproc是在第二天早晨被unix team從8000調到16000的。問題的原因就找到了。
kernel的變更沒有生效,只能稍候處理。
這個問題的定位確實有些曲折,希望在操作的時候保留日誌之類的東西,這樣診斷問題會有根據。







來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/23718752/viewspace-1063393/,如需轉載,請註明出處,否則將追究法律責任。

相關文章