Nginx+php-fpm高併發優化

PHP-php-fpm配置優化
前言:

　　1.少安裝PHP模組, 費記憶體

　　2.調高linux核心開啟檔案數量，可以使用這些命令(必須是root帳號)(我是修改/etc/rc.local，加入ulimit -SHn 51200的)

echo ulimit -HSn 65536 >> /etc/profile
echo ulimit -HSn 65536 >> /etc/rc.local
source /etc/profile
　　如果ulimit -n數量依舊不多(即上面配置沒生效)的話, 可以在 /etc/security/limits.conf 檔案最後加上

soft nofile 51200
hard nofile 51200

1.與Nginx使用Unix域Socket通訊(Nginx和php-fpm在同一臺伺服器)

　　Unix域Socket因為不走網路，的確可以提高Nginx和php-fpm通訊的效能，但在高併發時會不穩定。

　　Nginx會頻繁報錯：connect() to unix:/dev/shm/php-fcgi.sock failed (11: Resource temporarily unavailable) while connecting to upstream

　　可以通過下面兩種方式提高穩定性：
　　1）調高nginx和php-fpm中的backlog
　　配置方法為：在nginx配置檔案中這個域名的server下，在listen 80後面新增default backlog=1024。
　　同時配置php-fpm.conf中的listen.backlog為1024，預設為128。
　　2）增加sock檔案和php-fpm例項數
　　再新建一個sock檔案，在Nginx中通過upstream模組將請求負載均衡到兩個sock檔案背後的兩套php-fpm例項上。

2.php-fpm引數調優

　　pm = dynamic; 表示使用哪種程式數量管理方式

　　　　dynamic表示php-fpm程式數是動態的，最開始是pm.start_servers指定的數量，如果請求較多，則會自動增加，保證空閒的程式數不小於pm.min_spare_servers，如果程式數較多，也會進行相應清理，保證多餘的程式數不多於pm.max_spare_servers

　　　　static表示php-fpm程式數是靜態的, 程式數自始至終都是pm.max_children指定的數量，不再增加或減少

　　pm.max_children = 300; 靜態方式下開啟的php-fpm程式數量
　　pm.start_servers = 20; 動態方式下的起始php-fpm程式數量
　　pm.min_spare_servers = 5; 動態方式下的最小php-fpm程式數量
　　pm.max_spare_servers = 35; 動態方式下的最大php-fpm程式數量

　　　　如果pm為static, 那麼其實只有pm.max_children這個引數生效。系統會開啟設定數量的php-fpm程式

　　　　如果pm為dynamic, 那麼pm.max_children引數失效，後面3個引數生效。系統會在php-fpm執行開始的時候啟動pm.start_servers個php-fpm程式，然後根據系統的需求動態在pm.min_spare_servers和pm.max_spare_servers之間調整php-fpm程式數

　　　　那麼，對於我們的伺服器，選擇哪種pm方式比較好呢？事實上，跟Apache一樣，執行的PHP程式在執行完成後，或多或少會有記憶體洩露的問題。這也是為什麼開始的時候一個php-fpm程式只佔用3M左右記憶體，執行一段時間後就會上升到20-30M的原因了。

　　　　對於記憶體大的伺服器（比如8G以上）來說，指定靜態的max_children實際上更為妥當，因為這樣不需要進行額外的程式數目控制，會提高效率。因為頻繁開關php-fpm程式也會有時滯，所以記憶體夠大的情況下開靜態效果會更好。數量也可以根據記憶體/30M 得到，比如8GB記憶體可以設定為100，那麼php-fpm耗費的記憶體就能控制在 2G-3G的樣子。如果記憶體稍微小點，比如1G，那麼指定靜態的程式數量更加有利於伺服器的穩定。這樣可以保證php-fpm只獲取夠用的記憶體，將不多的記憶體分配給其他應用去使用，會使系統的執行更加暢通。

　　　　對於小記憶體的伺服器來說，比如256M記憶體的VPS，即使按照一個20M的記憶體量來算，10個php-cgi程式就將耗掉200M記憶體，那系統的崩潰就應該很正常了。因此應該儘量地控制php-fpm程式的數量，大體明確其他應用佔用的記憶體後，給它指定一個靜態的小數量，會讓系統更加平穩一些。或者使用動態方式，因為動態方式會結束掉多餘的程式，可以回收釋放一些記憶體，所以推薦在記憶體較少的伺服器或VPS上使用。具體最大數量根據記憶體/20M 得到。比如說512M的VPS，建議pm.max_spare_servers設定為20。至於pm.min_spare_servers，則建議根據伺服器的負載情況來設定，比較合適的值在5~10之間。

　　　　在4G記憶體的伺服器上200就可以(我的1G測試機，開64個是最好的，建議使用壓力測試獲取最佳值)

　　pm.max_requests = 10240;

　　　　nginx php-fpm配置過程中最大問題是內洩漏出問題：伺服器的負載不大，但是記憶體佔用迅速增加，很快吃掉記憶體接著開始吃交換分割槽，系統很快掛掉！其實根據官方的介紹，php-cgi不存在記憶體洩漏，每個請求完成後php-cgi會回收記憶體，但是不會釋放給作業系統，這樣就會導致大量記憶體被php-cgi佔用。　　　　

　　　　官方的解決辦法是降低PHP_FCGI_MAX_REQUESTS的值，如果用的是php-fpm，對應的php-fpm.conf中的就是max_requests，該值的意思是傳送多少個請求後會重啟該執行緒，我們需要適當降低這個值，用以讓php-fpm自動的釋放記憶體，不是大部分網上說的51200等等，實際上還有另一個跟它有關聯的值max_children，這個是每次php-fpm會建立多少個程式，這樣實際上的記憶體消耗是max_childrenmax_requests每個請求使用記憶體，根據這個我們可以預估一下記憶體的使用情況，就不用再寫指令碼去kill了。

　　request_terminate_timeout = 30;

　　　　最大執行時間, 在php.ini中也可以進行配置(max_execution_time)

　　request_slowlog_timeout = 2; 開啟慢日誌
　　slowlog = log/$pool.log.slow; 慢日誌路徑

　　rlimit_files = 1024; 增加php-fpm開啟檔案描述符的限制

3.php-fpm的高CPU使用率排查方法

　　1)使用top命令, 直接執行top命令後，輸入1就可以看到各個核心的CPU使用率。而且通過top -d 0.1可以縮短取樣時間

　　2)查詢php-fpm慢日誌

5181 run() /www/test.net/framework/web/filters/CFilter.php:41

5156 filter() /www/test.net/framework/web/filters/CFilterChain.php:131

2670 = /www/test.net/index.php

2636 run() /www/test.net/application/controllers/survey/index.php:665

2630 action() /www/test.net/application/controllers/survey/index.php:18

2625 run() /www/test.net/framework/web/actions/CAction.php:75

2605 runWithParams() /www/test.net/framework/web/CController.php:309

2604 runAction() /www/test.net/framework/web/filters/CFilterChain.php:134

2538 run() /www/test.net/framework/web/CController.php:292

2484 runActionWithFilters() /www/test.net/framework/web/CController.php:266

2251 run() /www/test.net/framework/web/CWebApplication.php:276

1799 translate() /www/test.net/application/libraries/Limesurvey_lang.php:118

1786 load_tables() /www/test.net/application/third_party/php-gettext/gettext.php:254

1447 runController() /www/test.net/framework/web/CWebApplication.php:135

　　　　引數解釋:

            sort:  對單詞進行排序
            uniq -c:  顯示唯一的行，並在每行行首加上本行在檔案中出現的次數
            sort -k1,1nr:  按照第一個欄位，數值排序，且為逆序
            head -10:  取前10行資料

　　3)用strace跟蹤程式

　　　　a)利用nohup將strace轉為後臺執行，直到attach上的php-fpm程式死掉為止：

nohup strace -T -p 13167 > 13167-strace.log &
　　　　引數說明:

　　　　　 -c 統計每一系統呼叫的所執行的時間,次數和出錯的次數等.
-d 輸出strace關於標準錯誤的除錯資訊.
-f 跟蹤由fork呼叫所產生的子程式.
-o filename,則所有程式的跟蹤結果輸出到相應的filename
-F 嘗試跟蹤vfork呼叫.在-f時,vfork不被跟蹤.
-h 輸出簡要的幫助資訊.
-i 輸出系統呼叫的入口指標.
-q 禁止輸出關於脫離的訊息.
-r 列印出相對時間關於,,每一個系統呼叫.
-t 在輸出中的每一行前加上時間資訊.
-tt 在輸出中的每一行前加上時間資訊,微秒級.
-ttt 微秒級輸出,以秒了表示時間.
-T 顯示每一呼叫所耗的時間.
-v 輸出所有的系統呼叫.一些呼叫關於環境變數,狀態,輸入輸出等呼叫由於使用頻繁,預設不輸出.
-V 輸出strace的版本資訊.
-x 以十六進位制形式輸出非標準字串
-xx 所有字串以十六進位制形式輸出.
-a column
設定返回值的輸出位置.預設為40.
-e execve 只記錄 execve 這類系統呼叫
-p 主程式號

　　　　b)用利用-c引數讓strace幫助彙總，非常方便非常強大！

[root@b28-12 log]# strace -cp 9907

Process 9907 attached - interrupt to quit

Process 9907 detached

% time seconds usecs/call calls errors syscall

56.61 0.016612 5 3121 read

11.11 0.003259 1 2517 715 stat

8.04 0.002358 7 349 brk

6.02 0.001767 1 1315 poll

4.28 0.001255 6 228 recvfrom

2.71 0.000796 1 671 open

2.54 0.000745 0 2453 fcntl

2.37 0.000696 1 1141 write

1.69 0.000497 1 593 13 access

1.37 0.000403 0 1816 lseek

0.89 0.000262 1 451 22 sendto

0.56 0.000163 1 276 208 lstat

0.49 0.000145 0 384 getcwd

0.31 0.000090 0 1222 fstat

0.28 0.000082 0 173 munmap

0.26 0.000077 0 174 mmap

0.24 0.000069 2 41 socket

0.23 0.000068 0 725 close

0.00 0.000000 0 13 rt_sigaction

0.00 0.000000 0 13 rt_sigprocmask

0.00 0.000000 0 1 rt_sigreturn

0.00 0.000000 0 78 setitimer

0.00 0.000000 0 26 26 connect

0.00 0.000000 0 15 2 accept

0.00 0.000000 0 39 recvmsg

0.00 0.000000 0 26 shutdown

0.00 0.000000 0 13 bind

0.00 0.000000 0 13 getsockname

0.00 0.000000 0 65 setsockopt

0.00 0.000000 0 13 getsockopt

0.00 0.000000 0 8 getdents

0.00 0.000000 0 26 chdir

0.00 0.000000 0 1 futex

100.00 0.029344 18000 986 total

4.使用Opcode快取(www.cnblogs.com/JohnABC/p/4531038.h...)

5.對PHP效能進行監控

　　常用的方法就是開啟xdebug的效能監控功能，將xdebug輸出結果通過WinCacheGrind軟體分析。

　　xdebug的安裝和配合IDE除錯的方法參見：Vim+XDebug除錯PHP

　　php.ini中配置的這幾項是輸出效能資訊的：

xdebug.auto_trace = on
xdebug.auto_profile = on
xdebug.collect_params = on
xdebug.collect_return = on
xdebug.profiler_enable = on
xdebug.trace_output_dir = “/tmp”
xdebug.profiler_output_dir =”/tmp”

　　這樣XDebug會輸出所有執行php函式的效能資料，但產生的檔案也會比較大。可以關閉一些選項如collect_params、collect_return，

　　來減少輸出的資料量。或者關閉自動輸出，通過在想要監控的函式首尾呼叫xdebug函式來監控指定的函式。

　　輸出的檔名類似cachegrind.out.1277560600和trace.3495983249.txt，可以拿到Windows平臺下用WinCacheGrind進行圖形化分析。

6.監測php-fpm執行緒狀態

　　nginx配置

location ~ ^/status$ {
include fastcgi_params;
fastcgi_pass 127.0.0.1:9000;
fastcgi_param SCRIPT_FILENAME $fastcgi_script_name;
}
　　php-fpm配置

pm.status_path = /status
　　這樣的話通過http://域名/status就可以看到當前的php情況

　　下面介紹每個引數的作用：
　　pool：php-fpm池的名稱，一般都是應該是www
　　process manage：程式的管理方法，php-fpm支援三種管理方法，分別是static,dynamic和ondemand，一般情況下都是dynamic
　　start time：php-fpm啟動時候的時間，不管是restart或者reload都會更新這裡的時間
　　start since：php-fpm自啟動起來經過的時間，預設為秒
　　accepted conn：當前接收的連線數
　　listen queue：在佇列中等待連線的請求個數，如果這個數字為非0，那麼最好增加程式的fpm個數
　　max listen queue：從fpm啟動以來，在佇列中等待連線請求的最大值
　　listen queue len：等待連線的套接字佇列大小
　　idle processes：空閒的程式個數
　　active processes：活動的程式個數
　　total processes：總共的程式個數
　　max active processes：從fpm啟動以來，活動程式的最大個數，如果這個值小於當前的max_children，可以調小此值
　　max children reached：當pm嘗試啟動更多的程式，卻因為max_children的限制，沒有啟動更多程式的次數。如果這個值非0，那麼可以適當增加fpm的程式數
　　slow requests：慢請求的次數，一般如果這個值未非0，那麼可能會有慢的php程式，一般一個不好的mysql查詢是最大的禍首。

7.開啟php-fpm慢日誌

　　slowlog = /usr/local/php/log/php-fpm.log.slow

　　request_slowlog_timeout = 5s

8.設定php-fpm單次請求最大執行時間，今天碰到一個問題，測試伺服器php-fpm一直是被佔滿狀態，後來發現是set_time_limit(0)，file_get_content()，原因如下:

　　比如file_get_contents(url)等函式，如果網站反應慢，會一直等在那兒不超時，php-fpm一直被佔用。有一個引數 max_execution_time 可以設定 PHP 指令碼的最大執行時間，但是，在 php-cgi(php-fpm) 中，該引數不會起效。真正能夠控制 PHP 指令碼最大執行時間的是 php-fpm.conf 配置檔案中的以下引數。

　　request_terminate_timeout = 10s

　　預設值為 0 秒，也就是說，PHP 指令碼會一直執行下去。這樣，當所有的 php-cgi 程式都卡在 file_get_contents() 函式時，這臺 Nginx+PHP 的 WebServer 已經無法再處理新的 PHP 請求了，Nginx 將給使用者返回“502 Bad Gateway”。可以使用 request_terminate_timeout = 30s，但是如果發生 file_get_contents() 獲取網頁內容較慢的情況，這就意味著 150 個 php-cgi 程式，每秒鐘只能處理 5 個請求，WebServer 同樣很難避免“502 Bad Gateway”。php-cgi程式數不夠用、php執行時間長、或者是php-cgi程式死掉，都會出現502錯誤。

　　要做到徹底解決，只能讓 PHP 程式設計師們改掉直接使用 file_get_contents(“http://example.com/") 的習慣，而是稍微修改一下，加個超時時間，用以下方式來實現 HTTP GET 請求。要是覺得麻煩，可以自行將以下程式碼封裝成一個函式。

<?php
$ctx = stream_context_create(array(
‘http’ => array(
‘timeout’ => 1 //設定一個超時時間，單位為秒
)
)
);
file_get_contents(“http://example.com/", 0, $ctx);

　　當然，導致 php-cgi 程式 CPU 100% 的原因不只有這一種，那麼，怎麼確定是 file_get_contents() 函式導致的呢？

　　首先，使用 top 命令檢視 CPU 使用率較高的 php-cgi 程式。

top - 10:34:18 up 724 days, 21:01, 3 users, load average: 17.86, 11.16, 7.69
Tasks: 561 total, 15 running, 546 sleeping, 0 stopped, 0 zombie
Cpu(s): 5.9%us, 4.2%sy, 0.0%ni, 89.4%id, 0.2%wa, 0.0%hi, 0.2%si, 0.0%st
Mem: 8100996k total, 4320108k used, 3780888k free, 772572k buffers
Swap: 8193108k total, 50776k used, 8142332k free, 412088k cached

PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
10747 www 18 0 360m 22m 12m R 100.6 0.3 0:02.60 php-cgi
10709 www 16 0 359m 28m 17m R 96.8 0.4 0:11.34 php-cgi
10745 www 18 0 360m 24m 14m R 94.8 0.3 0:39.51 php-cgi
10707 www 18 0 360m 25m 14m S 77.4 0.3 0:33.48 php-cgi
10782 www 20 0 360m 26m 15m R 75.5 0.3 0:10.93 php-cgi
10708 www 25 0 360m 22m 12m R 69.7 0.3 0:45.16 php-cgi
10683 www 25 0 362m 28m 15m R 54.2 0.4 0:32.65 php-cgi
10711 www 25 0 360m 25m 15m R 52.2 0.3 0:44.25 php-cgi
10688 www 25 0 359m 25m 15m R 38.7 0.3 0:10.44 php-cgi
10719 www 25 0 360m 26m 16m R 7.7 0.3 0:40.59 php-cgi

　　找其中一個 CPU 100% 的 php-cgi 程式的 PID，用以下命令跟蹤一下：

strace -p 10747
　　如果螢幕顯示：

select(7, [6], [6], [], {15, 0}) = 1 (out [6], left {15, 0})
poll([{fd=6, events=POLLIN}], 1, 0) = 0 (Timeout)
select(7, [6], [6], [], {15, 0}) = 1 (out [6], left {15, 0})
poll([{fd=6, events=POLLIN}], 1, 0) = 0 (Timeout)
select(7, [6], [6], [], {15, 0}) = 1 (out [6], left {15, 0})
poll([{fd=6, events=POLLIN}], 1, 0) = 0 (Timeout)
select(7, [6], [6], [], {15, 0}) = 1 (out [6], left {15, 0})
poll([{fd=6, events=POLLIN}], 1, 0) = 0 (Timeout)
select(7, [6], [6], [], {15, 0}) = 1 (out [6], left {15, 0})
poll([{fd=6, events=POLLIN}], 1, 0) = 0 (Timeout)
select(7, [6], [6], [], {15, 0}) = 1 (out [6], left {15, 0})
poll([{fd=6, events=POLLIN}], 1, 0) = 0 (Timeout)
select(7, [6], [6], [], {15, 0}) = 1 (out [6], left {15, 0})
poll([{fd=6, events=POLLIN}], 1, 0) = 0 (Timeout)
select(7, [6], [6], [], {15, 0}) = 1 (out [6], left {15, 0})
poll([{fd=6, events=POLLIN}], 1, 0) = 0 (Timeout)
select(7, [6], [6], [], {15, 0}) = 1 (out [6], left {15, 0})
poll([{fd=6, events=POLLIN}], 1, 0) = 0 (Timeout)
select(7, [6], [6], [], {15, 0}) = 1 (out [6], left {15, 0})
poll([{fd=6, events=POLLIN}], 1, 0) = 0 (Timeout)

　　那麼，就可以確定是 file_get_contents() 導致的問題了

本作品採用《CC 協議》，轉載必須註明作者和本文連結

Nginx+php-fpm高併發優化

相關文章