nginx應用總結（2）--突破高併發的效能優化

散盡浮華發表於2016-11-23

在日常的運維工作中，經常會用到nginx服務，也時常會碰到nginx因高併發導致的效能瓶頸問題。今天這裡簡單梳理下nginx效能優化的配置（僅僅依據本人的實戰經驗而述，如有不妥，敬請指出~）

一、這裡的優化主要是指對nginx的配置優化，一般來說nginx配置檔案中對優化比較有作用的主要有以下幾項：
1）nginx程式數，建議按照cpu數目來指定，一般跟cpu核數相同或為它的倍數。
worker_processes 8;
2）為每個程式分配cpu，上例中將8個程式分配到8個cpu，當然可以寫多個，或者將一個程式分配到多個cpu。
worker_cpu_affinity 00000001 00000010 00000100 00001000 00010000 00100000 01000000 10000000;
3）下面這個指令是指當一個nginx程式開啟的最多檔案描述符數目，理論值應該是系統的最多開啟檔案數（ulimit -n）與nginx程式數相除，但是nginx分配請求並不是那麼均勻，所以最好與ulimit -n的值保持一致。
worker_rlimit_nofile 65535;
4）使用epoll的I/O模型，用這個模型來高效處理非同步事件
use epoll;
5）每個程式允許的最多連線數，理論上每臺nginx伺服器的最大連線數為worker_processes*worker_connections。
worker_connections 65535;
6）http連線超時時間，預設是60s，功能是使客戶端到伺服器端的連線在設定的時間內持續有效，當出現對伺服器的後繼請求時，該功能避免了建立或者重新建立連線。切記這個引數也不能設定過大！否則會導致許多無效的http連線佔據著nginx的連線數，終nginx崩潰！
keepalive_timeout 60;
7）客戶端請求頭部的緩衝區大小，這個可以根據你的系統分頁大小來設定，一般一個請求的頭部大小不會超過1k，不過由於一般系統分頁都要大於1k，所以這裡設定為分頁大小。分頁大小可以用命令getconf PAGESIZE取得。
client_header_buffer_size 4k;
8）下面這個引數將為開啟檔案指定快取，預設是沒有啟用的，max指定快取數量，建議和開啟檔案數一致，inactive是指經過多長時間檔案沒被請求後刪除快取。
open_file_cache max=102400 inactive=20s;
9）下面這個是指多長時間檢查一次快取的有效資訊。
open_file_cache_valid 30s;
10）open_file_cache指令中的inactive引數時間內檔案的最少使用次數，如果超過這個數字，檔案描述符一直是在快取中開啟的，如上例，如果有一個檔案在inactive時間內一次沒被使用，它將被移除。
open_file_cache_min_uses 1;

11）隱藏響應頭中的有關作業系統和web server（Nginx）版本號的資訊，這樣對於安全性是有好處的。
server_tokens off;
12）可以讓sendfile()發揮作用。sendfile()可以在磁碟和TCP socket之間互相拷貝資料(或任意兩個檔案描述符)。Pre-sendfile是傳送資料之前在使用者空間申請資料緩衝區。之後用read()將資料從檔案拷貝到這個緩衝區，write()將緩衝區資料寫入網路。sendfile()是立即將資料從磁碟讀到OS快取。因為這種拷貝是在核心完成的，sendfile()要比組合read()和write()以及開啟關閉丟棄緩衝更加有效(更多有關於sendfile)。
sendfile on;
13）告訴nginx在一個資料包裡傳送所有標頭檔案，而不一個接一個的傳送。就是說資料包不會馬上傳送出去，等到資料包最大時，一次性的傳輸出去，這樣有助於解決網路堵塞。
tcp_nopush on;
14）告訴nginx不要快取資料，而是一段一段的傳送--當需要及時傳送資料時，就應該給應用設定這個屬性，這樣傳送一小塊資料資訊時就不能立即得到返回值。
tcp_nodelay on;
比如：
http {
server_tokens off;
sendfile on;
tcp_nopush on;
tcp_nodelay on;
......
}
15）客戶端請求頭部的緩衝區大小，這個可以根據系統分頁大小來設定，一般一個請求頭的大小不會超過1k，不過由於一般系統分頁都要大於1k，所以這裡設定為分頁大小。
client_header_buffer_size 4k;
客戶端請求頭部的緩衝區大小，這個可以根據系統分頁大小來設定，一般一個請求頭的大小不會超過1k，不過由於一般系統分頁都要大於1k，所以這裡設定為分頁大小。
分頁大小可以用命令getconf PAGESIZE取得。
[root@test-huanqiu ~]# getconf PAGESIZE
4096
但也有client_header_buffer_size超過4k的情況，但是client_header_buffer_size該值必須設定為“系統分頁大小”的整倍數。
16）為開啟檔案指定快取，預設是沒有啟用的，max 指定快取數量，建議和開啟檔案數一致，inactive 是指經過多長時間檔案沒被請求後刪除快取。
open_file_cache max=65535 inactive=60s;
17）open_file_cache 指令中的inactive 引數時間內檔案的最少使用次數，如果超過這個數字，檔案描述符一直是在快取中開啟的，如上例，如果有一個檔案在inactive 時間內一次沒被使用，它將被移除。
open_file_cache_min_uses 1;
18）指定多長時間檢查一次快取的有效資訊。
open_file_cache_valid 80s;

----------------------------------------------------------------
下面是一個本人使用的簡單的nginx配置檔案：

[root@dev-huanqiu ~]# cat /usr/local/nginx/conf/nginx.conf
user   www www;
worker_processes 8;
worker_cpu_affinity 00000001 00000010 00000100 00001000 00010000 00100000 01000000;
error_log   /www/log/nginx_error.log   crit;
pid         /usr/local/nginx/nginx.pid;
worker_rlimit_nofile 65535;

events
{
   use epoll;
   worker_connections 65535;
}

http
{
   include       mime.types;
   default_type   application/octet-stream;

   charset   utf-8;

   server_names_hash_bucket_size 128;
   client_header_buffer_size 2k;
   large_client_header_buffers 4 4k;
   client_max_body_size 8m;

   sendfile on;
   tcp_nopush     on;

   keepalive_timeout 60;

   fastcgi_cache_path /usr/local/nginx/fastcgi_cache levels=1:2
                 keys_zone=TEST:10m
                 inactive=5m;
   fastcgi_connect_timeout 300;
   fastcgi_send_timeout 300;
   fastcgi_read_timeout 300;
   fastcgi_buffer_size 16k;
   fastcgi_buffers 16 16k;
   fastcgi_busy_buffers_size 16k;
   fastcgi_temp_file_write_size 16k;
   fastcgi_cache TEST;
   fastcgi_cache_valid 200 302 1h;
   fastcgi_cache_valid 301 1d;
   fastcgi_cache_valid any 1m;
   fastcgi_cache_min_uses 1;
   fastcgi_cache_use_stale error timeout invalid_header http_500;  
   open_file_cache max=204800 inactive=20s;
   open_file_cache_min_uses 1;
   open_file_cache_valid 30s;  

   tcp_nodelay on;
  
   gzip on;
   gzip_min_length   1k;
   gzip_buffers     4 16k;
   gzip_http_version 1.0;
   gzip_comp_level 2;
   gzip_types       text/plain application/x-javascript text/css application/xml;
   gzip_vary on;

   server
   {
     listen       8080;
     server_name   huan.wangshibo.com;
     index index.php index.htm;
     root   /www/html/;

     location /status
     {
         stub_status on;
     }

     location ~ .*\.(php|php5)?$
     {
         fastcgi_pass 127.0.0.1:9000;
         fastcgi_index index.php;
         include fcgi.conf;
     }

     location ~ .*\.(gif|jpg|jpeg|png|bmp|swf|js|css)$
     {
       expires       30d;
     }

     log_format   access   '$remote_addr - $remote_user [$time_local] "$request" '
               '$status $body_bytes_sent "$http_referer" '
               '"$http_user_agent" $http_x_forwarded_for';
     access_log   /www/log/access.log   access;
       }
}

二、關於FastCGI的幾個指令

1）這個指令為FastCGI快取指定一個路徑，目錄結構等級，關鍵字區域儲存時間和非活動刪除時間。
fastcgi_cache_path /usr/local/nginx/fastcgi_cache levels=1:2 keys_zone=TEST:10m inactive=5m;
2）指定連線到後端FastCGI的超時時間。
fastcgi_connect_timeout 300;
3）向FastCGI傳送請求的超時時間，這個值是指已經完成兩次握手後向FastCGI傳送請求的超時時間。
fastcgi_send_timeout 300;
4）接收FastCGI應答的超時時間，這個值是指已經完成兩次握手後接收FastCGI應答的超時時間。
fastcgi_read_timeout 300;
5）指定讀取FastCGI應答第一部分需要用多大的緩衝區，這裡可以設定為fastcgi_buffers指令指定的緩衝區大小，上面的指令指定它將使用1個 16k的緩衝區去讀取應答的第一部分，即應答頭，其實這個應答頭一般情況下都很小（不會超過1k），但是你如果在fastcgi_buffers指令中指定了緩衝區的大小，那麼它也會分配一個fastcgi_buffers指定的緩衝區大小去快取。
fastcgi_buffer_size 16k;
6）指定本地需要用多少和多大的緩衝區來緩衝FastCGI的應答，如上所示，如果一個php指令碼所產生的頁面大小為256k，則會為其分配16個16k的緩衝區來快取，如果大於256k，增大於256k的部分會快取到fastcgi_temp指定的路徑中，當然這對伺服器負載來說是不明智的方案，因為記憶體中處理資料速度要快於硬碟，通常這個值的設定應該選擇一個你的站點中的php指令碼所產生的頁面大小的中間值，比如你的站點大部分指令碼所產生的頁面大小為 256k就可以把這個值設定為16 16k，或者4 64k 或者64 4k，但很顯然，後兩種並不是好的設定方法，因為如果產生的頁面只有32k，如果用4 64k它會分配1個64k的緩衝區去快取，而如果使用64 4k它會分配8個4k的緩衝區去快取，而如果使用16 16k則它會分配2個16k去快取頁面，這樣看起來似乎更加合理。
fastcgi_buffers 16 16k;
7）這個指令我也不知道是做什麼用，只知道預設值是fastcgi_buffers的兩倍。
fastcgi_busy_buffers_size 32k;
8）在寫入fastcgi_temp_path時將用多大的資料塊，預設值是fastcgi_buffers的兩倍。
fastcgi_temp_file_write_size 32k;
9）開啟FastCGI快取並且為其制定一個名稱。個人感覺開啟快取非常有用，可以有效降低CPU負載，並且防止502錯誤。但是這個快取會引起很多問題，因為它快取的是動態頁面。具體使用還需根據自己的需求。
fastcgi_cache TEST
10）為指定的應答程式碼指定快取時間，如上例中將200，302應答快取一小時，301應答快取1天，其他為1分鐘。
fastcgi_cache_valid 200 302 1h;
fastcgi_cache_valid 301 1d;
fastcgi_cache_valid any 1m;
11）快取在fastcgi_cache_path指令inactive引數值時間內的最少使用次數，如上例，如果在5分鐘內某檔案1次也沒有被使用，那麼這個檔案將被移除。
fastcgi_cache_min_uses 1;
12）不知道這個引數的作用，猜想應該是讓nginx知道哪些型別的快取是沒用的。
fastcgi_cache_use_stale error timeout invalid_header http_500;

-----------------------------------
以上為nginx中FastCGI相關引數，
另外，FastCGI自身也有一些配置需要進行優化，如果你使用php-fpm來管理FastCGI，可以修改配置檔案中的以下值：
1）同時處理的併發請求數，即它將開啟最多60個子執行緒來處理併發連線。
<value name="max_children">60</value>
2）最多開啟檔案數。
<value name="rlimit_files">65535</value>
3）每個程式在重置之前能夠執行的最多請求數。
<value name="max_requests">65535</value>

三、關於核心引數的優化，在/etc/sysctl.conf檔案內
1）timewait的數量，預設是180000。(Deven:因此如果想把timewait降下了就要把tcp_max_tw_buckets值減小)
net.ipv4.tcp_max_tw_buckets = 6000
2）允許系統開啟的埠範圍。
net.ipv4.ip_local_port_range = 1024 65000
3）啟用TIME-WAIT狀態sockets快速回收功能;用於快速減少在TIME-WAIT狀態TCP連線數。1表示啟用;0表示關閉。但是要特別留意的是：這個選項一般不推薦啟用，因為在NAT(Network Address Translation)網路下，會導致大量的TCP連線建立錯誤，從而引起網站訪問故障。
net.ipv4.tcp_tw_recycle = 0
----------------------------------------------------------------------------------------------------------------------------------
實際上，net.ipv4.tcp_tw_recycle功能的開啟，要需要net.ipv4.tcp_timestamps（一般系統預設是開啟這個功能的）這個開關開啟後才有效果；
當tcp_tw_recycle 開啟時（tcp_timestamps 同時開啟，快速回收 socket 的效果達到），對於位於NAT裝置後面的 Client來說，是一場災難！
會導致到NAT裝置後面的Client連線Server不穩定（有的 Client 能連線 server，有的 Client 不能連線 server）。
也就是說，tcp_tw_recycle這個功能，是為內部網路（網路環境自己可控 ” ——不存在NAT 的情況）設計的，對於公網環境下，不宜使用。
通常來說，回收TIME_WAIT狀態的socket是因為“無法主動連線遠端”，因為無可用的埠，而不應該是要回收記憶體（沒有必要）。
即：需求是Client的需求，Server會有“埠不夠用”的問題嗎？
除非是前端機，需要大量的連線後端服務，也就是充當著Client的角色。

正確的解決這個總是辦法應該是：
net.ipv4.ip_local_port_range = 9000 6553 #預設值範圍較小
net.ipv4.tcp_max_tw_buckets = 10000 #預設值較小，還可適當調小
net.ipv4.tcp_tw_reuse = 1
net.ipv4.tcp_fin_timeout = 10
----------------------------------------------------------------------------------------------------------------------------------

4）開啟重用功能，允許將TIME-WAIT狀態的sockets重新用於新的TCP連線。這個功能啟用是安全的，一般不要去改動！
net.ipv4.tcp_tw_reuse = 1
5）開啟SYN Cookies，當出現SYN等待佇列溢位時，啟用cookies來處理。
net.ipv4.tcp_syncookies = 1
6）web應用中listen函式的backlog預設會給我們核心引數的net.core.somaxconn限制到128，而nginx定義的NGX_LISTEN_BACKLOG預設為511，所以有必要調整這個值。
net.core.somaxconn = 262144
7）每個網路介面接收資料包的速率比核心處理這些包的速率快時，允許送到佇列的資料包的最大數目。
net.core.netdev_max_backlog = 262144
8）系統中最多有多少個TCP套接字不被關聯到任何一個使用者檔案控制程式碼上。如果超過這個數字，孤兒連線將即刻被複位並列印出警告資訊。這個限制僅僅是為了防止簡單的DoS攻擊，不能過分依靠它或者人為地減小這個值，更應該增加這個值(如果增加了記憶體之後)。
net.ipv4.tcp_max_orphans = 262144
9）記錄的那些尚未收到客戶端確認資訊的連線請求的最大值。對於有128M記憶體的系統而言，預設值是1024，小記憶體的系統則是128。
net.ipv4.tcp_max_syn_backlog = 262144
10）時間戳可以避免序列號的卷繞。一個1Gbps的鏈路肯定會遇到以前用過的序列號。時間戳能夠讓核心接受這種“異常”的資料包。
net.ipv4.tcp_timestamps = 1
-------------------------------------------------------------------------------------------------------------------------------------------------------
有不少伺服器為了提高效能，開啟net.ipv4.tcp_tw_recycle選項，在NAT網路環境下，容易導致網站訪問出現了一些connect失敗的問題
個人建議：
關閉net.ipv4.tcp_tw_recycle選項，而不是net.ipv4.tcp_timestamps；
因為在net.ipv4.tcp_timestamps關閉的條件下，開啟net.ipv4.tcp_tw_recycle是不起作用的；而net.ipv4.tcp_timestamps可以獨立開啟並起作用。
-------------------------------------------------------------------------------------------------------------------------------------------------------
11）為了開啟對端的連線，核心需要傳送一個SYN並附帶一個迴應前面一個SYN的ACK。也就是所謂三次握手中的第二次握手。這個設定決定了核心放棄連線之前傳送SYN+ACK包的數量。
net.ipv4.tcp_synack_retries = 1
12）在核心放棄建立連線之前傳送SYN包的數量。
net.ipv4.tcp_syn_retries = 1
13）如果套接字由本端要求關閉，這個引數決定了它保持在FIN-WAIT-2狀態的時間。對端可以出錯並永遠不關閉連線，甚至意外當機。預設值是60秒。2.2 核心的通常值是180秒，你可以按這個設定，但要記住的是，即使你的機器是一個輕載的WEB伺服器，也有因為大量的死套接字而記憶體溢位的風險，FIN- WAIT-2的危險性比FIN-WAIT-1要小，因為它最多隻能吃掉1.5K記憶體，但是它們的生存期長些。
net.ipv4.tcp_fin_timeout = 30
14）當keepalive起用的時候，TCP傳送keepalive訊息的頻度。預設是2小時。
net.ipv4.tcp_keepalive_time = 30

----------------------------------------------------------------------
下面貼出一個本人常用的核心引數的標準配置
[root@dev-huanqiu ~]# cat /etc/sysctl.conf
net.ipv4.ip_forward = 0
net.ipv4.conf.default.rp_filter = 1
net.ipv4.conf.default.accept_source_route = 0
kernel.sysrq = 0
kernel.core_uses_pid = 1
net.ipv4.tcp_syncookies = 1 //這四行標紅內容，一般是發現大量TIME_WAIT時的解決辦法
kernel.msgmnb = 65536
kernel.msgmax = 65536
kernel.shmmax = 68719476736
kernel.shmall = 4294967296
net.ipv4.tcp_max_tw_buckets = 6000
net.ipv4.tcp_sack = 1
net.ipv4.tcp_window_scaling = 1
net.ipv4.tcp_rmem = 4096 87380 4194304
net.ipv4.tcp_wmem = 4096 16384 4194304
net.core.wmem_default = 8388608
net.core.rmem_default = 8388608
net.core.rmem_max = 16777216
net.core.wmem_max = 16777216
net.core.netdev_max_backlog = 262144
net.core.somaxconn = 262144
net.ipv4.tcp_max_orphans = 3276800
net.ipv4.tcp_max_syn_backlog = 262144
net.ipv4.tcp_timestamps = 1 //在net.ipv4.tcp_tw_recycle設定為1的時候，這個選擇最好加上
net.ipv4.tcp_synack_retries = 1
net.ipv4.tcp_syn_retries = 1
net.ipv4.tcp_tw_recycle = 1 //開啟此功能可以減少TIME-WAIT狀態，但是NAT網路模式下開啟有可能會導致tcp連線錯誤，慎重。
net.ipv4.tcp_tw_reuse = 1
net.ipv4.tcp_mem = 94500000 915000000 927000000
net.ipv4.tcp_fin_timeout = 30
net.ipv4.tcp_keepalive_time = 30
net.ipv4.ip_local_port_range = 1024 65000
net.ipv4.ip_conntrack_max = 6553500

-------------------------------------記一次小事故----------------------------------------------------
net.ipv4.tcp_tw_recycle = 1 這個功能開啟後，確實能減少TIME-WAIT狀態，習慣上我都會將這個引數開啟。
但是也因為這個引數踩過一次坑：
公司的一個釋出新聞的CMS後臺系統，採用haproxy+keepalived代理架構，後端的real server伺服器外網ip全部拿掉。
現象：在某一天早上發文高峰期，CMS後臺出現訪問故障，重啟php服務後會立刻見效，但持續一段時間後，訪問就又出現故障。
排查nginx和php日誌也沒有發現什麼，後來google了一下，發現就是net.ipv4.tcp_tw_recycle這個引數搗的鬼！
這種網路架構對於後端的realserver來說是NAT模式，開啟這個引數後，會導致大量的TCP連線建立錯誤，從而引起網站訪問故障。
最後將net.ipv4.tcp_tw_recycle設定為0，關閉這個功能後，後臺訪問即刻恢復正常
-----------------------------------------------------------------------------------------------------

-------------------------------Nginx安全配置小提示------------------------------------
下面是一個常見安全陷阱和解決方案的列表，它可以輔助來確保你的Nginx部署是安全的。

1）禁用autoindex模組。這個可能在你使用的Nginx版本中已經更改了，如果沒有的話只需在配置檔案的location塊中增加autoindex off;宣告即可。

2）禁用伺服器上的ssi (伺服器端引用)。這個可以通過在location塊中新增ssi off; 。

3）關閉伺服器標記。如果開啟的話（預設情況下）所有的錯誤頁面都會顯示伺服器的版本和資訊。將server_tokens off;宣告新增到Nginx配置檔案來解決這個問題。

4）在配置檔案中設定自定義快取以限制緩衝區溢位攻擊的可能性。
client_body_buffer_size  1K;
client_header_buffer_size 1k;
client_max_body_size 1k;
large_client_header_buffers 2 1k;

5）將timeout設低來防止DOS攻擊。所有這些宣告都可以放到主配置檔案中。
client_body_timeout   10;
client_header_timeout 10;
keepalive_timeout     65;
send_timeout          10;

6）限制使用者連線數來預防DOS攻擊。
limit_zone slimits $binary_remote_addr 5m;
limit_conn slimits 5;

7）試著避免使用HTTP認證。HTTP認證預設使用crypt，它的雜湊並不安全。如果你要用的話就用MD5（這也不是個好選擇但負載方面比crypt好） 。

高併發&效能優化（一）------總體介紹
2020-08-24
優化
Nginx+php-fpm高併發優化
2021-07-20
NginxPHP優化
高階iOS應用效能優化
2012-12-24
iOS優化
高併發中nginx較優的配置
2019-01-19
Nginx
【高併發】高併發環境下如何優化Tomcat效能？看完我懂了！
2020-04-17
優化Tomcat
Android應用開發效能優化系列總篇
2015-01-09
Android優化
Nginx總結（九）Nginx伺服器高效能優化的配置--輕鬆實現10萬併發訪問量
2021-09-17
Nginx伺服器優化
效能優化 - Oracle Tuning 總結 2-2
2009-08-10
優化Oracle
效能優化總結
2015-09-27
優化
Nginx併發訪問優化
2014-10-29
Nginx優化
高併發優化方向
2019-12-26
優化
高併發場景下如何優化伺服器的效能？
2021-01-17
優化伺服器
Android效能優化——效能優化的難題總結
2021-08-12
Android優化
效能優化部分——高階SQL優化2
2013-12-18
優化SQL
React 效能優化總結
2019-04-22
React優化
canvas效能優化總結
2021-04-30
Canvas優化
React效能優化總結
2021-08-27
React優化
前端效能優化總結
2019-01-10
前端優化
iOS 效能優化總結
2018-04-11
iOS優化
高併發&效能優化（二）------系統監控工具使用
2020-08-25
優化
總結前端效能優化的方法
2019-11-28
前端優化
MySQL的SQL效能優化總結
2019-02-16
MySql優化
PHP的效能優化方法總結
2019-02-16
PHP優化
LAMP的思考：效能優化總結
2014-12-28
LAMP優化
Nginx效能優化
2015-08-12
Nginx優化
優化Angular應用的效能
2016-02-06
優化Angular
淺談高併發-前端優化
2018-09-27
前端優化
小程式效能優化總結
2019-01-09
優化
App瘦身、效能優化總結
2019-01-14
APP優化
系統效能優化總結
2022-05-14
優化
前端效能優化常用總結
2017-10-14
前端優化
web前端效能優化總結
2017-04-06
Web前端優化
Android效能優化總結
2014-05-05
Android優化
Nginx+Redis+Ehcache：大型高併發與高可用的三層快取架構總結
2018-09-14
NginxRedis快取架構
效能優化 - Oracle Tuning 總結 2-1 Statspack
2009-08-09
優化Oracle
遊戲開發效能優化經驗總結
2015-05-09
遊戲開發優化
線上Redis高併發效能調優實踐
2020-09-28
Redis
Java高併發實戰，鎖的優化
2019-05-17
Java優化

nginx應用總結（2）--突破高併發的效能優化

相關文章