從一起丟包故障來談談 nginx 中的 tcp keep-alive

pggsnap發表於2019-01-24

原文網址 : https://juejin.im/post/5c4978dee51d457d105d183b

NginxTCPKeep-Alive

一、故障

基本架構如圖所示，客戶端發起 http 請求給 nginx，nginx 轉發請求給閘道器，閘道器再轉發請求到後端微服務。

故障現象是，每隔十幾分鍾或者幾個小時不等，客戶端就會得到一個或者連續多個請求超時錯誤。檢視 nginx 日誌，對應請求返回 499；檢視閘道器日誌，沒有收到對應的請求。

從日誌分析，問題應該處在 nginx 或者 spring-cloud-gateway 上。

nginx 版本：1.14.2，spring-cloud 版本：Greenwich.RC2。

nginx 主要配置如下：

[root@wh-hlwzxtest1 conf]# cat nginx.conf

worker_processes  8;

events {
    use epoll;
    worker_connections  10240;
}

http {
    include       mime.types;
    default_type  application/octet-stream;

    sendfile       on;
    tcp_nopush     on;
    tcp_nodelay    on;

    keepalive_timeout  65;
    #gzip  on;

    upstream dbg2 {
        server 10.201.0.27:8888;
        keepalive 100;
    }

   server {
        listen       80;
        server_name  localhost;

        charset utf-8;

	    location /dbg2/ {
            proxy_pass         http://dbg2/;
            proxy_http_version  1.1;
            proxy_set_header    Connection "";
         }
    }
}
複製程式碼

為了提高效能，nginx 傳送給閘道器的請求為 http 1.1，可以複用 tcp 連線。

二、排查

1、檢視 tcp 連線

[root@10.197.0.38 logs]# ss -n | grep 10.201.0.27:8888
tcp    ESTAB      0      0      10.197.0.38:36674              10.201.0.27:8888
tcp    ESTAB      0      0      10.197.0.38:40106              10.201.0.27:8888

[root@10.201.0.27 opt]# ss -n | grep 10.197.0.38
tcp    ESTAB      0      0        ::ffff:10.201.0.27:8888                 ::ffff:10.197.0.38:40106
tcp    ESTAB      0      0        ::ffff:10.201.0.27:8888                 ::ffff:10.197.0.38:39266
複製程式碼

可以看到 nginx 和閘道器之間建立的 socket 連線為（10.201.0.27:8888，10.197.0.38:40106），另外的 2 條記錄就很可疑了。猜測原因是：一端異常關閉了 tcp 連線卻沒有通知對端，或者通知了對端但對端沒有收到。

2、抓包分析

先看下 nginx 的抓包資料：

序號 8403：轉發 http 請求給閘道器；

序號 8404：在 RTT 時間內沒有收到 ack 包，重發報文；

序號 8505：RTT 約等於 0.2s，tcp 重傳；

序號 8506：0.4s 沒收到 ack 包，tcp 重傳；

序號 8507：0.8s 沒收到 ack 包，tcp 重傳；

序號 8509：1.6s 沒收到 ack 包，tcp 重傳；

...

序號8439：28.1s（128RTT）沒收到 ack 包，tcp 重傳。

序號 8408：請求設定了超時時間為 3s，因此傳送 FIN 包。

再看下閘道器的抓包資料：

序號 1372：17:24:31 收到了 nginx 發過來的 ack 確認包，對應 nginx 抓包圖中的序號 1348（nginx 那臺伺服器時間快了差不多 1 分 30 秒）;

序號 4221：2 小時後，傳送 tcp keep-alive 心跳報文，（從 nginx 抓包圖中也可以看出這 2 小時之內該 tcp 連線空閒）；

序號 4253：75s 後再次傳送 tcp keep-alive 心跳；

序號 4275：75s 後再次傳送心跳；

連續 9 次；

序號 4489：傳送 RST 包，通過對端重置連線。

2 小時，75s， 9 次，系統預設設定。

[root@eureka2 opt]# cat /proc/sys/net/ipv4/tcp_keepalive_time
7200
[root@eureka2 opt]# cat /proc/sys/net/ipv4/tcp_keepalive_intvl
75
[root@eureka2 opt]# cat /proc/sys/net/ipv4/tcp_keepalive_probes
9
複製程式碼

具體這幾個引數的作用，參考文章：為什麼基於TCP的應用需要心跳包

3、分析

通過以上抓包分析，基本確認了問題出在 nginx 上。19:25 時，閘道器傳送 tcp keep-alive 心跳包給 nginx 那臺伺服器，此時那臺伺服器上保留著該 tcp 連線，卻沒有迴應；22:20 時，nginx 傳送 http 請求給閘道器，而閘道器已經關閉該 tcp 連線，因此沒有應答。

三、解決

1、proxy_send_timeout

nginx 中與 upstream 相關的超時配置主要有如下引數，參考：Nginx的超時timeout配置詳解

proxy_connect_timeout：nginx 與 upstream server 的連線超時時間；

proxy_read_timeout：nginx 接收 upstream server 資料超時, 預設 60s, 如果連續的 60s 內沒有收到 1 個位元組, 連線關閉；

proxy_send_timeout：nginx 傳送資料至 upstream server 超時, 預設 60s, 如果連續的 60s 內沒有傳送 1 個位元組, 連線關閉。

這幾個引數，都是針對 http 協議層面的。比如 proxy_send_timeout = 60s，並不是指如果 60s 沒有傳送 http 請求，就關閉連線；而是指傳送 http 請求後，在兩次 write 操作期間，如果超過 60s，就關閉連線。所以這幾個引數，顯然不是我們需要的。

2、upstream 模組的 keepalive_timeout 引數

檢視官網文件，Module ngx_http_upstream_module，

Syntax:	keepalive_timeout timeout;
Default:	
keepalive_timeout 60s;
Context:	upstream
This directive appeared in version 1.15.3.
複製程式碼

Sets a timeout during which an idle keepalive connection to an upstream server will stay open.

設定 tcp 連線空閒時間超過 60s 後關閉，這正是我們需要的。

為了使用該引數，升級 nginx 版本到 1.15.8，配置檔案如下：

http {
    upstream dbg2 {
        server 10.201.0.27:8888;
        keepalive 100;
        keepalive_requests 30000;
        keepalive_timeout 300s;
    }
    ...
}
複製程式碼

設定 tcp 連線上跑了 30000 個 http 請求或者空閒 300s，那麼就關閉連線。

之後繼續測試，沒有發現丟包。

序號 938：空閒 5 分鐘後，nginx 主動發起 FIN 報文，關閉連線。

一起來談談 Spring AOP！
2018-03-13
Spring
談談我對js中閉包的理解
2020-10-14
JS
來談談限流-從概念到實現
2019-01-21
淺談TCP/IP
2018-05-28
TCP
淺談Nginx
2018-05-26
Nginx
故障排除-丟包嚴重的抓包解決
2024-11-07
從微軟併購 ZeniMax，談談 Xbox 的過往和未來
2020-10-12
微軟
從原始碼的角度來談一談HashMap的內部實現原理
2018-08-19
原始碼HashMap
從996.icu來談一談如何高效支配時間
2019-04-01
996
談談nginx和lvs各自的優缺點以及使用
2020-10-29
Nginx
談談Koa 中的next
2019-02-22
淺談UDP(資料包長度，收包能力，丟包及程式結構選擇)
2020-11-19
UDP
從一個Oracle DBA的角度來談談PG資料庫的最佳化
2024-02-04
Oracle資料庫
從 Angular Component 和 Directive 的例項化，談談 Angular forRoot 方法的命令由來
2022-08-18
Angular
談談JavaScript中的this機制
2018-07-11
JavaScript
談談Spring中的BeanPostProcessor介面
2020-05-11
SpringBean
談談對中斷的理解
2021-08-22
談談Selenium中的日誌
2023-03-16
亂談閉包
2019-04-16
從原始碼談談 redux compose
2018-05-14
原始碼Redux
談談surging引擎的tcp、http、ws協議和如何容器化部署
2018-07-15
TCPHTTP協議
這篇文章，我們來談一談Spring中的屬性注入
2020-06-21
Spring
談談HTTPS安全認證，抓包與反抓包策略
2019-09-21
HTTP
[譯] 2018 來談談 Web Component
2018-08-18
Web
從promise、process.nextTick、setTimeout出發，談談Event Loop中的Job queue
2019-02-16
PromiseOOP
從一個軟體故障出發，談談企業管理軟體領域內那些很難穩定重現故障的處理技巧
2021-11-02
[宇塵埃]也來談談到底什麼是中臺？
2019-03-19
談談TCP協議的三次握手和四次揮手
2018-10-25
TCP協議
詼諧的談談TCP三次握手和四次揮手
2020-12-12
TCP
談談正規表示式中的 “.”
2019-02-27
談談 Java 中的那些“瑣”事
2020-09-22
Java
談談JS中的函式劫持
2018-12-27
JS函式
談談Spring中的BeanPostProcessor介面（轉）
2024-09-06
SpringBean
從 React render 談談效能優化
2019-02-23
React優化
UDP分片和丟包與TCP效果對比
2023-11-23
UDPTCP
從原始碼角度談談AsyncTask的使用及其原理
2019-02-27
原始碼
從釋出-訂閱模式談談 Flask 的 Signals
2020-07-02
模式Flask
談談從CAP定理到Lambda架構的演化
2022-12-14
架構