[專題]網路 IO 高階篇：一次有趣的 Docker 網路問題排查原創

济南小老虎發表於2024-05-22

原文網址 : https://www.cnblogs.com/jinanxiaolaohu/p/18205299

Docker

挖坑的張師傅

2年前

8824328

第一篇：基本原理篇：什麼是IO，為什麼 I/O 會經常被阻塞？

第二篇：Linux 網路IO 最佳化篇：一種本機網路 IO 方法，讓你的效能翻倍！

第三篇：網路IO 實戰篇：Java電商系統：重大事故！IO問題引發線上20臺機器同時崩潰

第四篇：網路 IO 高階篇：一次有趣的 Docker 網路問題排查

前段時間公司的安卓打包服務出現問題，現象是在上傳 360 伺服器進行加固的時候，非常大機率會卡在上傳階段，長時間重試最後失敗。我對這個情況進行了一些排查分析，解決了這個問題，寫了這篇長文覆盤了排查的經歷，會涉及到下面這些內容。

Docker 橋接模式網路模型
Netfilter 與 NAT 原理
Systemtap 在核心探針中的用法

現象描述

打包服務的部署結構這樣的：安卓打包環境被打包為一個 docker 映象，部署在某臺物理機上，這映象會完成程式碼編譯打包、加固、簽名、生成渠道包的功能，如下圖所示：

android-docker

問題就出在上傳 APK 這一步，傳到一部分就卡住，360 的 sdk 提示超時等異常，如下圖所示。

透過在宿主機和容器內分別抓包，我們發現了這樣一些現象。

宿主機的抓包如下，序號為 881 的包是一個延遲的 ACK，它的 ACK 值為 530104，比這個 ACK 號更大的序列號在 875 的那個包已經確認過了（序列號為 532704，隨後宿主機傳送了一個 RST 包給遠端的 360 加固伺服器。

再後面就是不停重試傳送資料，上傳卡住也就對應這個不斷重試傳送資料的階段，如下圖所示

宿主機抓包

在容器側抓包，並沒有出現這個 RST，其它的包一樣，如下圖所示

因為容器側沒有感知到連線的異常，容器內的服務就一直在不停的重試上傳，經過多次重試以後依然是失敗的。

初步的排查分析

一開始的疑慮是，是不是因為收到了延遲到達的 ACK，所以回覆 RST呢？

這不應該，在 TCP 協議規範中，收到延遲到達的 ACK，忽略即可，不必回覆 ACK，那到底為什麼會發 RST 包呢？

那是不是這個包本來就不合法呢？經過仔細分析這個包的資訊，沒有發現什麼異常。從已有的 TCP 原理知識，已經沒法推斷這個現象了。

黔驢技窮，沒有什麼思路，這個時候就該用上 systemtap，來看看 rst 包到底是哪裡發出來。

透過檢視核心的程式碼，傳送 rst 包的函式主要是下面這兩個

tcp_v4_send_reset@net/ipv4/tcp_ipv4.c

static void tcp_v4_send_reset(struct sock *sk, struct sk_buff *skb) {
}

tcp_send_active_reset@net/ipv4/tcp_output.c

void tcp_send_active_reset(struct sock *sk, gfp_t priority) {
}

接下來 systemtap 注入這兩個函式即可。

probe kernel.function("tcp_send_active_reset@net/ipv4/tcp_output.c").call {
    printf ("\n%-25s %s<-%s\n", ctime(gettimeofday_s()) ,execname(), ppfunc());
    if ($sk) {
        src_addr = tcp_src_addr($sk);
        src_port = tcp_src_port($sk);
        dst_addr = tcp_dst_addr($sk);
        dst_port = tcp_dst_port($sk);
        if (src_port == 443 || dst_port == 443) {
          printf (">>>>>>>>>[%s->%s] %s<-%s %d\n", str_addr(src_addr, src_port), str_addr(dst_addr, dst_port), execname(), ppfunc(), dst_port);
          print_backtrace();
        }
    }
}

probe kernel.function("tcp_v4_send_reset@net/ipv4/tcp_ipv4.c").call {
    printf ("\n%-25s %s<-%s\n", ctime(gettimeofday_s()) ,execname(), ppfunc());
    if ($sk) {
        src_addr = tcp_src_addr($sk);
        src_port = tcp_src_port($sk);
        dst_addr = tcp_dst_addr($sk);
        dst_port = tcp_dst_port($sk);
        if (src_port == 443 || dst_port == 443) {
          printf (">>>>>>>>>[%s->%s] %s<-%s %d\n", str_addr(src_addr, src_port), str_addr(dst_addr, dst_port), execname(), ppfunc(), dst_port);
          print_backtrace();
        }
    } else if ($skb) {
        header = __get_skb_tcphdr($skb);
        src_port = __tcp_skb_sport(header)
        dst_port = __tcp_skb_dport(header)
        if (src_port == 443 || dst_port == 443) {
            try {
                iphdr = __get_skb_iphdr($skb)
                src_addr_str = format_ipaddr(__ip_skb_saddr(iphdr), @const("AF_INET"))
                dst_addr_str = format_ipaddr(__ip_skb_daddr(iphdr), @const("AF_INET"))

                tcphdr = __get_skb_tcphdr($skb)
                urg = __tcp_skb_urg(tcphdr)
                ack = __tcp_skb_ack(tcphdr)
                psh = __tcp_skb_psh(tcphdr)
                rst = __tcp_skb_rst(tcphdr)
                syn = __tcp_skb_syn(tcphdr)
                fin = __tcp_skb_fin(tcphdr)

                printf ("skb [%s:%d->%s:%d] ack:%d, psh:%d, rst:%d, syn:%d fin:%d %s<-%s %d\n",
                        src_addr_str, src_port, dst_addr_str, dst_port, ack, psh, rst, syn, fin, execname(), ppfunc(), dst_port);
                print_backtrace();
            } 
            catch { }
	}
    } else {
          printf ("tcp_v4_send_reset else\n");
          print_backtrace();
    }
}

一執行就發現，出問題時，進入的是 tcp_v4_send_reset 這個函式，呼叫堆疊是

Tue Jun 15 11:23:04 2021  swapper/6<-tcp_v4_send_reset
skb [36.110.213.207:443->10.21.17.99:39700] ack:1, psh:0, rst:0, syn:0 fin:0 swapper/6<-tcp_v4_send_reset 39700
 0xffffffff99e5bc50 : tcp_v4_send_reset+0x0/0x460 [kernel]
 0xffffffff99e5d756 : tcp_v4_rcv+0x596/0x9c0 [kernel]
 0xffffffff99e3685d : ip_local_deliver_finish+0xbd/0x200 [kernel]
 0xffffffff99e36b49 : ip_local_deliver+0x59/0xd0 [kernel]
 0xffffffff99e364c0 : ip_rcv_finish+0x90/0x370 [kernel]
 0xffffffff99e36e79 : ip_rcv+0x2b9/0x410 [kernel]
 0xffffffff99df0b79 : __netif_receive_skb_core+0x729/0xa20 [kernel]
 0xffffffff99df0e88 : __netif_receive_skb+0x18/0x60 [kernel]
 0xffffffff99df0f10 : netif_receive_skb_internal+0x40/0xc0 [kernel]
...

可以看到是在收到 ACK 包以後，呼叫 tcp_v4_rcv 來處理時傳送的 RST，那到底是哪一行呢？

這就需要用到一個很厲害的工具 faddr2line ，把堆疊中的資訊還原為原始碼對應的行數。

wget https://raw.githubusercontent.com/torvalds/linux/master/scripts/faddr2line

bash faddr2line /usr/lib/debug/lib/modules/`uname -r`/vmlinux tcp_v4_rcv+0x536/0x9c0
 
tcp_v4_rcv+0x596/0x9c0:
tcp_v4_rcv in net/ipv4/tcp_ipv4.c:1740

可以看到是在 tcp_ipv4.c 的 1740 行呼叫了 tcp_v4_send_reset 函式，

int tcp_v4_rcv(struct sk_buff *skb)
{
	struct sock *sk;

	sk = __inet_lookup_skb(&tcp_hashinfo, skb, th->source, th->dest);
	if (!sk)
		goto no_tcp_socket;

...

no_tcp_socket:
	if (!xfrm4_policy_check(NULL, XFRM_POLICY_IN, skb))
		goto discard_it;

	if (skb->len < (th->doff << 2) || tcp_checksum_complete(skb)) {
csum_error:
		TCP_INC_STATS_BH(net, TCP_MIB_CSUMERRORS);
bad_packet:
		TCP_INC_STATS_BH(net, TCP_MIB_INERRS);
	} else {
		tcp_v4_send_reset(NULL, skb);  // 1739 行
	}
}

唯一可能呼叫到的邏輯就是找不到這個包對應的套接字資訊，sk 為 NULL，然後走到 no_tcp_socket 標籤處，然後走到 else 的流程，才有可能。

這怎麼可能呢？連線好好的存在，怎麼可能收到一個延遲到達的 ack 包處理的時候找不到這個連線套接字了呢？接下來我們來看 __inet_lookup_skb 函式的底層實現，最終走到了 __inet_lookup_established 這個函式。

struct sock *__inet_lookup_established(struct net *net,
				  struct inet_hashinfo *hashinfo,
				  const __be32 saddr, const __be16 sport,
				  const __be32 daddr, const u16 hnum,
				  const int dif)

刨去現有的現象，有一個很類似的 RST 的場景是，往一個沒有監聽某埠的服務傳送包。這個包沒有對應的連線，核心就會回覆 RST，告知傳送端無法處理這個包。

到這裡，排查陷入了僵局。為什麼明明連線還在，核心協議棧就是找不到呢？

Docker 橋接模式網路包流通方式

Docker 程序啟動時，會在主機上建立一個名為 docker0 的虛擬網橋，這個主機上的 docker 容器會連線到這個虛擬網橋上。

容器啟動後，Docker 會生成一對 veth 介面（veth pair），本質相當於軟體實現的乙太網連線，docker 透過 veth 把容器內的 eth0 連線到 docker0 網橋。外部的連線可以透過 IP 偽裝（IP masquerading）的方式提供，IP 偽裝是網路地址轉換（NAT）的一種方式，以 IP 轉發（IP forwarding）和 iptables 規則建立。

docker network 原理

深入 Netfilter 與 NAT

Netfilter 是一個 Linux 核心框架，它在核心協議棧中設定了若干hook 點，以此對資料包進行攔截、過濾或其他處理。從簡單的防火牆，到對網路通訊資料的詳細分析，到複雜的、依賴於狀態的分組過濾器，它都可以實現。

Docker 利用了它的 NAT（network address translation，網路地址轉換）特性，根據某些規則來轉換源地址和目標地址。iptables 正是一個使用者態用於管理這些 Netfilter 的工具。

對於這個場景中的部署結構，它的原理如下圖所示。

docker network 2

經過檢視 netfilter 的程式碼，發現它會把 out of window 的包標記為 INVALID 狀態，原始碼見 net/netfilter/nf_conntrack_proto_tcp.c:

/* Returns verdict for packet, or -1 for invalid. */
static int tcp_packet(struct nf_conn *ct,
const struct sk_buff *skb,
unsigned int dataoff,
enum ip_conntrack_info ctinfo,
u_int8_t pf,
unsigned int hooknum,
unsigned int *timeouts) {
// ...
if (!tcp_in_window(ct, &ct->proto.tcp, dir, index,
skb, dataoff, th, pf)) {
spin_unlock_bh(&ct->lock);
return -NF_ACCEPT;
}
}

口說無憑，上面只是理論分析，你怎麼就能說是一個 ACK 導致的 invalid 包呢？

我們可以透過 iptables 的規則，把 invalid 的包列印出來。

iptables -A INPUT -m conntrack --ctstate INVALID -m limit --limit 1/sec   -j LOG --log-prefix "invalid: " --log-level 7

新增上面的規則以後，再次執行加固上傳的指令碼，同時開始抓包，現象重現。

然後在 dmesg 中檢視對應的日誌。

以第一行為例，它的 LEN=40，也就是 20 IP 頭 + 20 位元組 TCP 頭，ACK 位被置位，表示這是一個沒有任何內容的 ACK 包，對應於上圖中 RST 包的前一個 ACK 包。這個包的詳情如下圖，window 等於 187 也是對的上的。

如果是 INVALID 狀態的包，netfilter 不會對其做 IP 和埠的 NAT 轉換，這樣協議棧再去根據 ip + 埠去找這個包的連線時，就會找不到，這個時候就會回覆一個 RST，過程如下圖所示。

docker network 3

這也印證了我們前面 __inet_lookup_skb 為 null，然後傳送 RST 的程式碼邏輯。

如何修改

知道了原因，修改起來就很簡單了，有兩個改法。第一個改法有點粗暴，使用 iptables 把 invalid 包 drop 掉，不讓它產生 RST。

iptables -A INPUT -m conntrack --ctstate INVALID -j DROP

這樣修改以後，問題瞬間解決了，經過幾十次的測試，一次都沒有出現過上傳超時和失敗的情況。

這樣修改有一個小問題，可能會誤傷 FIN 包和一些其它真正 invalid 的包。有一個更加優雅的改法是修改把核心選項 net.netfilter.nf_conntrack_tcp_be_liberal 設定為 1：

sysctl -w "net.netfilter.nf_conntrack_tcp_be_liberal=1"
net.netfilter.nf_conntrack_tcp_be_liberal = 1

把這個引數值設定為 1 以後，對於視窗外的包，將不會被標記為 INVALID，原始碼見 net/netfilter/nf_conntrack_proto_tcp.c:

static bool tcp_in_window(const struct nf_conn *ct,
struct ip_ct_tcp *state,
enum ip_conntrack_dir dir,
unsigned int index,
const struct sk_buff *skb,
unsigned int dataoff,
const struct tcphdr *tcph,
u_int8_t pf) {
...
res = false;
if (sender->flags & IP_CT_TCP_FLAG_BE_LIBERAL ||
tn->tcp_be_liberal)
res = true;
...
return res;
}

最後來一個如絲般順滑的上傳截圖結束本篇文章。

後記

多看程式碼，懷疑一些不可能的現象。以上可能說的都是錯誤，看看方法就好。

💥看到這裡的你，如果對於我寫的內容很感興趣，有任何疑問，歡迎在下面留言📥，會第一次時間給大家解答，謝謝！

如何排查網路問題-開發眼裡的網路
2023-03-07
使用 nsenter 排查容器網路問題
2024-03-19
網路問題排查必備利器：Pingmesh
2024-03-04
記一次排查CPU高的問題
2021-11-05
CentOS7 配置靜態IP 及網路問題排查
2018-04-03
CentOS
不要再說你不會了——網路效能問題排查思路
2023-04-13
Docker使用Calico網路模式配置及問題處理
2022-11-29
Docker模式
Tensorflow系列專題（四）：神經網路篇之前饋神經網路綜述
2018-11-20
神經網路
【問題排查篇】一次業務問題對 ES 的 cardinality 原理探究
2023-05-06
面試必考：網路問題
2021-09-03
面試
python網路進階篇
2019-01-06
Python
【原創】答一位網友專案管理問題
2019-06-04
專案管理
一次線上CPU高的問題排查實踐
2019-06-23
2018年一線網際網路公司Java高階面試題總結
2018-11-14
Java面試題
kvm網路，docker網路,，vm網路
2024-04-27
Docker
Linux中如何排查網路？常見的網路排查指令都有哪些?
2022-08-19
Linux
DevOps專題|玩轉Kubernetes網路
2020-01-17
dev
專題三：計算機網路
2024-11-09
計算機網路
網路安全常見問題有哪些？網路安全學習
2020-12-07
[20181031]模擬網路問題.txt
2018-10-31
未來網路若干問題思考
2023-05-11
網路問題定位工具記錄
2023-03-03
網路安全高階培訓
2020-04-07
PHP yield 高階用法——網路
2020-06-29
PHP
Java IO: 網路
2021-11-27
Java
網路安全實驗室題目（選擇題篇）
2021-06-14
新鮮出爐的一線網際網路公司Java高階面試題總結！
2018-08-07
Java面試題
有趣的路燈問題——按規律列印圖形
2020-10-09
??網路之謎：記一次失敗排查的故事
2023-11-15
深入分析網路通訊，Wireshark助你解決網路問題！
2024-01-18
OpenStack 下 CentOS6.X 映象網路初始化失敗問題排查
2024-07-03
CentOS
網際網路公司面試必問的Redis題目
2018-09-13
面試Redis
使用MTR命令診斷網路問題
2018-06-01
[網路流24題] 魔術球問題 (最大流)
2020-04-05
記一次oom問題排查
2022-01-23
OOM
記錄一次問題排查
2021-08-02
【工業網際網路】工業網際網路平臺建設的四個基本問題
2018-03-29
10個企業網路安全建議，解決99%的網路安全問題
2019-12-07