容器網路防火牆狀態異常導致丟包排查記錄

騰訊雲原生發表於2020-09-03

原文網址 : https://www.cnblogs.com/tencent-cloud-native/p/13610007.html

0.導語

K8s容器網路涉及諸多核心子系統，IPVS，Iptable，3層路由，2層轉發，TCP/IP協議棧，這些複雜的核心子系統在特定場景下可能會遇到設計者最初也想不到的問題。

本文分享了iptable防火牆狀態異常導致丟包的排查記錄，這個排查過程非常曲折，最後使用了在現在的作者看來非常落伍的工具：systemtap，才得以排查成功。其實依作者現有的經驗，此問題現在僅需一條命令即可找到原因，這條命令就是作者之前分享過文章使用 ebpf 深入分析容器網路 dup 包問題中提到的skbtracker。時隔7個月，這個工具已經非常強大，能解決日常網路中的90%的網路問題。

此文其實已於2019年7月在騰訊內部進行發表，時隔一年，再次翻出來閱讀仍然有頗多收穫，因此把它分享出來給其他同行一起學習。此外，本篇文章也將作為開篇，後續陸續分享作者近期使用ebpf工具排查各種核心疑難雜症的過程及經驗。

1. 問題描述

騰訊內部某業務在容器場景上遇到了一個比較詭異的網路問題，在容器內使用GIT，SVN工具從內部程式碼倉庫拉取程式碼偶發性卡頓失敗，而在容器所在的Node節點使用同樣版本的GIT，SVN工具卻沒有問題。用詭異這個詞，是因為這個問題的分析持續時間比較久，經歷了多個同學之手，最後都沒有揪出問題根源。有挑戰的問題排查對於本人來說是相當有吸引力的，於是在手頭沒有比較緊急任務的情況下，便開始了有趣的debug。

從客戶描述看，問題復現概率極大，在Pod裡面拉取10次GIT倉庫，必然有一次出現卡死，對於必現的問題一般都不是問題，找到復現方法就找到了解決方法。從客戶及其他同事反饋，卡死的時候，GIT Server不再繼續往Client端傳送資料，並且沒有任何重傳。

1.1 網路拓撲

業務方採用的是TKE單網路卡多IP容器網路方案，node自身使用主網路卡eth0，繫結一個ip，另一個彈性網路卡eth1繫結多個ip地址，通過路由把這些地址與容器繫結，如圖1-1.

圖 1-1 TKE單網路卡多IP容器網路

1.2 復現方法

1.3 抓包檔案分析

在如下三個網口eth1，veth_a1，veth_b1分別迴圈抓包，Server端持續向Client傳送大包，卡頓發生時，Server端停止往Client傳送資料包，沒有任何重傳報文。

2. 排查過程

分析環境差異：node和Pod環境差異

Node記憶體比Pod多，而Node和Pod的TCP 接收快取大小配置一致，此處差異可能導致記憶體分配失敗。
資料包進出Pod比Node多了一次路由判斷，多經過兩個網路裝置：veth_a1和veth_b1，可能是veth的某種裝置特性與TCP協議產生了衝突，或veth虛擬裝置有bug，或veth裝置上配置了限速規則導致。

分析抓包檔案: 有如下特徵

兩個方向的資料包，在eth1，veth_a1裝置上都有被buffer的現象：到達裝置一段時間後被集中傳送到下一跳
在卡住的情況下，Server端和Client端都沒有重傳，eth1處抓到的包總比veth_a1多很多，veth_a1處抓到的包與veth_b1處抓到的包總是能保持一致

分析：TCP是可靠傳輸協議，如果中間因為未知原因（比如限速）發生丟包，一定會重傳。因此卡死一定是發包端收到了某種控制訊號，主動停止了發包行為。

猜測一：wscal協商不一致，Server端收到的wscal比較小

在TCP握手協商階段，Server端收到Client端wscal值比實際值小。傳輸過程中，因為Client端接收buffer還有充裕，Client端累計一段時間沒及時回覆ack報文，但實際上Server端認為Client端視窗滿了（Server端通過比較小的wscal推斷Client端接收buffer滿了），Server端會直接停止報文傳送。

如果Server端使用IPVS做接入層的時候，開啟synproxy的情況下，確實會導致wscal協商不一致。

帶著這個猜想進行了如下驗證：

通過修改TCP 接收buffer（ipv4.tcp_rmem）大小，控制Client wscal值
通過修改Pod記憶體配置，保證Node和Pod的在記憶體配置上沒有差異
在Server端的IPVS節點抓包，確認wscal協商結果

以上猜想經過驗證一一被否決。並且找到業務方同學確認，雖然使用了IPVS模組，但是並沒有開啟synproxy功能，wscal協商不一致的猜想不成立。

猜測二：裝置buffer了報文

裝置開啟了TSO，GSO特性，能極大提升資料包處理效率。猜測因為容器場景下，經過了兩層裝置，在每層裝置都開啟此特性，每層裝置都buffer一段，再集中傳送，導致資料包亂序或不能及時送到，TCP層流控演算法判斷錯誤導致報文停止傳送。

帶著這個猜想進行了如下驗證：

1）關閉所有裝置的高階功能（TSO，GSO，GRO，tx-nocache-copy，SG）

2）關閉容器內部delay ack功能（net.ipv4.tcp_no_delay_ack），讓Client端積極回應Server端的資料包

以上猜想也都驗證失敗。

終極方法：使用systamp指令碼揪出罪魁禍首

驗證了常規思路都行不通。但唯一肯定的是，問題一定出在CVM內部。注意到eth1抓到的包總是比veth_a1多那麼幾個，之前猜想是被buffer了，但是buffer了總得發出來吧，可是持續保持抓包狀態，並沒有抓到這部分多餘的包，那這部分包一定被丟了。這就非常好辦了，只要監控這部分包的丟包點，問題就清楚了。使用systemtap監控skb的釋放點並列印backtrace，即可快速找到引起丟包的核心函式。Systemtap指令碼如圖2-1，2-2所示。

圖2-1 dropwatch指令碼（不帶backtrce列印）

圖2-2 dropwatch指令碼（帶backtrce列印）

首先通過圖2-1指令碼找到丟包點的具體函式，然後找到丟包具體的地址（交叉執行stap --all-modules dropwatch.stp -g和stap dropwatch.stp -g命令，結合/proc/kallsyms裡面函式的具體地址），再把丟包地址作為判斷條件，精確列印丟包點的backtrace（圖2-2）。

執行指令碼stap --all-modules dropwatch.stp -g，開始復現問題，指令碼列印如圖2-3：

圖2-3 丟包函式

正常不卡頓的時候是沒有nf_hook_slow的，當出現卡頓的時候，nf_hook_slow出現在螢幕中，基本確定丟包點在這個函式裡面。但是有很多路徑能到達這個函式，需要列印backtrace確定呼叫關係。再次執行指令碼：stap dropwatch.stp -g，確認丟包地址列表，對比/proc/kallsyms符號表ffffffff8155c8b0 T nf_hook_slow，找到最接近0xffffffff8155c8b0 的那個值0xffffffff8155c9a3就是我們要的丟包點地址（具體核心版本和執行環境有差異）。加上丟包點的backtrace，再次復現問題，螢幕出現圖2-4列印。

圖2-4 丟包點backtrace

圖2-5連線表狀態

可以看出ip_forward呼叫nf_hook_slow最終丟包。很明顯資料包被iptable上的FORWARD 鏈規則丟了。檢視FORWARD鏈上的規則，確實有丟包邏輯(-j REJECT --reject-with icmp-port-unreachable)，並且丟包的時候一定會發 icmp-port-unreachable型別的控制報文。到此基本確定原因了。因為是在Node上產生的icmp回饋資訊，所以在抓包的時候無法通過Client和Server的地址過濾出這種報文（源地址是Node eth0地址，目的地址是Server的地址）。同時執行systamp指令碼和tcpdump工具抓取icmp-port-unreachable報文，卡頓的時候兩者都有體現。

接下來分析為什麼好端端的連線傳輸了一段資料，後續的資料被規則丟了。仔細檢視iptalbe規則發現客戶配置的防火牆規則是依賴狀態的：-m conntrack --ctstate RELATED,ESTABLISHED -j ACCEPT。只有ESTABLISHED連線狀態的資料包才會被放行，如果在資料傳輸過程中，連線狀態發生變化，後續入方向的報文都會被丟棄，並返回埠不可達。通過conntrack工具監測連線表狀態，發現出問題時，對應連線的狀態先變成了FIN_WAIT,最後變成了CLOSE_WAIT（圖2-5）。通過抓包確認，GIT在下載資料的時候，會開啟兩個TCP連線，有一個連線在過一段時間後，Server端會主動發起fin包，而Client端因為還有資料等待傳輸，不會立即傳送fin包，此後連線狀態就會很快發生如下切換：

ESTABLISHED(Server fin)->FIN_WAIT(Client ack)->CLOSE_WAIT

所以後續的包就過不了防火牆規則了（猜測GIT協議有一個控制通道，一個資料通道，資料通道依賴控制通道，控制通道狀態切換與防火牆規則衝突導致控制通道異常，資料通道也跟著異常。等有時間再研究下GIT資料傳輸相關協議）。這說明iptables的有狀態的防火牆規則沒有處理好這種半關閉狀態的連線，只要一方（此場景的Server端）主動CLOSE連線以後，後續的連線狀態都過不了規則（-m conntrack --ctstate RELATED,ESTABLISHED -j ACCEPT）。

明白其中原理以後，對應的解決方案也比較容易想到。因為客戶是多租戶容器場景，只放開了Pod主動訪問的部分服務地址，這些服務地址不能主動連線Pod。瞭解到GIT以及SVN都是內部服務，安全性可控，讓使用者把這些服務地址的入方向放行，這樣即使狀態發生切換，因為滿足入向放行規則，也能過防火牆規則。

3. 思考

在排查問題的過程中，發現其實容器的網路環境還有非常多值得優化和改進的地方的，比如：

TCP接受傳送buffer的大小一般是在核心啟動的時候根據實際實體記憶體計算的一個合理值，但是到了容器場景，直接繼承了Node上的預設值，明顯是非常不合理的。其他系統資源配額也有類似問題。
網路卡的TSO，GSO特性原本設計是為了優化終端協議棧處理效能的，但是在容器網路場景，Node的身份到底是屬於閘道器還是終端？屬於閘道器的話那做這個優化有沒有其他副作用（資料包被多個裝置buffer然後集中發出）。從Pod的角度看，Node在一定意義上屬於閘道器的身份，如何扮演好終端和閘道器雙重角色是一個比較有意思的問題
Iptables相關問題

此場景中的防火牆狀態問題

規則多了以後iptables規則同步慢問題

Service 負載均衡相關問題（規則載入慢，排程演算法單一，無健康檢查，無會話保持，CPS低問題）

SNAT源埠衝突問題，SNAT源埠耗盡問題

IPVS相關問題

統計timer在配置量過大時導致CPU軟中斷收包延時問題

net.ipv4.vs.conn_reuse_mode導致的一系列問題（參考：https://github.com/kubernetes/kubernetes/issues/81775 ）

截止到現在，以上大多數問題已經在TKE平臺得到解決，部分修復patch提到了核心社群，相應的解決方案也共享到了K8s社群。

【騰訊雲原生】雲說新品、雲研新術、雲遊新活、雲賞資訊，掃碼關注同名公眾號，及時獲取更多幹貨！！

TCP連線狀態異常記錄
2018-07-26
TCP
異常連線導致的記憶體洩漏排查
2019-08-03
記憶體
線上排查：記憶體異常使用導致full gc頻繁
2023-02-07
記憶體GC
Fedora 31 k8s kubernetes kubeasz 防火牆 firewalld 導致 harbor pod 容器例項網路不通 connect: connection refused
2020-12-29
K8S防火牆
CentOS8檢視防火牆狀態，開啟/關閉防火牆
2020-11-25
CentOS防火牆
華為交換機LLDP震盪導致網路異常
2024-05-21
【網路安全】什麼Web應用防火牆？它與雲防火牆有什麼差異？
2022-02-17
Web防火牆
記 Laravel Observer 導致 Redis 佇列異常
2021-10-29
LaravelServerRedis佇列
防火牆 | 網路協議
2020-11-09
防火牆協議
UE4 記憶體寫壞導致異常崩潰問題記錄
2023-04-21
記憶體
cmd 檢視防火牆狀態以及關閉
2024-06-11
防火牆
用Fundebug外掛記錄網路請求異常
2019-01-25
異常篇——異常記錄
2022-02-26
iptables防火牆如何記錄日誌
2021-03-02
防火牆
網路安全——防火牆詳解
2023-03-07
防火牆
Win10提示lsp狀態異常如何解決 lsp網路連線異常的方法
2021-12-30
Win10
伺服器架構導致的SEO收錄異常
2020-08-24
伺服器架構
神奇的DEBUG：因為異常導致MongoDB容器無法啟動
2022-12-30
MongoDB
K8S線上叢集排查，實測排查Node節點NotReady異常狀態
2021-02-19
K8S
網路丟包分析
2018-10-15
網頁打不開QQ能上（外掛、加速器、翻牆工具等導致winsock異常）
2020-10-04
網頁
記錄一次Flink作業異常的排查過程
2020-06-17
CentOS 防火牆配置與REJECT導致沒有生效問題
2019-04-28
CentOS防火牆
網路安全必備常識：Web應用防火牆是什麼？
2023-10-17
Web防火牆
Web應用防火牆是什麼？網路安全必備常識
2023-10-26
Web防火牆
WAF與網路防火牆的區別
2023-02-20
防火牆
一次死鎖導致CPU異常飄高的整個故障排查過程
2021-04-23
vue v-for 列表更新導致 iframe 重新整理而狀態丟失的原因以及恢復狀態的方案
2024-09-06
Vue
CoreDNS解析異常記錄
2020-04-22
DNS
使用 nsenter 排查容器網路問題
2024-03-19
windows10網路防火牆在哪裡設定 windows10自帶網路防火牆怎麼設定
2020-10-16
Windows防火牆
Centos7.2 上防火牆的狀態檢視和關閉
2018-07-03
CentOS防火牆
cv::Mat轉QImage導致影像色彩異常
2024-05-07
一次django記憶體異常排查
2020-07-30
Django記憶體
Java應用異常狀態監測
2018-05-21
Java
Linux中如何排查網路？常見的網路排查指令都有哪些?
2022-08-19
Linux
win10 防火牆設定方法_win10怎麼設定網路防火牆
2020-06-30
Win10防火牆
聯瑞Bypass網路卡：築牢網路安全“防火牆”
2022-10-21
防火牆