socket 斷開和重連問題

jhhost發表於2019-03-05

原文網址 : https://juejin.im/post/5c7e3e756fb9a049f81a0932

問題重現

這個問題在c++端比較容易重現，在web端偶現，移動端卻沒發生過。難道是移動端一直沒使用者使用，所以他們也不知道？額，不能這樣想，不然容易被打。一定是有人用的，可能移動端有啥不為人知的厲害操作？

問題分析

由於這個涉及的角色只有兩個，server端和client端，至少目前來說，已經有兩種client端都出現了問題，難道這倆端都寫的有問題麼？額，有一個是我寫的，沒弄清楚之前，不能慫。先從伺服器端查起，檢查相關配置，並沒有發現有類似保持連線時間的配置，額。。。這就尷尬了。客戶端也沒有寫超時自動斷開的邏輯啊？幾個人下午排查了半天，一直沒發現問題到底是怎麼回事兒。只能採用最笨的方法-抓包，然後請我們的好朋友wireshark分析下。同事在伺服器端和客戶端同時抓包，可是有時候就是這樣，你越希望它重現，它反而越不出現。懊惱。。。

下班之前，CTO問查的如何了。大眼瞪小眼，不敢定結論。

他說他看下，第二天中午，cto拉我們去說這個問題，他找到原因了。

他給我們看異常斷開連線前的包，發現斷開連線之前會發兩個包，每個包間隔是2s,上一條訊息的間隔時間是20s,多次異常斷開都是如此。這應該不是巧合，這個包來自伺服器端，這說明伺服器發完這兩個包之後，沒有得到響應，就把客戶端斷開了連線。這個實際上是伺服器的tcp連線的keeplive機制，當伺服器檢測到一個socket端長時間不活動的時候，就會傳送一個探測包檢測client端是否還在，而當client端收到不迴應的時候，會關閉連線，回收資源。linux核心跟這個相關的引數有三個：

tcp_keepalive_time（開啟keepalive的閒置時長）

tcp_keepalive_intvl（keepalive探測包的傳送間隔）

tcp_keepalive_probes （如果對方不予應答，探測包的傳送次數）

那是不是這三個核心引數的配置問題呢？檢查當前配置：

net.ipv4.tcp_keepalive_intvl = 2
net.ipv4.tcp_keepalive_probes = 2
net.ipv4.tcp_keepalive_time = 20
複製程式碼

果然，跟猜想一樣，問題出自這個配置，初始化伺服器的時候，會有指令碼自動調優。加上應用層上編寫程式碼時，並沒有設定此引數，覆蓋系統的設定。所以導致了總是莫名其妙的自己斷開。

真相大白，對cto的崇拜又多了幾分，總能在眾人迷惑的時候，站出來當指明燈。

解決方案：

1. 應用層增加socket保活引數配置，覆蓋系統配置（完美）

2. 直接修改系統配置檔案/etc/sysctl.conf，應用層增加心跳機制，空閒狀態時，每隔19s傳送一個心跳包過去（實際採用）。

順便說一下，之前移動端確實沒有發生斷開連線的異常情況，是因為移動端的開發主動加過保活機制，贊一個。

附錄： tcp長連線和保活時間（keepalive） keeplive詳解

作者：mUncleWang 來源：CSDN 原文：https://blog.csdn.net/qq_30164225/article/details/80714617 版權宣告：本文為博主原創文章，轉載請附上博文連結！

【問題記錄】—SignalR連線斷線重連
2021-06-13
SignalR
VS CODE 一直斷開重連遠超連結相關問題
2024-05-08
Socket 粘包和分包問題
2018-10-20
Socket連線和Http連線
2020-06-24
HTTP
AP6611S藍芽容易斷開連線問題
2024-09-19
藍芽
WebSocket斷線重連
2018-09-10
Web
SecureCRT 超時自動斷開連線問題解決方法
2024-04-19
Securecrt
【中秋國慶不斷更】HarmonyOS網路管理開發—Socket連線
2023-10-04
Twitter安全問題接連不斷黑客再次入侵
2019-05-10
黑客
Socket和TCP連線過程解析
2019-09-15
TCP
前端開發入門到實戰：css單行截斷和多行截斷問題
2019-07-13
前端CSS
陣列累加和問題三連
2020-11-09
陣列
25. Socket與粘包問題
2024-08-27
【Socket】解決UDP丟包問題
2024-06-07
UDP
uni-app中websocket的使用斷開重連、心跳機制
2021-09-10
APPWeb
ai問答：vue3+pinia+WebSocket 封裝斷線重連（實戰）
2023-05-08
AIVueWeb封裝
校園路由器斷網重連
2020-10-27
路由器
Python 實現斷網自動重連
2021-10-18
Python
mybatis多資料來源踩坑，資料庫連線經常斷開問題
2019-08-29
MyBatis資料庫
Go Socket 連線
2021-03-24
Go
SQL問題診斷
2018-04-04
SQL
如何使用screen解決ssh斷連訓練停止的問題
2024-03-11
SecureCRT - 自動斷開問題和標籤頁標題顯示的解決辦法
2018-05-30
Securecrt
Python Requests庫文件連結404問題解決及防止重複問題的建議
2023-11-17
Python
? 抓包分析 TCP 建立和斷開連線的流程
2019-03-31
TCP
1204 斷開式連線
2020-12-06
遠端桌面問題，連線後馬上斷開，並顯示“遠端計算機已結束連線”
2020-04-05
計算機
解決java socket在傳輸漢字時出現截斷導致亂碼的問題
2021-06-23
Java
socket的半包，粘包與分包的問題
2018-04-01
socket程式設計中常見的概念問題！
2021-05-18
程式設計
telnet連線socket server
2020-11-22
Server
【Android】Socket連線-RxSocket
2018-04-15
Android
關於沒有熔斷降級導致服務重啟問題
2024-05-19
NetDiag 是一個由 Microsoft 提供的網路診斷工具，用於幫助管理員和使用者診斷和排除網路連線和配置方面的問題。它主要用於在 Windows 作業系統中分析和診斷與網路連線相關的問題，尤其是在 Active Directory 環境中的問題。
2024-11-10
ROSWindows作業系統
Android Socket連線，使用Socket進行通訊(Android)
2018-10-16
Android
JProfiler for Mac：提升效能和診斷問題的終極工具
2024-02-06
Mac
Android 面向切面程式設計 AOP 解決連續點選開啟重複頁面問題
2019-03-03
Android程式設計
ABAP function group和Tomcat library重複載入問題
2018-06-17
FunctionTomcat