記一次服務端系統效能優化

xiaxiaosheng發表於2021-12-09

原文網址 : https://www.cnblogs.com/xiaxiaosheng/p/15666456.html

首先簡單介紹一下業務場景，物聯網裝置，關注公眾號，免費領取環保袋。

12月8號，也就是昨天上午，突然接到大量客戶投訴反饋下單介面點選下單一直在“轉圈”，最後超時。緊急排查！

第一步檢視網路，伺服器ping值正常，然後查詢伺服器頻寬佔用率正常。

第二步，檢視應用伺服器負載，很低，基本沒問題。

第三步，重點來了，檢查資料庫效能。

show processlist; 發現連線數維持在97-99，懷疑，是否是受到最大連線數限制，導致新的查詢在排隊，查詢得知，最大連線數設定為800，所以排除連線數限制問題。又掃了一眼processlist列表，發現大量耗時很長的查詢，初步定位問題。把sql拎出來看一下，發現該查詢沒有建索引，系統上線時間不長，業務發展迅猛，問題一下子暴露出來，建索引完事。

索引建完之後，再次檢查資料庫，發現有很多警告，CPU佔用率一直居高不下，高峰期直接100%，這個問題就比較嚴重了。首先檢視了慢查詢日誌，發現慢查詢的時間閾值還停留在10秒，這肯定不行，於是設定為4秒，改為4秒之後發現，依然沒有慢查詢，再看了一下sql執行情況，高峰期，qps 為1000左右，tps大概40+，比較高了，但讀請求明顯多於寫請求。決定，再次對系統進行優化。

1. 分析了一下sql執行日誌，對一段時間內執行的sql按執行次數進行了一個排序，過了一遍所有的sql，進行了少量優化，但優化空間不大。

2. 維護裝置線上狀態的模組，分佈在各地的裝置每分鐘或每30秒會發一個心跳包，心跳包用於維持裝置的線上狀態，現在規定是5分鐘內沒有收到心跳包則認為裝置離線，收到心跳包後每次都會去更新裝置最後心跳時間欄位。開始想把裝置線上狀態維護完全放到redis裡面，直接砍掉這部分的資料庫IO，後來分析了一下，發現業務不允許，因此查詢的時候需要按照裝置線上狀態來查詢。最後解決方案，由於裝置每分鐘會傳送1-2次心跳包，每次都去更新資料庫，而業務允許5分鐘的掉線狀態延遲，因此，利用redis快取過濾一下，在5分鐘內，僅僅更新一次資料庫也可以達到同樣的效果。最後看了一下優化效果，發現，好像不太理想，首先，因為該update操作本來就執行的很快，資源佔用很小，基於看不出CPU佔用率曲線有明顯變化。

3. 下一步，繼續尋找優化點。接受前面優化的教訓，接下來尋找優化的點的時候，從耗時長的操作入手，這樣達到的效果應該是最好的。首先把慢查詢時間閾值改為2秒，這時，一個新的慢查詢sql出現了，就是在每次建立訂單時，需要先查詢一下該公眾號當前已經成功吸粉的數量，因為業務規定達到吸粉數量目標之後需要停止吸粉，這查詢操作進行了全表掃描，而且sql沒有可優化空間了。但這裡很明顯可以通過快取去優化，將公眾號當前已吸粉數快取起來，當訂單完結時，對快取執行+1操作，+1操作如果直接使用redis的incr操作，會有問題：想象一下，快取過期，這時恰好執行了incr，由於incr當key不存在時，會建立key，並初始化為0再+1，而且該key永不過期，這樣就達不到限制吸粉數量的效果了。因此通過lua指令碼來進行+1操作，只有當key存在時，才執行+1，程式碼如下：

local exists = redis.call('exists', KEYS[1]); 
if (exists == 1) then 
    return redis.call('incr', KEYS[1]); 
end 
return nil;

View Code

釋出之後，再次檢視優化效果，震驚，CPU佔用率曲線斷崖式下跌，從100%掉到了10%以下，至此，本次優化取得圓滿成功，又可以撐一段時間了。

高效能服務端優化之路
2019-04-03
服務端優化
效能優化｜Tomcat 服務優化
2018-09-11
優化Tomcat
記一次資料量上億的後臺服務的效能優化
2021-07-18
優化
? 記一次前端效能優化
2019-05-10
前端優化
人人都能掌握的Java服務端效能優化方案
2019-02-28
Java服務端優化
Android效能優化篇之服務優化
2018-06-14
Android優化
記一次 .NET 某HIS系統後端服務記憶體洩漏分析
2021-05-21
後端記憶體
搭建服務端效能監控系統 Prometheus 詳細指南
2024-06-19
服務端Prometheus
【效能優化】秒殺系統效能優化初體驗
2021-04-27
優化
記一次提升18倍的效能優化
2022-03-02
優化
記一次Prometheus代理效能優化問題
2022-03-25
Prometheus優化
系統效能優化總結
2022-05-14
優化
記一次效能調優
2019-01-19
系統架構效能優化思路
2020-11-29
架構優化
記一次介面效能優化實踐總結：優化介面效能的八個建議
2020-06-08
優化
Netty服務端開發及效能最佳化
2023-05-05
Netty服務端
記一次線上商城系統高併發的優化
2020-07-02
優化
記，一次線上商城系統高併發的優化！
2020-10-23
優化
從 FFmpeg 效能加速到端雲一體媒體系統優化
2021-08-23
優化
一次 Flutter WebView 效能優化
2020-01-16
FlutterWebView優化
Java後端分散式系統的服務降級：優雅降級與服務熔斷
2024-08-28
Java後端分散式
做好陪玩系統原始碼的前端效能優化，提升系統效能
2021-10-14
原始碼前端優化
從一次效能優化看https的效能
2019-03-24
優化HTTP
客戶服務CRM系統，提供優質客戶服務
2021-10-29
記一次FreeBSD系統中mysql服務異常的排查過程
2022-07-13
MySql
桌面端前端效能優化策略
2018-07-15
前端優化
【python】記錄一次python傳送json資料到go服務端，服務端解析失敗問題
2024-04-26
PythonJSONGo服務端
Android效能優化筆記
2019-03-04
Android優化筆記
Linux 效能優化筆記
2020-01-06
Linux優化筆記
Web 效能優化筆記
2019-11-19
Web優化筆記
Android 效能優化之記憶體優化
2018-05-21
Android優化記憶體
「服務端」node服務的監控預警系統架構
2019-03-03
服務端架構
android 系統原始碼挖掘之Animator效能優化
2018-04-10
Android原始碼優化
記一次ASP.NET MVC效能優化(實際專案中)
2018-05-27
ASP.NETMVC優化
記錄一次打包優化
2018-09-21
優化
記一次分頁優化
2021-07-26
優化
Android效能優化筆記（一）——啟動優化
2018-12-27
Android優化筆記
記一次 .NET 車聯網雲端服務 CPU爆高分析
2021-05-19

記一次服務端系統效能優化

相關文章