【效能優化之道】每秒上萬併發下的Spring Cloud引數優化實戰

石杉的架構筆記發表於2018-11-12

原文網址 : https://juejin.im/post/5be83e166fb9a049a7115580

優化SpringCloud

歡迎關注個人微信公眾號：石杉的架構筆記（id：shishan100）

每週一到週五早八點半！精品技術文章準時送上！！

往期文章
1. 拜託！面試請不要再問我Spring Cloud底層原理
2. 【雙11狂歡的背後】微服務註冊中心如何承載大型系統的千萬級訪問？

一、寫在前面

二、場景引入，問題初現

三、揚湯止沸，飲鴆止渴

四、問題爆發，洪水猛獸

五、追本溯源，治標治本

六、總結全文，回眸再看

一、寫在前面

相信不少朋友都在自己公司使用Spring Cloud框架來構建微服務架構，畢竟現在這是非常火的一門技術。

如果只是使用者量很少的傳統IT系統，使用Spring Cloud可能還暴露不出什麼問題。

如果是較多使用者量，高峰每秒高達上萬併發請求的網際網路公司的系統，使用Spring Cloud技術就有一些問題需要注意了。

二、場景引入，問題初現

先不空聊原理、理論，來講一個真實的例子，這是我的一個朋友在創業網際網路公司發生過的真實案例。

朋友A的公司做網際網路類的創業，組建了一個小型研發團隊，上來就用了Spring Cloud技術棧來構建微服務架構的系統。一段時間沒日沒夜的加班，好不容易核心業務系統給做出來了，平時正常QA測試沒發現什麼大毛病，感覺效能還不錯，一切都很完美。

然後系統就這麼上線了，一開始使用者規模很小，註冊使用者量小几十萬，日活幾千使用者。

每天都有新的資料進入資料庫的表中，就這麼日積月累的，沒想到資料規模居然慢慢吞吞增長到了單表幾百萬。

這個時候呢，看起來也沒太大的毛病，就是有使用者反映，系統有些操作，會感覺卡頓幾秒鐘，會刷不出來頁面。

這是為啥呢？

核心原因是單表資料量大了一些，達到了幾百萬。
有個別服務，跑的SQL比較複雜，一大堆的多表關聯
並且還沒有設計好索引，或者是設計了索引，但無奈一些小弟寫了上百行的大SQL，SQL實在太複雜了，那麼一個SQL跑出來好幾秒肯定是正常的。

如果大家對微服務框架有點了解的話，應該知道，比如Feign + Ribbon組成的服務呼叫框架，是有介面呼叫超時這一說的，有一些引數可以設定介面呼叫的超時時間。

如果你呼叫一個介面，好幾秒刷不出來，人家就超時異常返回，使用者就刷不出來頁面了。

三、揚湯止沸，飲鴆止渴

一般碰到這種事情，一大坨屎一樣的SQL擺在那兒，寫SQL的人過一個月自己都看不懂了，80%的工程師看著都不願意去花時間重寫和優化。

一是修改的人力成本太高，二是誰敢負擔這責任呢？系統跑的好好的，就是慢了點而已，結果你硬是亂改一通，重構，把系統核心業務流程搞掛了怎麼辦？

所以說，那些兄弟第一反應是：增加超時時間啊！介面慢點可以，但是別超時不響應啊！

讓介面執行個幾秒把結果返回，使用者不就可以刷出來頁面了！不用重構系統了啊！輕鬆+愉快！

如何增加呢？很簡單，看下面的引數就知道了：

大家如果看過之前的文章，應該知道，Spring Cloud裡一般會用hystrix的執行緒池來執行介面呼叫的請求。

如果忘了這一點的，可以回頭看看《拜託，面試請不要再問我Spring Cloud底層原理！》。

所以設定超時一般設定兩個地方，feign和ribbon那塊的超時，還有hystrix那塊的超時。其中後者那塊的超時一般必須大於前者。

Spring Cloud玩兒的好的兄弟，可千萬別看著這些配置發笑，因為我確實見過不少Spring Cloud玩兒的沒那麼溜的哥們，真的就這麼幹了。

好了，日子在繼續。。。

優化了引數後，看上去效果不錯，使用者雖然覺得有的頁面慢是慢點，但是起碼過幾秒能刷出來。

這個時候，日活幾千的使用者量，壓根兒沒什麼併發可言，高峰期每秒最多一二十併發請求罷了。

大家看看下面這張圖，感受一下現場氛圍：

四、問題爆發，洪水猛獸

隨著時間的推移，公司業務高速發展……

那位兄弟的公司，在系統打磨成熟，幾萬使用者試點都ok之後，老闆立馬拿到一輪幾千萬的融資。

公司上上下下意氣風發啊！緊接著就是組建運營團隊，地推團隊，全國大範圍的推廣。

總之就是三個字：推！推！推！

這一推不打緊！研發人員在後臺系統發現，自己的使用者量蹭蹭蹭的增長，註冊使用者增長了幾十倍，突破了千萬級別，日活使用者也翻了幾十倍，在活動之類的高峰期，居然達到了上百萬的日活使用者量。。。

幸福的煩惱。。。

為什麼這麼說？因為使用者量上來後，悲劇的事情就發生了。

高峰期每秒的併發請求居然達到了近萬的程度，研發團隊的兄弟們哪裡敢怠慢！在這個過程中，先是緊張的各種擴容服務，一臺變兩臺，兩臺變八臺。

然後資料庫主從架構掛上去，讀寫分離是必須的，否則單個資料庫伺服器哪能承載那麼大的請求！多搞幾個從庫，扛一下大量的讀請求，這樣基本就扛住了。

正準備鬆口氣，更加悲劇的事情就發生了。

在這個過程中，那些兄弟經常會發現高峰期，系統的某個功能頁面，突然就整個hang死了，就是沒法再響應任何請求！所有使用者重新整理這個頁面全部都是無法響應！

這是為什麼呢？

原因很簡單啊！一個服務A的例項裡，專門呼叫服務B的那個執行緒池裡的執行緒，總共可能就幾十個。每個執行緒呼叫服務B都會卡住5秒鐘。

那如果每秒鐘過來幾百個請求這個服務例項呢？一下子那個執行緒池裡的執行緒就全部hang死了，沒法再響應任何請求了。

大家來看看下面這張圖，再直觀的感受一下這個無助的過程！

這個時候咋辦？兄弟們只能祭出程式設計師最古老的法寶，重啟機器！

遇到頁面刷不出來，只能重啟機器，相當於短暫的初始化了一下機器內的資源。

然後接著執行一段時間，又卡死，再次重啟！真是令人崩潰啊！使用者們的體驗是極差的，老闆的心情是憤怒的！

畫外音：

其實這個問題本身不大，但如果對Spring Cloud沒有高併發場景的真實經驗，確實可能會跟這幫兄弟一樣，搞出些莫名其妙的問題。

比如這個公司，明明應該去優化服務介面效能，結果硬是調大了超時時間。結果導致併發量高了，對那個服務的呼叫直接hang死，系統的核心頁面刷不出來，影響使用者體驗了，這怪誰呢？

五、追本溯源，治標治本

沒法子了，那幫兄弟們只能找人求助。下面就是作者全程指導他們完成系統優化的過程。

第一步

關鍵點，優化圖中核心服務B的效能。網際網路公司，核心業務邏輯，面向C端使用者高併發的請求，不要用上百行的大SQL，多表關聯，那樣單表幾百萬行資料量的話，會導致一下執行好幾秒。

其實最佳的方式，就是對資料庫就執行簡單的單表查詢和更新，然後複雜的業務邏輯全部放在java系統中來執行，比如一些關聯，或者是計算之類的工作。

這一步幹完了之後，那個核心服務B的響應速度就已經優化成幾十毫秒了，是不是很開心？從幾秒變成了幾十毫秒！

第二步

那個超時的時間，也就是上面那段ribbon和hystrix的超時時間設定。

奉勸各位同學，不要因為系統介面的效能過差而懶惰，搞成幾秒甚至幾十秒的超時，一般超時定義在1秒以內，是比較通用以及合理的。

為什麼這麼說？

因為一個介面，理論的最佳響應速度應該在200ms以內，或者慢點的介面就幾百毫秒。

如果一個介面響應時間達到1秒+，建議考慮用快取、索引、NoSQL等各種你能想到的技術手段，優化一下效能。

否則你要是胡亂設定超時時間是幾秒，甚至幾十秒，萬一下游服務偶然出了點問題響應時間長了點呢？那你這個執行緒池裡的執行緒立馬全部卡死！

具體hystrix的執行緒池以及超時時間的最佳生產實踐，請見下一篇文章：《微服務架構如何保障雙11狂歡下的99.99%高可用》

這兩步解決之後，其實系統表現就正常了，核心服務B響應速度很快速，而且超時時間也在1秒以內，不會出現hystrix執行緒池頻繁卡死的情況了。

第三步

事兒還沒完，你要真覺得兩步就搞定了，那還是經驗不足。

如果你要是超時時間設定成了1秒，如果就是因為偶然發生的網路抖動，導致介面某次呼叫就是在1.5秒呢？這個是經常發生的，因為網路的問題，介面呼叫偶然超時。

所以此時配合著超時時間，一般都會設定一個合理的重試，如下所示：

設定這段重試之後，Spring Cloud中的Feign + Ribbon的組合，在進行服務呼叫的時候，如果發現某臺機器超時請求失敗，會自動重試這臺機器，如果還是不行會換另外一臺機器重試。

這樣由於偶爾的網路請求造成的超時，不也可以通過自動重試避免了？

第四步

其實事兒還沒完，如果把重試引數配置了，結果你居然就放手了，那還是沒對人家負責任啊！

你的系統架構中，只要涉及到了重試，那麼必須上介面的冪等性保障機制。

否則的話，試想一下，你要是對一個介面重試了好幾次，結果人家重複插入了多條資料，該怎麼辦呢？

其實冪等性保證本身並不複雜，根據業務來，常見的方案：

可以在資料庫裡建一個唯一索引，插入資料的時候如果唯一索引衝突了就不會插入重複資料
或者是通過redis裡放一個唯一id值，然後每次要插入資料，都通過redis判斷一下，那個值如果已經存在了，那麼就不要插入重複資料了。

類似這樣的方案還有一些。總之，要保證一個介面被多次呼叫的時候，不能插入重複的資料。

六、總結全文，回眸再看

有圖有真相！老規矩，最後給大家上一張圖，最終優化後的系統表現大概是長下面這樣子的。

如有收穫，請幫忙轉發，您的鼓勵是作者最大的動力，謝謝！

一大波微服務、分散式、高併發、高可用的原創系列文章正在路上,歡迎掃描下方二維碼，持續關注

《雙11背後每秒上萬併發下的Spring Cloud引數優化實戰》，敬請期待

《微服務架構如何保障雙11狂歡下的99.99%高可用》，敬請期待

歡迎關注個人微訊號：石杉的架構筆記（id：shishan100）

週一至週五早八點半！精品技術文章準時送上

十餘年BAT架構經驗傾囊相授

Java高併發實戰，鎖的優化
2019-05-17
Java優化
Python 程式碼的效能優化之道
2018-10-24
Python優化
mpvue效能優化實戰技巧
2019-04-16
Vue優化
Linux效能優化實戰（一）
2022-02-07
Linux優化
Linux效能優化實戰（二）
2022-02-17
Linux優化
Tomcat 高併發之道與效能調優
2020-08-17
Tomcat
高併發場景下如何優化伺服器的效能？
2021-01-17
優化伺服器
網站效能優化實戰（二）
2018-09-10
網站優化
webpack效能優化(上)
2019-03-03
Web優化
最新IP資料庫儲存優化查詢效能優化每秒解析上千萬
2018-04-13
資料庫優化
基於XDanmuku的Android效能優化實戰
2019-03-01
Android優化
webpack效能優化(下)
2018-11-26
Web優化
【高併發】高併發環境下如何優化Tomcat效能？看完我懂了！
2020-04-17
優化Tomcat
實戰 PerfDog 優化小遊戲效能
2020-08-25
優化遊戲
App監控和效能優化實戰
2021-11-19
APP優化
【前端效能優化】vue效能優化
2019-04-30
前端優化Vue
Sklearn GridSearchCV 引數優化
2018-03-16
優化
數倉調優實戰：GUC引數調優
2024-04-07
高併發&效能優化（一）------總體介紹
2020-08-24
優化
線上Redis高併發效能調優實踐
2020-09-28
Redis
Linux效能優化實戰課程教學
2018-12-21
Linux優化
前端效能優化（JS/CSS優化，SEO優化）
2018-03-04
前端優化JSCSS
高併發優化方向
2019-12-26
優化
每秒上千訂單場景下的分散式鎖高併發優化實踐！【石杉的架構筆記】
2018-11-23
分散式優化架構筆記
Android效能優化——效能優化的難題總結
2021-08-12
Android優化
TiDB 效能分析&效能調優&優化實踐大全
2022-06-20
TiDB優化
Web 頁面優化專項 > Lighthouse > 效能分數優化
2022-03-11
Web優化
[效能優化]DateFormatter深度優化探索
2018-12-20
優化ORM
前端效能優化 --- 圖片優化
2018-08-29
前端優化
效能優化｜Tomcat 服務優化
2018-09-11
優化Tomcat
Android 效能優化 ---- 啟動優化
2020-07-13
Android優化
Android效能優化----卡頓優化
2020-07-28
Android優化
[java][效能優化]java高階開發必會的50個效能優化
2019-03-20
Java優化
效能優化
2019-02-16
優化
Linux效能優化實戰記憶體篇（五）
2022-03-18
Linux優化記憶體
Spring Boot Serverless 實戰系列 | 效能調優
2022-02-14
Spring BootServer
史上更全的 MySQL 高效能優化實戰總結！
2019-02-22
MySql優化
史上更全的MySQL高效能優化實戰總結！
2019-12-28
MySql優化

【效能優化之道】每秒上萬併發下的Spring Cloud引數優化實戰

一、寫在前面

二、場景引入，問題初現

三、揚湯止沸，飲鴆止渴

四、問題爆發，洪水猛獸

五、追本溯源，治標治本

六、總結全文，回眸再看

相關文章