雲端計算之路-阿里雲上：排查“黑色30秒”問題-為什麼請求會排隊

部落格園團隊發表於2014-04-23

阿里

針對Web伺服器“黑色30秒”問題（詳見雲端計算之路-阿里雲上：Web伺服器遭遇奇怪的“黑色30秒”問題），經過分析，我們準備從這個地方下手——為什麼會出現\ASP.NET\Request Queued大於0的情況（為什麼請求會排隊）？

首先，通過Windows效能監視器去觀察，看能不能找到這樣的線索——在什麼條件下會觸發請求排隊？

我們在效能監視器中增加了1個監視指標——\HTTP Service Request Queues\Arrival Rate

Arrival Rate: Rate at which requests are arriving in the queue

這是一個針對IIS的底層HTTP.SYS的監視指標，從我們的理解，認為它最直接地反映了到達IIS的當前要處理的併發請求。

啟用這個Arrival Rate監視指標後，我們觀察到了1次請求排隊的情況（非“黑色30秒”故障場景）。

上圖中跳起的藍色就表現出現了請求排隊。

我們來逐個指標看一下。

1. HTTP Service Request Queues\Arrival Rate（到達IIS底層的請求）

當時HTTP.SYS收到了465個併發請求。

2. Qequests/Sec(QPS，ASP.NET每秒處理的請求數)

當時ASP.NET的QPS是607。

3. Requests Queued（排隊的請求數）

【注意】出現請求排隊的時間點是11:03:54，而前2個指標高上去的時間點在11:03:55。

【重要線索】由此，我們可以得出這樣的線索：是先出現請求排隊（Requests Queued），然後才出現Arrival Rate與QPS上升。是請求排隊引起Arrival Rate與QPS上升，而不是Arrival Rate與QPS上升引起請求排隊。

接下來通過其他指標驗證這個想法。

4. Current Connections

IIS當前連線數高上去也在出現請求排隊之後。（成功驗證1）

5. CPU

CPU佔用也是在出現請求排隊之後才高上去的。（成功驗證2）

【分析結論】請求排隊才是問題的原因，而其他表現只是請求排隊後的結果表現。

那在11:03:54，請求排隊時，其他指標又是什麼情況呢？

1. ArrivalRate只有218

2. QPS只有151

3. Current Connections在15以下（具體數值在效能監視器上顯示不出來）

4. CPU佔用只有10%

太奇怪了！在請求排隊時，其他指標都處於低點——比正常情況更低的點。

更奇怪的是到達IIS的請求比平時變少了，請求反而排隊了。

【猜想】

從這個監視到的表現看，我們唯一能解釋得通的是：11:03:54，Web伺服器似乎在打瞌睡，處理能力全面下降；然後，11:03:55，Web伺服器醒了過來，處理能力全面恢復，這時不僅要處理當前的請求，還要處理之前排隊的請求，一下子負載就高了上去。

難道誰給Web伺服器下了藥？如果用的是物理機，我們真的會懷疑是誰下的藥？但現在用的是虛擬機器，在“被下藥”與“虛擬機器問題”之間，哪個更值得懷疑呢？。。。這個問題只能留給阿里雲的同學，我們再怎麼懷疑，也只能懷疑而已，無法在虛擬機器層面進行驗證。

【進一步的線索】

在寫這篇部落格的期間，1臺伺服器正好發生了“黑色30秒”，看看效能監視器中的相關表現：

1. Arrival Rate與Requests Queued

2. 加上Current Connections

3. 加上CPU

4. 加上Request Execution Time

而且這次接連來了2個“黑色30秒”。

【小結】

虛擬的世界很精彩，虛擬的世界也很無奈。從應用、從Windows的角度，我們真的不知從何處理下手，我們能做的只是找問題的線索。問題的解決可能真的需要阿里雲同學們的努力！

雲端計算為什麼會不被信任
2019-02-01
【雲端計算小知識】什麼是雲端計算？雲端計算特點是什麼？
2021-12-03
什麼是雲端計算雲端計算能幹什麼？雲端計算學習筆記工具素材
2019-12-05
筆記
雲端計算為什麼這麼火？學習雲端計算費用是多少？
2020-02-05
什麼叫雲端計算？雲端計算通俗解釋
2018-07-09
雲端計算技術是什麼？雲端計算有什麼優勢？
2020-09-04
什麼是雲端計算？
2024-07-29
雲端計算和Linux什麼關係？linux雲端計算
2020-01-07
Linux
雲端計算開發教程，雲端計算能幹什麼？
2019-06-17
什麼叫做雲端計算？學習雲端計算先要理解
2019-05-06
企業為什麼要用雲端計算？企業購買雲端計算時需要注意什麼？
2019-11-12
為什麼分散式雲是雲端計算的未來？
2021-05-19
分散式
為什麼邊緣計算將終止雲端計算？
2020-12-03
Unirech-為什麼選擇阿里雲國際版雲端計算技術服務？
2022-06-13
阿里
雲端計算40個問題
2019-03-22
雲端計算素材、課件：雲端計算可以做什麼用？
2019-11-30
什麼是雲端計算？雲端計算學習方向有哪些？
2020-02-10
AI之旅-開篇：從雲端計算之路到AI之旅，從搬上阿里雲到留在阿里雲
2024-10-27
AI阿里
學習雲端計算有什麼用？企業怎麼才能“上雲”？
2020-02-09
雲端計算是什麼？雲端計算的發展趨勢是什麼？
2019-09-17
什麼是Linux雲端計算?學習雲端計算可以用來做什麼?
2021-09-24
Linux
雲端計算需要學什麼?學習雲端計算能從事什麼崗位？
2020-02-07
雲端計算管理的功能是什麼？Linux雲端計算學習
2020-10-23
Linux
什麼叫做雲端計算？雲端計算基礎學習路線
2019-06-17
阿里雲做雲端計算那麼艱難，為什麼後面其他公司很簡單就有了
2020-10-01
阿里
5分鐘告訴你雲端計算的前景，為什麼要學習雲端計算
2020-03-11
學習雲端計算怎麼樣？雲服務和雲端計算有什麼區別？
2019-11-05
阿里雲函式計算域名配置問題
2024-04-04
阿里函式
雲端計算就業前景如何？雲端計算是什麼意思？
2018-07-02
就業
又一創新！阿里雲 Serverless 排程論文被雲端計算頂會 ACM SoCC 收錄
2022-11-25
阿里ServerACM
雲端計算應該學些什麼？Linux雲端計算要學多久
2019-12-11
Linux
什麼是雲端計算?雲端計算適合哪些人學習?
2020-09-17
雲端計算教程開發知識，學雲端計算有什麼用？
2019-06-20
雲端計算對生活有什麼影響？學習linux雲端計算
2020-12-14
Linux
雲端計算開發是什麼？雲端計算的就業前途怎麼樣？
2019-07-09
就業
為什麼說雲端計算運維是新“貴”？
2018-12-26
運維
短期怎麼學會雲端計算？新手學習雲端計算的規劃
2019-05-05
雲端計算有什麼用？雲端計算的應用領域有多大？
2020-02-06
最通俗的解釋下雲端計算，雲端計算的核心是什麼？
2019-04-04

雲端計算之路-阿里雲上：排查“黑色30秒”問題-為什麼請求會排隊

相關文章