C# 多執行緒猜想

連程發表於2020-05-10

公司分配給我一個活,讓我給Kong閘道器做一個獲取設定的站點。Kong閘道器號稱幾萬的QPS的神器,我有點慌,如果因為我的站點拖累了Kong我就是千古罪人。

配合Kong的站點必須要經過效能測試,在效能測試的時候就發現個很有意思的現象,如果我用25條執行緒壓我的站點,那麼結果是這樣的。

 

 如果我用50條執行緒去壓站點,結果是這樣的

 

 現象就是,我提高了併發數量,我的QPS其實並沒有什麼變化,但是我的單次平均響應時間缺提高了一倍。其實這種現象還是比較好解釋的。首先,我們來了解一下,IIS的大概處理邏輯。

 

其實IIS維護了這麼幾個東西,首先一個是佇列,用來提高伺服器的同時處理請求數用的。這麼說吧,假設我現在程式很原始很簡陋,我一次只能處理一條請求,那麼,我在處理一條請求的過程中,第二條請求過來了,那麼這個時候我顯然不應該告訴他,我現在正忙,沒空搭理他,而應該是告訴他,你先等會,我馬上來處理你。讓他等會,其實就是相當於把他放到佇列裡邊,一會再來處理。

另外一個概念叫做,同時處理數。剛才我的假設是我一次只能處理一條資料。但是我存在多個核,就算是一核在一個時間點上只能處理一條資料,那麼,現在我機器是4核的,那麼我最起碼也應該能處理4條資料,假設現在一次性來了4條資料,那麼這4條資料基本上可以認為是同時在處理的,但是如果同時來了8條資料,那麼就是4條在處理,4條在等待。

現在來解釋一下,為什麼會出現50併發比25併發,提升了等待時間,但是QPS並沒有提高。我想可以這麼解釋,其實QPS在25併發的時候已經接近於極限了,這個極限應該怎麼算呢,大概就應該是1秒 * 同時處理數 / 每個請求的真實處理時間。可以看出來這個極限其實跟客戶端的併發數沒有什麼直接聯絡。那麼50併發的時候,為什麼等待的時間反而變長了呢?那是因為,客戶端併發數大於伺服器同時處理數的時候,有一部分固定數量的請求在請求佇列裡,他必須等待已經進入處理邏輯的部分處理完,然後再處理自己,所以就造成了QPS並沒有提升但是響應時間變長的現象發生。

因為是這樣的多倍疊加的模式,所以,有時候,你會發現,你的介面,如果只是幾毫秒響應的話,大家都很快。但是一旦你慢下來,響應時間是成指數級的增長。原因也很簡單,主要有以下幾個。

  • 等待的佇列邊長了(因為前邊處理的很慢,所以等的人越來越多)
  • 等待的單次邊長了(但是變長的人不止是你自己呀,還有你等待的其他人)

這幾個情況一綜合那可不是乘法運算嘛,那可不就是指數級增加嘛。

 

提問,那麼究竟多少併發,才是最理想的狀態呢?

之前考慮這個問題的時候,可能理所當然的認為,這個東西嘛,應該是跟CPU核數有關係,應該跟核數一樣多就是最優解了吧。但是現實經常啪啪打臉。經過實測,一般是要比CPU核數多少不少才是CPU不累,處理效率很高的狀態。那麼為什麼會出現這種情況呢?我覺得這個問題有點大,我們需要拆開來看。

 

1、一個核心真的是一條執行緒執行的最快嗎?

這個問題嘛,其實也對,也不對。說他對視因為,其實如果存在多條執行緒,那麼多條執行緒之間切換的時候,其實也挺消耗資源的。但是多執行緒的意義是什麼呢?我覺得這個問題也可以拆成兩個問題。在拆問題之前先給介紹兩個概念。計算密集型、IO密集型,計算密集型就是你在做運算,加減乘除也好,比對也要,加密解密也好,這種主要依賴於CPU叫計算密集型執行緒。如果你的執行緒大部分時間都消耗在了讀取網路資料,讀取本地資料,或者驅動硬體等待返回這種情況叫做IO密集型。

1.1 一個核心真的是一個計算密集型最快嗎?

是的。因為執行緒本身也是需要消耗資源的,頻繁的切換其實對於計算密集型執行緒沒有任何好處,因為計算量並沒有變少反而變多了。

1.2 一個核心真的是一個IO密集型執行緒最快嗎?

不對。多個IO密集型執行緒肯定比一個IO密集型執行緒要快,因為大部分時間,其實跟CPU沒有關係,CPU大部分時間都是在等而已。所以讓CPU一次性處理多個,反而更加佔有優勢。

 

2、為什麼不是併發量跟同時處理數相等時是最優解。

真實的業務場景,一條執行緒並不是純粹的IO或者計算,更多的時候是處於兩者都有的情況。那麼對於這種執行緒的話。反正不是一核一個最快,因為它畢竟是存在IO的情況。他們肯定要多處理幾個才划算。

這樣伺服器等待客戶端請求的時間就太長了,如果併發數量跟處理數量相等的話,那麼對於一個併發來說,就相當於客戶端發起請求、傳送網路資料、伺服器處理、傳送網路資料、客戶端接收網路資料,然後進行下一輪處理。這樣的話就相當於客戶端與伺服器端處於同一個執行緒,單執行緒工作,並且中間存在了大量的等待的時間,所以伺服器的QPS並不會上來。

 

最理想的狀態應該是,以下的狀態

  • 等待佇列中始終存在資料(不會讓處理執行緒等待客戶端請求)
  • 客戶端的請求進入等待佇列後立馬被處理(不會因為別的請求而造成響應時間過長,而引發下一步的等待佇列過長)

根據上邊總結的多執行緒的相關結論,一般一個核心肯定要處理多個執行緒,並且等待佇列中存在並且存在不了多少資料。

那麼最佳併發的結論應該是,核心數 * N(單核心同時處理執行緒數) + M(等待佇列中存在的少數請求)。

 

題外話:為什麼Golang號稱利用協成能夠更好的利用CPU 達到更高的運算效率呢?

我猜應該是將IO型執行緒中的多執行緒切換部分效能節省下來,用作於更多的CPU計算來提高了整體效能。

 

相關文章