(譯)理解Linux系統的CPU負載均值

JeromeLiee發表於2019-02-21

譯自Understanding Linux CPU Load - when should you be worried?

你可能已經很早就熟悉Linux負載均值這個概念了,通過uptime或者top命令就可以得到三個數字,具體如下所示:

load average: 0.09, 0.05, 0.01

絕大多數人對負載均值只是有個粗淺的認識:即這三個數字分別代表系統最後1分鐘、最後10分鐘以及最後15分鐘的平均負載值,並且這些數字越小越好,如果比較大則表示系統裝置有可能負荷超載等問題。

但是你有沒有想過,這些數字有沒有邊界?代表“好”或者“壞”的邊界值又是多少?你什麼時候應該關注這些數值?你應該什麼時候去儘快處理使其降下來?

在討論這些問題之前,先了解一些負載均值相關的背景知識。我們用一臺配置了單核處理器的裝置,舉個簡單例子解釋說明下。

道路千萬條,安全第一條。行車不規範,親人兩行淚。

單核CPU就像一條車道的交通情況。假設你是一座大橋的操作員,有時橋上太忙了,有很多車等著過橋。你想讓人們知道橋上的交通狀況。那麼一個合適的度量標準,就是在特定時間有多少輛車在等待。如果沒有車在等,新來的司機知道他們可以馬上開過去。如果橋上堵車,那麼司機就知道他們會遇到延誤。

因此,這些數值用於如下用途:

  • 0.00表示橋上一輛車都沒有。也就是說,如果數值介於0.00~1.00之間,則表示沒有堵車,所有的車輛都可以流暢通過。

    負載為0.00
    負載為0.00

  • 0.50表示橋上的車輛只有一半。可以看到車輛間距較大,不會擁擠。

    負載為0.50
    負載為0.50

  • 1.00表示橋上的車輛達到最大值。一切剛剛好,但如果橋上再來一輛車,那麼就出現堵車的情況了。

    負載為1.00
    負載為1.00

  • 大於1.00表示堵車了。負載數值和堵車嚴重程度有什麼關係呢?舉例說明,2.00表示等待過橋的車輛和橋上滿負載的車輛一樣多,3.00表示等待的車輛是橋上滿負載的車輛的2倍,以此類推。

    負載為1.70
    負載為1.70

這基本上就是CPU負載的解釋。“汽車”就是使用CPU時間片(即“過橋”)或排隊使用CPU(等待“過橋”)的程式,Unix將其稱為執行佇列長度,即當前執行的程式數加上等待(排隊)執行的程式數之和。

就像作為一個大橋的管理者,你肯定不願意車輛/程式一直處於等待狀態,所以應該讓你的CPU負載低於1.00。如果偶爾超過1.00不用擔心,但如果一直大於1.00,那麼就需要考慮哪裡出了問題了。

所以說最理想的負載是1.00嗎?

其實並不是這樣的。當負載達到1.00時表示已經觸及天花板了,所以一般來說會有一條邊界線,即0.70。

  • 經驗法則之“需要關注”——0.70:如果你的CPU負載均值一直處於>0.70的狀態,那麼在事情變得更糟之前,需要調查一下原因所在。

  • 經驗法則之“立刻修復”——1.00:如果你的CPU負載均值一直處於>1.00的狀態,那麼趕緊查原因修復它吧!

  • 經驗法則之“緊急狀況”——5.00:如果你的CPU負載均值超過了5.00,你恐怕是遇到大麻煩了!你的系統裝置可能卡頓或者特別慢,隨時會出現意外情況。

多處理器下,負載為3.00,但執行結果一切正常!

是4個處理器的系統嗎?如果是,那就沒事兒。

在多處理器系統上,負載與可用處理器核心的數量有關。“100%利用率”在單核系統上負載為1.00,在雙核系統上為2.00,在四核系統上為4.00等等。

回到剛才大橋的例子上,1.00表示一條車道上的車輛。在單行道上的大橋上,1.00表示剛好滿載;在兩條車道的大橋上,1.00表示只有50%的負載——即一條車道滿載,而另一條車道是空的。

同樣地在CPU上:負載為1.00表示在單核系統上是100%利用率,負載為2.00表示在雙核系統上是100%利用率。

多核處理器VS多處理器

現在,我們討論下多核以及多處理器的話題。從效能的角度來看,一臺只有一個雙核處理器的機器基本上等同於一臺只有兩個單核處理器的機器。這裡有許多關於快取數量、處理器之間的程式切換頻率等的細微之處。儘管有這些細微之處,但是為了評估CPU負載值,無論這些核心分佈在多少物理處理器上,核心的總數量都很重要。

這就引出了兩條新的經驗法則:

  • 核心總數=最大負載:在一個多核系統裡,負載不應該超過可用的核心數之和。

  • 核心就是核心:核心如何分佈在CPU上並不重要,2個四核== 4個雙核== 8個單核,這些都是8個核心。

迴歸正傳

輸入uptime命令,得到如下的負載均值:

~ $ uptime 23:05 up 14 days, 6:08, 7 users, load averages: 0.65 0.42 0.36

這是一個雙核處理器,所以還有很大的餘量空間,不需要為它擔心,除非負載長期處於1.7或更大。

那麼這三個數字怎麼處理呢?0.65是最後1分鐘的平均值,0.42是最後5分鐘的平均值,0.36是最後15分鐘的平均值。這就引出了一個問題:

這三個數值,我應該關注哪個?1分鐘,5分鐘,還是15分鐘?

關於這些數值的含義我們已經討論過(1.00表示需要馬上修復等等),你最應該關注的是5分鐘或15分鐘的平均值。坦率地說,如果你的機器在一分鐘內的平均峰值超過1.0,仍然是可以正常工作的。當15分鐘的平均值超過1.0時,你需要迅速去調整直至正常範圍內(當然具體數值要看你的系統核心數量)。

核心的數量對於解釋平均負載非常重要,那麼我如何得知系統有多少核心?

通過cat /proc/cpuinfo命令獲取每個處理器的詳細資訊,grep 'model name' /proc/cpuinfo | wc -l命令則獲取所有的核心數量。

相關文章