Linux 基礎教程 36-檢視系統效能

Surpassme發表於2018-08-13

uptime

    uptime命令功能比較簡單,主要功能如下所示:

  • 檢視伺服器的開機時長
  • 檢視CPU負載

基本用法

uptime

用法示例

[root@localhost ~]# uptime
15:33:08 up 10 days,  4:40,  2 users,  load average: 1.56, 1.22, 0.92

輸出內容解釋如下所示:

顯示內容 解釋
15:33:08 系統當前時間
up 10 days, 4:40 主機已執行時間,時間越長,說明機器越穩定
2 users 使用者連線數,是總連線數而不是使用者數
load average: 1.56, 1.22, 0.92 系統平均負載,統計最近1、5、15分鐘的系統平均負載

系統平均負載:指在某一段時間間隔內執行佇列中的平均程式數。根據實際工程經驗來看,單核負載在 0.7 以下是安全的,如超過則需要進行優化了。

除了使用uptime外,我們也可以使用以下方式來獲取系統的平均負載情況。

[root@localhost ~]# cat /proc/loadavg
1.32 1.35 1.15 1/5585 28715
  • 前面3個數字分別表示最近1、5、15分鐘的系統平均負載
  • 1/5585:分母表示系統的總程式數,分子表示正在執行的程式數
  • 28715:最近一個啟動執行程式的ID

free

    free常用來檢視系統的可用記憶體和已使用記憶體等資訊。

基本用法

free [選項]

常用選項如下所示:

選項 解釋
-b 以byte為單位顯示記憶體使用情況
-k 以KB為單位顯示記憶體使用情況
-m 以MB為單位顯示記憶體使用情況
-g 以GB為單位顯示記憶體使用情況
-t 額外顯示記憶體總和
-h 以較短的數字(預設為3位數)進行顯示且增加單位,方便檢視
-s time 持續觀察記憶體使用情況
-c count 常與-s一直使用,用來設定取樣樣本數
-l 詳細顯示高峰和低谷時的記憶體使用統計情況
採用-k/-m/-g/-h顯示的值均採用向下取整的方式顯示,如果需要精確檢視,則建議使用-b

用法示例

1、顯示主機記憶體使用情況

[root@localhost ~]# free -t -m
      total        used        free      shared  buff/cache   available
Mem:  128652       32106       87049     1293      9496       94266
Swap: 4095           0         4095
Total:132748       32106       91145

輸出內解釋如下所示:

total:可用實體記憶體總量
used:已經使用的記憶體數,包含buff/cache
free:可使用的記憶體數,不含buff/cache
share:多個程式共享的記憶體數
buff/cache:buff/cache佔用量
Swap:交換分割槽使用量,虛擬記憶體
Total:實體記憶體總數

vmstat

    vmstat是一個Linux監控工具,全稱為Virtual Memory Statistics。可用於檢視關於程式、記憶體、I/O、等系統整體執行狀態。

基本用法

vmstat [選項] [取樣間隔] [取樣樣本數]

常用選項如下所示:

選項 解釋
-a 顯示活動/非活動的記憶體資訊
-f 顯示自系統啟動以來的系統建立的總任務數
-t 增加時間戳
-m 顯示slabinfo資訊
-n 頭部資訊僅顯示一次
-s 以表格形式顯示記憶體指標及系統事件資訊等
-d 顯示各磁碟的統計資訊
-p 顯示特定分割槽的詳細統計資訊
delay 設定兩次更新之間的時間間隔,如果不指定,則預設顯示從開機到現在的平均值
count 指定取樣的樣本數,如delay指定而count不指定則一直持續監控和輸出

用法示例

1、常用用法

vmstat delay count
- delay:取樣時間間隔
- count:取樣的樣本數

01vmstat詳細解釋.jpg

2、檢視伺服器建立了多少個任務數

[root@localhost ~]# vmstat -f
     51221915 forks

3、顯示特定分割槽的統計資訊:

[root@localhost ~]# vmstat -p /dev/sdb1
sdb1          reads   read sectors  writes    requested writes
               754      35990         81      22102

結果分析

    對於vmstat出來的統計結果,如何判定是否存在問題了?不同的伺服器、作業系統、應用場景等均不一樣,也無法給出統一的判斷標準,需要大家根據實際情況進行綜合判斷。以下是一些實際應用中的經驗,僅供參考:

  • 1、如果cache的值比較大,則說明系統快取了比較多的磁碟資料,有利於磁碟I/O效能的提升,此時,bi會相對較小,因為很多讀寫磁碟的操作都由cache來承擔了。
  • 2、si和so則代表讀寫SWAP的數量,這兩個值如果長期大於0,則表示系統需要經常讀寫交換分割槽,這樣會消耗CPU資源和磁碟I/O效能。如能確定實體記憶體存在瓶頸,則需要進行擴容或遷移了。
  • 3、如free的值很低,基於接近於0,也不一定就是系統記憶體已經耗盡,還需要結合buffer和cache的使用量,如果buffer和cache佔用了很多記憶體資源,則代表沒有問題,說明系統把空閒的記憶體都用於快取,反而是提升了I/O效能,當系統需要記憶體時,buffer和cache可以隨時被回收回來。
  • 4、如果bi和bo值很大,則說明系統正在進行大量的磁碟讀寫操作。如果是使用者正在進行的操作,則沒有問題,否則需要進行排查哪個裝置或分割槽在進行大量讀寫操作。
  • 5、如果us的值經常大於50%,則說明使用者程式佔用的CPU時間比較多,需要對佔用較多的程式進行排查和優化了。
  • 6、如果sy值比較高,需要排查系統是否存在問題。
  • 7、如果wa值比較高,則說明CPU總是在等待I/O操作,說明磁碟已經成為瓶頸,需要排查磁碟是否存在問題或優化程式的讀寫操作
  • 8、如果r值總是超過CPU核數,則說明CPU可能成為瓶頸,可考核升級CPU等

mpstat

    mpstat全稱Multiprocessor statistics,也是一個監控工具,主要物件是CPU。

基本用法

mpstat [選項] [取樣間隔] [取樣樣本數]

常用選項如下所示:

選項 解釋
-I 顯示中斷統計資訊
-P 顯示指定CPU編號的統計資訊,0為第一個CPU
-u 顯示CPU的使用情況
-A 等同於-u -I ALL -P ALL
與-I一起使用的引數如下所示
- SUM:顯示所有CPU中斷次數之和
- CPU:顯示每個CPU中斷次數
- ALL:將SUM和CPU的內容一起顯示

與-P一起使用的引數如下所示
- ON:僅統計線上的CPU使用情況
- ALL:統計所有CPU的使用情況

CPU常用指標

    該指標一般是使用選項-u出來的統計結果,如下所示:

指標 解釋
CPU CPU編號
%usr 使用者程式所使用的CPU佔比
%nice 對程式進行降級時的CPU佔比
%sys 核心進行使用的CPU佔比
%iowait 空閒態中等待I/O請求所使用的CPU佔比
%irq 處理系統中斷所使用的CPU佔比
%soft 軟體中斷所使用的CPU佔比
%steal 虛擬管理程式所使用的CPU佔比
%guest 執行虛擬處理器所使用的CPU佔比
%gnice 執行降級虛擬程式所使用的CPU佔比
%idle CPU空閒態的CPU佔比

用法示例

1、檢視所有CPU執行狀態
02mpstat示例1.jpg

2、檢視指定CPU編號的執行狀態
03mpstat示例2.jpg

3、檢視CPU中斷情況

    因為CPU的運算速度比外部硬體要快很多。以硬碟為例,如果是簡單的順序執行,則CPU需要等待很長
時間,不停詢問硬碟是否讀取完成,而這樣會浪費很多CPU時間。為此人們提出一種中斷機制,使得讀取硬
盤這樣的操作交給其他裝置來完成,而CPU則掛起當前程式,將控制權轉讓給其他來處理的程式,當其他設
備處理完成後通知CPU,系統將當前程式標識為活動進行,從而繼續執行,處理硬碟的讀取操作。

04mpstat示例3.jpg

top

    top是Linux中一個常用的效能監控工具並能週期性地進行更新,我們因此也可以快速瞭解伺服器的執行狀態。

基本用法

top [選項]

常用的選項如下所示:

選項 解釋
-b 以批處理模式進行操作
-c 顯示完整的命令資訊
-d 更新時間間隔
-n number 指定迴圈顯示的次數
-u number/name 顯示指定使用者ID/使用者名稱的程式
-p pid
-s 安全模式
-S 累積模式

互動模式

    交換械是指在top顯示相關資訊時,在不影響顯示資訊的同時進行的其他操作等,詳細如下所示:

快捷鍵 說明
f 新增或刪除程式資訊項
k 終止程式,需要輸入PID號
r 更改程式優先順序
S 切換到累積模式
s或d 更改重新整理時間
m 切換顯示記憶體資訊
t 切換顯示程式和CPU狀態資訊
c 切換顯示命令名稱和完整命令列
P 根據CPU使用率大小進行排序
T 根據時間/累計時間進行排序
W 將當前設定儲存到~/.toprc檔案中
q 退出top程式
b 將當前程式進行高亮顯示
l 是否顯示系統負載資訊和啟動時間
1(數字1) 顯示每個CPU核心單獨的效能資料

用法示例

1、第一個示例:
05top示例1.jpg

示例詳解

  • 系統級資訊
    05top示例詳細講解-1.jpg

  • 程式指標資訊

指標 說明 參考值
PID 程式ID
PRID 父程式ID
USER 程式所屬使用者,啟用程式的使用者名稱
PR Priority縮寫,程式優先順序
NI Nice縮寫,用於調節優先順序,與PR有關,越小越早被執行 -20~20 正數優先順序降低,負數優先順序提升
VIRT 程式虛擬記憶體使用量
RES 程式使用且未被交換出的實體記憶體使用量
SHR 共享記憶體使用量
S 程式狀態 R:執行 S:睡眠 D:不可中斷的睡眠狀態 T:跟蹤、停止 殭屍
%CPU CPU使用率
%MEM 記憶體使用率
TIME+ 程式的CPU使用時間累積和 單位為1/100秒
TIME 程式佔用的CPU時間累積和 單位為秒
RUSER 程式的實際使用者名稱,即登入到Shell所用使用者名稱
UID 程式所屬使用者的ID
GROUP 程式所屬的組名
TTY 啟動程式的終端名稱
P 程式最近一次所使用的CPU編號
SWAP 程式使用且被交換出來的虛擬記憶體使用量
CODE 程式對應的可執行程式碼所佔用的實體記憶體量
DATA 程式對應的資料部分(資料段、棧等)所佔用的實體記憶體量
nFLT 頁面錯誤次數
nDRT 最後一次寫入到目前為止被修改過的頁面數
WCHAN 如果程式處理睡眠狀態,則顯示睡眠狀態中系統呼叫名
Flags 程式標誌
COMMAND 程式所對應的命令名

iostat

    iostat命令主要用來CPU的統計資訊和每個裝置、硬碟的IO統計資訊

基本用法

iostat [選項] [取樣間隔] [取樣樣本數]

常用的選項如下所示:

選項 解釋
-c 僅顯示CPU的統計資訊,即單獨輸出CPU的平均統計資訊
-d 僅顯示裝置的統計資訊
-h 將各裝置的統計資訊以易於檢視的方式進行顯示
-k 以kb/s顯示統計資訊
-m 以mb/s顯示統計資訊
-t 增加顯示時間戳
-x 顯示額外資訊
-y 忽略自系統啟動以來的第一行資訊

用法示例

1、iostat示例
06iostat示例1.jpg

2、檢視硬碟的IO資訊
06iostat示例2.jpg

各指標詳細解釋如下所示:

指標 說明
tps 每秒程式的I/O讀寫請求總數
MB_read/s 每秒讀取的位元組數,單位為MB/s
MB_wrtn/s 每秒寫入的位元組數,單位為MB/s
MB_read 讀取的位元組總數 ,單位為MB
MB_wrtn 寫入的位元組總數 ,單位為MB
看到第一組第一行的數字非常大,是否就可以斷定I/O存在問題了? 在iostat輸出的第一組第一行資料,
表示是自Linux系統啟動剛才本命令執行這段期間的統計結果,而後面的幾組資料才真正表示了在iostat
取樣週期的統計結果,而如果要排除第一組的資料可以使用選項 -y

3、顯示額外的統計資訊
06iostat示例3.jpg

各指標詳細解釋如下所示:

指標 說明
rrqm/s 每秒對該裝置的讀取請求總次數
wrqm/s 每秒對該裝置的寫入請求總次數
r/s 每秒完成讀取的I/O次數
w/s 每秒完成寫入的I/O次數
rMB/s 每秒實際讀取的大小,單位為MB
wMB/s 每秒實際寫入的大小,單位為MB
avgrq-sz 平均每次I/O操作的資料大小
avgqu-sz 平均等待處理I/O操作的佇列長度
await 平均每次I/O請求等待時間(含等待時間和處理時間),一般應低於5ms
r_await 每次讀取I/O請求等待時間
w_await 每次寫入I/O請求等待時間
svctm 平均每次I/O操作的服務時間
%util 週期內用於I/O操作的時間比率,即I/O佇列非空的時間比率,即(r/s+w/s )*(svctm/1000)

需要關注的引數如下所示:

  • %util:表示磁碟的忙碌情況,較大則代表I/O請求太多,硬碟可能存在瓶頸,一般不超過80%
  • await大於svctm:差值越小,則說明佇列時間越短,反之差值越大,則佇列時間越長,系統可能存在問題
  • svctm接近await,則說明I/O幾乎沒有等待時間
  • await遠大於svctm,則說明I/O佇列太長,則響應時間會變長

4、顯示CPU統計資訊
06iostat示例4.jpg

各指標詳細解釋如下所示:

指標 說明
%user 顯示CPU在使用者級(應用程式)執行時的時間佔比
%nice 顯示CPU在使用者級(應用程式)使用NICE許可權執行時的時間佔比
%system 顯示CPU在系統級(核心)執行時的時間佔比
%iowait 顯示CPU在空閒狀態期間未完成的磁碟I/O時間佔比
%steal 顯示hypervisor服務另一個虛擬處理器時,虛擬CPU等待實際CPU的時間佔比
%idle 顯示CPU在空閒狀態期間系統未完成的磁碟I/O時間佔比
  • 如果steal值比較高的話,需要擴容虛擬機器,這是因為伺服器上的另一個虛擬機器可能擁有更大更多的CPU時間片而佔用了你的虛擬機器的CPU時間
  • 如果iowait值比較高,則可能硬碟存在I/O瓶頸
  • 如果idle值比較高,則表示CPU長期處於空閒狀態
  • 如果idle值比較高但系統響應慢時,則有可能是CPU在等待記憶體分配,可考慮擴容記憶體容量
  • 如果idle值如果長期低於10%,則CPU處理能力是瓶頸

本文同步在微信訂閱號上釋出,如各位小夥伴們喜歡我的文章,也可以關注我的微信訂閱號:woaitest,或掃描下面的二維碼新增關注:
MyQRCode.jpg

相關文章