uptime
uptime命令功能比較簡單,主要功能如下所示:
- 檢視伺服器的開機時長
- 檢視CPU負載
基本用法
uptime
用法示例
[root@localhost ~]# uptime
15:33:08 up 10 days, 4:40, 2 users, load average: 1.56, 1.22, 0.92
輸出內容解釋如下所示:
顯示內容 | 解釋 |
---|---|
15:33:08 | 系統當前時間 |
up 10 days, 4:40 | 主機已執行時間,時間越長,說明機器越穩定 |
2 users | 使用者連線數,是總連線數而不是使用者數 |
load average: 1.56, 1.22, 0.92 | 系統平均負載,統計最近1、5、15分鐘的系統平均負載 |
系統平均負載:指在某一段時間間隔內執行佇列中的平均程式數。根據實際工程經驗來看,單核負載在 0.7 以下是安全的,如超過則需要進行優化了。
除了使用uptime外,我們也可以使用以下方式來獲取系統的平均負載情況。
[root@localhost ~]# cat /proc/loadavg
1.32 1.35 1.15 1/5585 28715
- 前面3個數字分別表示最近1、5、15分鐘的系統平均負載
- 1/5585:分母表示系統的總程式數,分子表示正在執行的程式數
- 28715:最近一個啟動執行程式的ID
free
free常用來檢視系統的可用記憶體和已使用記憶體等資訊。
基本用法
free [選項]
常用選項如下所示:
選項 | 解釋 |
---|---|
-b | 以byte為單位顯示記憶體使用情況 |
-k | 以KB為單位顯示記憶體使用情況 |
-m | 以MB為單位顯示記憶體使用情況 |
-g | 以GB為單位顯示記憶體使用情況 |
-t | 額外顯示記憶體總和 |
-h | 以較短的數字(預設為3位數)進行顯示且增加單位,方便檢視 |
-s time | 持續觀察記憶體使用情況 |
-c count | 常與-s一直使用,用來設定取樣樣本數 |
-l | 詳細顯示高峰和低谷時的記憶體使用統計情況 |
採用-k/-m/-g/-h顯示的值均採用向下取整的方式顯示,如果需要精確檢視,則建議使用-b
用法示例
1、顯示主機記憶體使用情況
[root@localhost ~]# free -t -m
total used free shared buff/cache available
Mem: 128652 32106 87049 1293 9496 94266
Swap: 4095 0 4095
Total:132748 32106 91145
輸出內解釋如下所示:
total:可用實體記憶體總量
used:已經使用的記憶體數,包含buff/cache
free:可使用的記憶體數,不含buff/cache
share:多個程式共享的記憶體數
buff/cache:buff/cache佔用量
Swap:交換分割槽使用量,虛擬記憶體
Total:實體記憶體總數
vmstat
vmstat是一個Linux監控工具,全稱為Virtual Memory Statistics。可用於檢視關於程式、記憶體、I/O、等系統整體執行狀態。
基本用法
vmstat [選項] [取樣間隔] [取樣樣本數]
常用選項如下所示:
選項 | 解釋 |
---|---|
-a | 顯示活動/非活動的記憶體資訊 |
-f | 顯示自系統啟動以來的系統建立的總任務數 |
-t | 增加時間戳 |
-m | 顯示slabinfo資訊 |
-n | 頭部資訊僅顯示一次 |
-s | 以表格形式顯示記憶體指標及系統事件資訊等 |
-d | 顯示各磁碟的統計資訊 |
-p | 顯示特定分割槽的詳細統計資訊 |
delay | 設定兩次更新之間的時間間隔,如果不指定,則預設顯示從開機到現在的平均值 |
count | 指定取樣的樣本數,如delay指定而count不指定則一直持續監控和輸出 |
用法示例
1、常用用法
vmstat delay count
- delay:取樣時間間隔
- count:取樣的樣本數
2、檢視伺服器建立了多少個任務數
[root@localhost ~]# vmstat -f
51221915 forks
3、顯示特定分割槽的統計資訊:
[root@localhost ~]# vmstat -p /dev/sdb1
sdb1 reads read sectors writes requested writes
754 35990 81 22102
結果分析
對於vmstat出來的統計結果,如何判定是否存在問題了?不同的伺服器、作業系統、應用場景等均不一樣,也無法給出統一的判斷標準,需要大家根據實際情況進行綜合判斷。以下是一些實際應用中的經驗,僅供參考:
- 1、如果cache的值比較大,則說明系統快取了比較多的磁碟資料,有利於磁碟I/O效能的提升,此時,bi會相對較小,因為很多讀寫磁碟的操作都由cache來承擔了。
- 2、si和so則代表讀寫SWAP的數量,這兩個值如果長期大於0,則表示系統需要經常讀寫交換分割槽,這樣會消耗CPU資源和磁碟I/O效能。如能確定實體記憶體存在瓶頸,則需要進行擴容或遷移了。
- 3、如free的值很低,基於接近於0,也不一定就是系統記憶體已經耗盡,還需要結合buffer和cache的使用量,如果buffer和cache佔用了很多記憶體資源,則代表沒有問題,說明系統把空閒的記憶體都用於快取,反而是提升了I/O效能,當系統需要記憶體時,buffer和cache可以隨時被回收回來。
- 4、如果bi和bo值很大,則說明系統正在進行大量的磁碟讀寫操作。如果是使用者正在進行的操作,則沒有問題,否則需要進行排查哪個裝置或分割槽在進行大量讀寫操作。
- 5、如果us的值經常大於50%,則說明使用者程式佔用的CPU時間比較多,需要對佔用較多的程式進行排查和優化了。
- 6、如果sy值比較高,需要排查系統是否存在問題。
- 7、如果wa值比較高,則說明CPU總是在等待I/O操作,說明磁碟已經成為瓶頸,需要排查磁碟是否存在問題或優化程式的讀寫操作
- 8、如果r值總是超過CPU核數,則說明CPU可能成為瓶頸,可考核升級CPU等
mpstat
mpstat全稱Multiprocessor statistics,也是一個監控工具,主要物件是CPU。
基本用法
mpstat [選項] [取樣間隔] [取樣樣本數]
常用選項如下所示:
選項 | 解釋 |
---|---|
-I | 顯示中斷統計資訊 |
-P | 顯示指定CPU編號的統計資訊,0為第一個CPU |
-u | 顯示CPU的使用情況 |
-A | 等同於-u -I ALL -P ALL |
與-I一起使用的引數如下所示
- SUM:顯示所有CPU中斷次數之和
- CPU:顯示每個CPU中斷次數
- ALL:將SUM和CPU的內容一起顯示
與-P一起使用的引數如下所示
- ON:僅統計線上的CPU使用情況
- ALL:統計所有CPU的使用情況
CPU常用指標
該指標一般是使用選項-u出來的統計結果,如下所示:
指標 | 解釋 |
---|---|
CPU | CPU編號 |
%usr | 使用者程式所使用的CPU佔比 |
%nice | 對程式進行降級時的CPU佔比 |
%sys | 核心進行使用的CPU佔比 |
%iowait | 空閒態中等待I/O請求所使用的CPU佔比 |
%irq | 處理系統中斷所使用的CPU佔比 |
%soft | 軟體中斷所使用的CPU佔比 |
%steal | 虛擬管理程式所使用的CPU佔比 |
%guest | 執行虛擬處理器所使用的CPU佔比 |
%gnice | 執行降級虛擬程式所使用的CPU佔比 |
%idle | CPU空閒態的CPU佔比 |
用法示例
1、檢視所有CPU執行狀態
2、檢視指定CPU編號的執行狀態
3、檢視CPU中斷情況
因為CPU的運算速度比外部硬體要快很多。以硬碟為例,如果是簡單的順序執行,則CPU需要等待很長
時間,不停詢問硬碟是否讀取完成,而這樣會浪費很多CPU時間。為此人們提出一種中斷機制,使得讀取硬
盤這樣的操作交給其他裝置來完成,而CPU則掛起當前程式,將控制權轉讓給其他來處理的程式,當其他設
備處理完成後通知CPU,系統將當前程式標識為活動進行,從而繼續執行,處理硬碟的讀取操作。
top
top是Linux中一個常用的效能監控工具並能週期性地進行更新,我們因此也可以快速瞭解伺服器的執行狀態。
基本用法
top [選項]
常用的選項如下所示:
選項 | 解釋 |
---|---|
-b | 以批處理模式進行操作 |
-c | 顯示完整的命令資訊 |
-d | 更新時間間隔 |
-n number | 指定迴圈顯示的次數 |
-u number/name | 顯示指定使用者ID/使用者名稱的程式 |
-p pid | |
-s | 安全模式 |
-S | 累積模式 |
互動模式
交換械是指在top顯示相關資訊時,在不影響顯示資訊的同時進行的其他操作等,詳細如下所示:
快捷鍵 | 說明 |
---|---|
f | 新增或刪除程式資訊項 |
k | 終止程式,需要輸入PID號 |
r | 更改程式優先順序 |
S | 切換到累積模式 |
s或d | 更改重新整理時間 |
m | 切換顯示記憶體資訊 |
t | 切換顯示程式和CPU狀態資訊 |
c | 切換顯示命令名稱和完整命令列 |
P | 根據CPU使用率大小進行排序 |
T | 根據時間/累計時間進行排序 |
W | 將當前設定儲存到~/.toprc檔案中 |
q | 退出top程式 |
b | 將當前程式進行高亮顯示 |
l | 是否顯示系統負載資訊和啟動時間 |
1(數字1) | 顯示每個CPU核心單獨的效能資料 |
用法示例
1、第一個示例:
示例詳解
-
系統級資訊
-
程式指標資訊
指標 | 說明 | 參考值 |
---|---|---|
PID | 程式ID | |
PRID | 父程式ID | |
USER | 程式所屬使用者,啟用程式的使用者名稱 | |
PR | Priority縮寫,程式優先順序 | |
NI | Nice縮寫,用於調節優先順序,與PR有關,越小越早被執行 | -20~20 正數優先順序降低,負數優先順序提升 |
VIRT | 程式虛擬記憶體使用量 | |
RES | 程式使用且未被交換出的實體記憶體使用量 | |
SHR | 共享記憶體使用量 | |
S | 程式狀態 | R:執行 S:睡眠 D:不可中斷的睡眠狀態 T:跟蹤、停止 殭屍 |
%CPU | CPU使用率 | |
%MEM | 記憶體使用率 | |
TIME+ | 程式的CPU使用時間累積和 | 單位為1/100秒 |
TIME | 程式佔用的CPU時間累積和 | 單位為秒 |
RUSER | 程式的實際使用者名稱,即登入到Shell所用使用者名稱 | |
UID | 程式所屬使用者的ID | |
GROUP | 程式所屬的組名 | |
TTY | 啟動程式的終端名稱 | |
P | 程式最近一次所使用的CPU編號 | |
SWAP | 程式使用且被交換出來的虛擬記憶體使用量 | |
CODE | 程式對應的可執行程式碼所佔用的實體記憶體量 | |
DATA | 程式對應的資料部分(資料段、棧等)所佔用的實體記憶體量 | |
nFLT | 頁面錯誤次數 | |
nDRT | 最後一次寫入到目前為止被修改過的頁面數 | |
WCHAN | 如果程式處理睡眠狀態,則顯示睡眠狀態中系統呼叫名 | |
Flags | 程式標誌 | |
COMMAND | 程式所對應的命令名 |
iostat
iostat命令主要用來CPU的統計資訊和每個裝置、硬碟的IO統計資訊
基本用法
iostat [選項] [取樣間隔] [取樣樣本數]
常用的選項如下所示:
選項 | 解釋 |
---|---|
-c | 僅顯示CPU的統計資訊,即單獨輸出CPU的平均統計資訊 |
-d | 僅顯示裝置的統計資訊 |
-h | 將各裝置的統計資訊以易於檢視的方式進行顯示 |
-k | 以kb/s顯示統計資訊 |
-m | 以mb/s顯示統計資訊 |
-t | 增加顯示時間戳 |
-x | 顯示額外資訊 |
-y | 忽略自系統啟動以來的第一行資訊 |
用法示例
1、iostat示例
2、檢視硬碟的IO資訊
各指標詳細解釋如下所示:
指標 | 說明 |
---|---|
tps | 每秒程式的I/O讀寫請求總數 |
MB_read/s | 每秒讀取的位元組數,單位為MB/s |
MB_wrtn/s | 每秒寫入的位元組數,單位為MB/s |
MB_read | 讀取的位元組總數 ,單位為MB |
MB_wrtn | 寫入的位元組總數 ,單位為MB |
看到第一組第一行的數字非常大,是否就可以斷定I/O存在問題了? 在iostat輸出的第一組第一行資料,
表示是自Linux系統啟動剛才本命令執行這段期間的統計結果,而後面的幾組資料才真正表示了在iostat
取樣週期的統計結果,而如果要排除第一組的資料可以使用選項 -y
3、顯示額外的統計資訊
各指標詳細解釋如下所示:
指標 | 說明 |
---|---|
rrqm/s | 每秒對該裝置的讀取請求總次數 |
wrqm/s | 每秒對該裝置的寫入請求總次數 |
r/s | 每秒完成讀取的I/O次數 |
w/s | 每秒完成寫入的I/O次數 |
rMB/s | 每秒實際讀取的大小,單位為MB |
wMB/s | 每秒實際寫入的大小,單位為MB |
avgrq-sz | 平均每次I/O操作的資料大小 |
avgqu-sz | 平均等待處理I/O操作的佇列長度 |
await | 平均每次I/O請求等待時間(含等待時間和處理時間),一般應低於5ms |
r_await | 每次讀取I/O請求等待時間 |
w_await | 每次寫入I/O請求等待時間 |
svctm | 平均每次I/O操作的服務時間 |
%util | 週期內用於I/O操作的時間比率,即I/O佇列非空的時間比率,即(r/s+w/s )*(svctm/1000) |
需要關注的引數如下所示:
- %util:表示磁碟的忙碌情況,較大則代表I/O請求太多,硬碟可能存在瓶頸,一般不超過80%
- await大於svctm:差值越小,則說明佇列時間越短,反之差值越大,則佇列時間越長,系統可能存在問題
- svctm接近await,則說明I/O幾乎沒有等待時間
- await遠大於svctm,則說明I/O佇列太長,則響應時間會變長
4、顯示CPU統計資訊
各指標詳細解釋如下所示:
指標 | 說明 |
---|---|
%user | 顯示CPU在使用者級(應用程式)執行時的時間佔比 |
%nice | 顯示CPU在使用者級(應用程式)使用NICE許可權執行時的時間佔比 |
%system | 顯示CPU在系統級(核心)執行時的時間佔比 |
%iowait | 顯示CPU在空閒狀態期間未完成的磁碟I/O時間佔比 |
%steal | 顯示hypervisor服務另一個虛擬處理器時,虛擬CPU等待實際CPU的時間佔比 |
%idle | 顯示CPU在空閒狀態期間系統未完成的磁碟I/O時間佔比 |
- 如果steal值比較高的話,需要擴容虛擬機器,這是因為伺服器上的另一個虛擬機器可能擁有更大更多的CPU時間片而佔用了你的虛擬機器的CPU時間
- 如果iowait值比較高,則可能硬碟存在I/O瓶頸
- 如果idle值比較高,則表示CPU長期處於空閒狀態
- 如果idle值比較高但系統響應慢時,則有可能是CPU在等待記憶體分配,可考慮擴容記憶體容量
- 如果idle值如果長期低於10%,則CPU處理能力是瓶頸
本文同步在微信訂閱號上釋出,如各位小夥伴們喜歡我的文章,也可以關注我的微信訂閱號:woaitest,或掃描下面的二維碼新增關注: