檢視GPU(加速卡)
- 檢視GPU型號
rocminfo | grep -i zifang
(zifang 表示: Z100 )
[root@worker-0 root] rocminfo | grep -i zifang
Name: ZIFANG
Name: ZIFANG
- 檢視GPU使用率
- 裝置及視訊記憶體佔用(每次顯示瞬時資料,即資料截圖):
rocm-smi
# 每次顯示瞬時資料(資料截圖)
[root@worker-0 root] rocm-smi
==========================System Management Interface ==========================
================================================================================
DCU Temp AvgPwr SCLK MCLK Fan Perf PwrCap VRAM% DCU%
1 47.0c 25.0W 1319Mhz 800Mhz 0.0% auto 300.0W 8% 0%
2 46.0c 24.0W 1319Mhz 800Mhz 0.0% auto 300.0W 0% 0%
3 48.0c 24.0W 1319Mhz 800Mhz 0.0% auto 300.0W 0% 0%
4 47.0c 28.0W 1319Mhz 800Mhz 0.0% auto 300.0W 0% 0%
===============================================================================
[root@worker-0 root] rocm-smi
==========================System Management Interface ==========================
================================================================================
DCU Temp AvgPwr SCLK MCLK Fan Perf PwrCap VRAM% DCU%
1 47.0c 25.0W 1319Mhz 800Mhz 0.0% auto 300.0W 8% 100%
2 46.0c 24.0W 1319Mhz 800Mhz 0.0% auto 300.0W 0% 0%
3 48.0c 24.0W 1319Mhz 800Mhz 0.0% auto 300.0W 0% 0%
4 47.0c 28.0W 1319Mhz 800Mhz 0.0% auto 300.0W 0% 0%
===============================================================================
- 動態顯示GPU佔用:
watch rocm-smi
# 動態顯示
[root@worker-0 root] watch rocm-smi
==========================System Management Interface ==========================
================================================================================
DCU Temp AvgPwr SCLK MCLK Fan Perf PwrCap VRAM% DCU%
1 47.0c 25.0W 1319Mhz 800Mhz 0.0% auto 300.0W 8% 100%
2 46.0c 24.0W 1319Mhz 800Mhz 0.0% auto 300.0W 0% 0%
3 48.0c 24.0W 1319Mhz 800Mhz 0.0% auto 300.0W 0% 0%
4 47.0c 28.0W 1319Mhz 800Mhz 0.0% auto 300.0W 0% 0%
===============================================================================
這段輸出是使用rocm-smi
命令在基於ROCm(Radeon Open Compute)環境的Linux系統上檢視AMD GPU(資料計算單元DCU)的狀態。下面是對輸出資訊的解釋:
DCU:資料計算單元編號,這裡從1到4,表示系統中有4個AMD GPU。
Temp:GPU的溫度,單位是攝氏度(c)。這裡的溫度分別是47.0c、46.0c、48.0c和47.0c。
AvgPwr:GPU的平均功率,單位是瓦(W)。這裡的功率分別是25.0W、24.0W、24.0W和28.0W。
SCLK:GPU的核心時脈頻率,單位是兆赫茲(Mhz)。所有GPU的核心時脈頻率都是1319Mhz。
MCLK:GPU的記憶體時脈頻率,單位也是兆赫茲(Mhz)。所有GPU的記憶體時脈頻率都是800Mhz。
Fan:風扇轉速的百分比。這裡所有GPU的風扇轉速都是0.0%,意味著風扇可能處於停止狀態或者資料未更新。
Perf:效能模式,這裡是auto
,表示GPU的效能模式設定為自動調整。
PwrCap:功率上限,單位是瓦(W)。所有GPU的功率上限都是300.0W。
VRAM%:GPU視訊記憶體使用率百分比。只有第一個GPU的視訊記憶體使用率為8%,其他都是0%。
DCU%:GPU使用率百分比。只有第一個GPU的使用率為100%,其他都是0%。
從這些資訊可以看出,系統中雖然有4個AMD GPU,但只有第一個GPU正在被使用(100% DCU%和8% VRAM%),而其他三個GPU目前處於空閒狀態(0% DCU%和0% VRAM%)。所有GPU的溫度和功率都在正常範圍內,且效能模式設定為自動調整。風扇轉速為0%可能意味著在當前的負載下,GPU不需要額外的冷卻。
參考相關文章:https://www.jianshu.com/p/1d02cf5d1621