海光 DCU資訊查詢

银河星光發表於2024-11-05

檢視GPU(加速卡)

  1. 檢視GPU型號
    rocminfo | grep -i zifang(zifang 表示: Z100 )
[root@worker-0 root] rocminfo | grep -i zifang
  Name:                    ZIFANG                             
  Name:                    ZIFANG 
  1. 檢視GPU使用率
  • 裝置及視訊記憶體佔用(每次顯示瞬時資料,即資料截圖):rocm-smi
# 每次顯示瞬時資料(資料截圖)
[root@worker-0 root] rocm-smi
==========================System Management Interface ==========================
================================================================================
DCU  Temp   AvgPwr  SCLK     MCLK    Fan   Perf  PwrCap  VRAM%  DCU%
1    47.0c  25.0W   1319Mhz  800Mhz  0.0%  auto  300.0W    8%   0%
2    46.0c  24.0W   1319Mhz  800Mhz  0.0%  auto  300.0W    0%   0%
3    48.0c  24.0W   1319Mhz  800Mhz  0.0%  auto  300.0W    0%   0%
4    47.0c  28.0W   1319Mhz  800Mhz  0.0%  auto  300.0W    0%   0%
===============================================================================

[root@worker-0 root] rocm-smi
==========================System Management Interface ==========================
================================================================================
DCU  Temp   AvgPwr  SCLK     MCLK    Fan   Perf  PwrCap  VRAM%  DCU%
1    47.0c  25.0W   1319Mhz  800Mhz  0.0%  auto  300.0W    8%   100%
2    46.0c  24.0W   1319Mhz  800Mhz  0.0%  auto  300.0W    0%   0%
3    48.0c  24.0W   1319Mhz  800Mhz  0.0%  auto  300.0W    0%   0%
4    47.0c  28.0W   1319Mhz  800Mhz  0.0%  auto  300.0W    0%   0%
===============================================================================
  • 動態顯示GPU佔用:watch rocm-smi
# 動態顯示
[root@worker-0 root] watch rocm-smi
==========================System Management Interface ==========================
================================================================================
DCU  Temp   AvgPwr  SCLK     MCLK    Fan   Perf  PwrCap  VRAM%  DCU%
1    47.0c  25.0W   1319Mhz  800Mhz  0.0%  auto  300.0W    8%   100%
2    46.0c  24.0W   1319Mhz  800Mhz  0.0%  auto  300.0W    0%   0%
3    48.0c  24.0W   1319Mhz  800Mhz  0.0%  auto  300.0W    0%   0%
4    47.0c  28.0W   1319Mhz  800Mhz  0.0%  auto  300.0W    0%   0%
===============================================================================

這段輸出是使用rocm-smi命令在基於ROCm(Radeon Open Compute)環境的Linux系統上檢視AMD GPU(資料計算單元DCU)的狀態。下面是對輸出資訊的解釋:

DCU:資料計算單元編號,這裡從1到4,表示系統中有4個AMD GPU。

Temp:GPU的溫度,單位是攝氏度(c)。這裡的溫度分別是47.0c、46.0c、48.0c和47.0c。

AvgPwr:GPU的平均功率,單位是瓦(W)。這裡的功率分別是25.0W、24.0W、24.0W和28.0W。

SCLK:GPU的核心時脈頻率,單位是兆赫茲(Mhz)。所有GPU的核心時脈頻率都是1319Mhz。

MCLK:GPU的記憶體時脈頻率,單位也是兆赫茲(Mhz)。所有GPU的記憶體時脈頻率都是800Mhz。

Fan:風扇轉速的百分比。這裡所有GPU的風扇轉速都是0.0%,意味著風扇可能處於停止狀態或者資料未更新。

Perf:效能模式,這裡是auto,表示GPU的效能模式設定為自動調整。

PwrCap:功率上限,單位是瓦(W)。所有GPU的功率上限都是300.0W。

VRAM%:GPU視訊記憶體使用率百分比。只有第一個GPU的視訊記憶體使用率為8%,其他都是0%。

DCU%:GPU使用率百分比。只有第一個GPU的使用率為100%,其他都是0%。

從這些資訊可以看出,系統中雖然有4個AMD GPU,但只有第一個GPU正在被使用(100% DCU%和8% VRAM%),而其他三個GPU目前處於空閒狀態(0% DCU%和0% VRAM%)。所有GPU的溫度和功率都在正常範圍內,且效能模式設定為自動調整。風扇轉速為0%可能意味著在當前的負載下,GPU不需要額外的冷卻。

參考相關文章:https://www.jianshu.com/p/1d02cf5d1621

相關文章