有人拿當今最強GPU A6000和3090做了效能對比,網友:都買不起

机器之心發表於2021-08-10

又到了人們喜聞樂見的顯示卡對決時間。

雖然如今人們用來訓練深度學習的 GPU 大多出自英偉達,但它旗下的產品經常會讓人在購買時難以抉擇。

去年 12 月,英偉達將專業圖形加速顯示卡產品線更新至安培架構,其中最高階的 RTX A6000 是最被人關注的一款。

有人拿當今最強GPU A6000和3090做了效能對比,網友:都買不起

在基本規格上,A6000 基於完整的 GA102 GPU 核心打造,內建 10752 個 CUDA 核心和第三代 Tensor Core,單精度浮點效能達到了 38.7 TFLOPs。它的視訊記憶體容量達到 48GB,型別是 GDDR6(16Gbps,GDDR6X 因為單晶片容量低而未使用),支援 ECC 校驗。

A6000 採用了傳統渦輪直吹風扇設計,可搭建 96GB 視訊記憶體的雙卡系統,PCIe 4.0 x16 插槽,提供 4 個 DP 1.4 介面(沒有 HDMI),額定功耗 300W。這款顯示卡的定價為 5500 美元(約合 3.6 萬元)。

而更早推出的旗艦消費級顯示卡 RTX 3090 無論是從效能還是能效都達到了前代產品的兩倍,在開始出售的一段時間因為晶片產能受限等問題而一卡難求。

作為遊戲玩家和深度學習從業者眼中目前最強大的顯示卡,3090 擁有 10496 個 CUDA 核心,FP32 浮點效能為 35.6 TFLOPs。它的視訊記憶體容量為 24GB,材質也是最貴的 GDDR6X,又因為支援 HDMI 2.1 而可以實現 4k 高重新整理率或 8k 遊戲,額定功耗 350W。RTX 3090 的售價是 1500 美元(國行公版 11999 元)。

有人拿當今最強GPU A6000和3090做了效能對比,網友:都買不起

對這兩款顯示卡進行評測的 Lambda 是一家構建深度學習伺服器的公司,他們提供專用的 AI 訓練計算機,也經常釋出深度學習硬體的測評。在這次評測中,人們對這些頂級 GPU 在深度學習框架 PyTorch 上的模型訓練速度進行了對比。

A6000 對 3090,這是英偉達兩條產品線上最強顯示卡的對決,身處深度學習實驗室的你當然希望知道它們孰優孰劣。不過講道理,看到這個標題第一反應還是買不起:

有人拿當今最強GPU A6000和3090做了效能對比,網友:都買不起

聽君一席話如同聽君一席話,總之還是買不起。

從評測結果上來看,買 RTX A6000 花上三倍的錢並不能讓你在深度學習的任務上獲得多少優勢:
  • 使用 PyTorch 訓練影像分類卷積神經網路時,在 32-bit 精確度上,一塊 RTX A6000 的速度是 RTX 3090 的 0.92 倍;如果使用混合精度則是 1.01 倍。

  • 使用 PyTorch 訓練語言模型 transformer 時,在 32-bit 精確度上,一塊 RTX A6000 的速度是 RTX 3090 的 1.34 倍;使用混合精度也是 1.34 倍。

  • 在並聯多卡時,使用 PyTorch 訓練影像分類卷積神經網路,在 32-bit 精確度上,八塊 RTX A6000 的速度是八塊 RTX 3090 的 1.13 倍;如果使用混合精度則是 1.14 倍。

  • 使用 PyTorch 框架訓練語言模型 transformer,在 32-bit 精確度上,八塊 RTX A6000 的速度是八塊 RTX 3090 的 1.36 倍;如果使用混合精度則是 1.33 倍。

所以,看來如果想在深度學習任務上展現 A6000 的能力,還需要多買幾塊 GPU。

3090 和 A6000 在 PyTorch 卷積神經網路訓練上的能力對比

有人拿當今最強GPU A6000和3090做了效能對比,網友:都買不起

如圖所示,使用單塊 RTX A6000 進行影像模型的 32 位訓練時要比使用單塊 RTX 3090 稍慢。但由於 GPU 之間的通訊速度更快,顯示卡越多則 A6000 優勢越明顯。視覺模型的測試成績是在 SSD、ResNet-50 和 Mask RCNN 上取平均值得出的。

3090 和 A6000 在 PyTorch 框架上訓練語言模型的能力對比

有人拿當今最強GPU A6000和3090做了效能對比,網友:都買不起

與影像模型不同,對於測試的語言模型,RTX A6000 始終比 RTX 3090 快 1.3 倍以上。這可能是由於語言模型對於視訊記憶體的需求更高了。與 RTX 3090 相比,RTX A6000 的視訊記憶體速度更慢,但容量更大。語言模型的測試結果是 Transformer-XL base 和 Transformer-XL large 的平均值。

請注意,在這裡 GPU 的並聯都使用了 NVLink 而不是 SLI。不過根據硬體本身的機制,如果使用 SLI 效能損失會更大,所以並沒有理由使用後者。

Lambda 開放了此次測評的程式碼:https://github.com/lambdal/deeplearning-benchmark

看到這裡,你應該能找到自己的 GPU 選擇了。未來,這家公司還將計劃使用和本次測試同樣的內容,研究 3080Ti 的深度學習能力。

參考內容:
https://lambdalabs.com/blog/nvidia-rtx-a6000-vs-rtx-3090-benchmarks/

相關文章