特斯拉人工智慧Dojo概述

banq發表於2021-08-23
幾天前,Tesla Dojo 專案的負責人 Genesh Venugopal 宣佈了 Dojo(道場) 機器學習培訓系統。這是一個異常豐富的網路、功率密集和記憶體輕的設計。特斯拉打破了製造計算機的所有規則並建立了行業標準。
特斯拉已經使用 NVIDIA GPU構建了世界上最強大的超級計算機之一。這就是他們所說的 GPU 堆疊,GPU 的數量“超過了世界排名前 5 的超級計算機”。只比中國的 神威·太湖之光( Sunway TaihuLight )超級計算機少一點:

特斯拉人工智慧Dojo概述

事實上,當談到特斯拉建立 Dojo 所針對的特定任務時,Dojo 很可能會以非常大的幅度超過世界上所有其他超級計算機的總和。
超越了原始計算效能,Dojo 及其令人瞠目結舌的工程幾乎以所有其他可以想象的方式讓所有超級計算機相形見絀。為了從邏輯上解釋這一點,我們需要從小規模開始。

在下面總結了系統的架構,發現系統的三個方面特別有趣:

  • 大規模網路:每個Tesla  D1 晶片提供 16,000 Gbps(4 通道 4Tbps)的網路,它們組合成 25 晶片 MCM(多晶片模組)以提供 36,000 Gbps (4x 9Tb) 的網路頻寬
  • 微小的記憶體與計算比:每個 D1 晶片由 354 個功能單元組成,每個功能單元只有 1.25 MB 的 SRAM,根本沒有 DRAM,因此每個 D1 處理器的記憶體不到 ½ GB。他們在 5 個機架行的每一端配置了大型 DRAM 池,計算機機架本身沒有 DRAM。它們如何能在如此輕的記憶體上執行時,我懷疑這是巨大的網路頻寬的組合,並且該系統旨在執行視覺模型,其中記憶體密集度低於許多其他常見的 ML 訓練工作負載。
  • 巨大的功率密度:每個 D1 晶片僅耗散 400 W,這與該尺寸的現代部件的預期差不多,但它們將它們組合成相當密集的 25 個晶片 MCM,稱為訓練片,每個 MCM 耗散 15 千瓦(10 千瓦的 D1 和 5 千瓦的穩壓器和其他開銷)。對於完整規劃的 10 機架 Dojo 培訓系統來說,這是 1.8 兆瓦。作為一個規模點,中型資料中心將在 30 到 40 兆瓦範圍內執行)。

特斯拉現在已經掌握著摩爾定律的衣缽,就像 NVIDIA 十年前從英特爾手中接過領導地位一樣。特斯拉不只是人工智慧公司,而且是晶片設計公司。

以上資料來自:

Tesla Project Dojo Overview

Tesla’s Dojo Supercomputer Breaks All Established Industry Standards

更多#馬斯克
 

相關文章