DeepSeek極端榨取硬體效能,看起來不同尋常!推理和訓練之間最大的區別之一是通訊需求。
1、對於推理:
晶片之間不需要太多通訊。你可以把它想象成普通的資料中心,甚至可以混合使用 Nvidia、AMD、Intel 等不同品牌的硬體,就像 Azure 現在為 OpenAI 等大模型提供服務那樣。這也是為什麼液體冷卻越來越流行,因為你可以把晶片放得更近。
谷歌的 TPU 也比其他公司更早開始使用液體冷卻。
2、對於訓練:
情況就複雜多了。在考慮用於訓練 AI 的晶片時,有三個方面:
- 浮點運算 (FLOPS)
- 記憶體頻寬和容量
- 互連(晶片到晶片互連)
訓練需要頻繁進行 all-reduce 和 all-gather 操作來同步整個網路中的模型。
實現這一點的主要因素(除了 Nvidia 銷售的網路硬體)是軟體。舉個例子:
- Meta 有一個叫 pytorch.powerplantnoblowup 的運算子,它會做一些假計算,防止在權重交換時出現功率峰值。
- Nvidia 提供了一個高階庫叫 NCCL(Nvidia 通訊集合庫)來幫助實現這些操作,但它只支援 Nvidia 硬體。
- 除了Meta會自己定製 NCCL 版本,DeepSeek 就只能使用Nvidia更低階別的抽象(部分原因是出口管制限制了硬體選擇)。
因為Nvidia 提供了多種選擇:你可以直接用他們的庫,也可以自己定製,甚至可以直接在PTX 級別上操作。
總的來說,Nvidia 和它最接近的競爭對手 AMD 在訓練方面的軟體差距仍然很大,儘管這個差距正在縮小。Dylan 甚至承認 AMD 的硬體在某些方面更好,但真正的問題是他們的軟體。
任何用過消費級 GPU 的人可能都有同感。
目前,谷歌是唯一一家能在訓練領域與 Nvidia 競爭的公司,他們的 TPU 堆疊(包括晶片、網路和軟體)確實很強,但他們沒有像 Nvidia 那樣花大力氣服務外部客戶。Gemini的上下文長度之所以能比其他模型長,部分原因就是谷歌的 TPU 堆疊。
Nvidia 在訓練領域可能仍占主導地位,但從推斷來看,我們看到很多競爭對手的出現。
Nvidia 在訓練和微調方面非常強大,對於小公司來說,幾乎不需要額外努力就能上手,而且他們把很多精力都放在了效能最佳化上。不過,即使 Nvidia 的引擎已經為訓練做了最佳化,如果有人想要達到頂尖實驗室級別的效能,他們還是會用比 CUDA 更底層的程式碼來進一步最佳化。
不過,想要極快的訓練速度,你還是需要一個叢集,因為晶片上的 SRAM 有限(只有 44GB),有家公司做了這樣叢集產品,它的記憶體介面還相容 HBM 和 DDR,頻寬非常快……而且它還支援 PyTorch,已經有模型訓練速度極快的例子了。
除非 Nvidia 也做類似的事情,否則這款產品肯定會贏。也許未來會有人做出一個立方體,在垂直堆疊的晶片層之間加入冷卻劑,實現類似的高互連速度,這樣就不用依賴晶圓級的高產量了……
OpenAI 計劃在 2026 年開發自己的 AI 晶片
OpenAI 正在完成他們第一個自己設計的 AI 晶片的最後工作。他們打算和臺灣的臺積電一起生產這個晶片,剛開始的試生產可能會花幾個月的時間。
這個晶片會用臺積電最新的 3 奈米技術來製造,這樣 OpenAI 就有可能在 2026 年開始大量生產。
這個專案由一個之前在谷歌做晶片的專家 Richard Ho 帶領,團隊有 40 個人。他們正在和博通公司緊密合作,想要做出一個既能訓練 AI 模型又能執行 AI 模型的晶片,不過剛開始可能不會大規模使用。
這個團隊的人數讓一些人有點疑問——行業內的專家說,一個完整的晶片專案通常需要幾百個工程師,所以和谷歌或者亞馬遜的類似專案比起來,OpenAI 的團隊顯得有點小。
有了解這個專案的訊息人士說,OpenAI 主要是想透過這個晶片在和別的供應商談條件時更有優勢。雖然現在 Nvidia 在 AI 晶片市場上是老大,但亞馬遜、微軟和 Meta 這些大公司也一直在嘗試自己做硬體。
這個動作正好趕上 AI 晶片需求越來越大。亞馬遜、Meta 和微軟都計劃在 AI 基礎設施上投幾百億美元,而 OpenAI 自己也參與了一個價值 5000 億美元的星際之門基礎設施計劃。