100%英偉達的錯:黃仁勳確認Blackwell缺陷修復,明年初出貨

机器之心發表於2024-10-24
老黃:科技公司的晶片需求讓我夜不能寐。

「我們的 Blackwell 晶片存在設計缺陷,雖然可以正常使用,但該設計缺陷導致良率低下,」黃仁勳表示。「這 100% 是英偉達的錯。」

自 3 月份釋出以來,全球科技公司都在瘋狂求購的 Blackwell AI 晶片,似乎終於要到了出貨的時候。

本週三,在與高盛(Goldman Sachs)進行的會議中,英偉達表示 Blackwell GPU 中影響良率的設計缺陷已宣告修復,B100/B200 處理器的改進版即將投入量產。

據路透社等外媒報導,英偉達 CEO 黃仁勳本週承認,該缺陷完全由英偉達造成,並表示該現在已在臺積電的及時幫助下修復了缺陷

圖片

今年 8 月,當有關英偉達最新一代晶片 Blackwell 設計缺陷的第一批報導出現時,一些媒體稱臺積電應承擔責任 —— 並暗示這可能導致英偉達與其代工合作伙伴之間的關係緊張。

黃仁勳表示,事實並非如此。他還駁斥了有關兩家公司關係緊張的報導,並稱其為「假新聞」。為了讓 Blackwell 計算裝置正常工作,英偉達設計了七種不同型別的晶片,並同時投入生產

英偉達的 Blackwell 晶片採用全新一代架構,臺積電 4NP 工藝打造,擁有 2080 億個電晶體,在執行大模型推理等任務時效率較前代提升了 30 倍,因而備受科技公司期待。

此種面積的晶片,顯然不能再透過傳統方式來打造。Blackwell 的 B100 和 B200 GPU 兩個型號使用臺積電的 CoWoS-L 封裝技術連線兩個晶片,該技術依賴於配備區域性矽互連(LSI)橋接器的 RDL 中介層(以實現約 10 TB/s 的資料傳輸速率)。

英偉達表示,雙晶片的 GPU 沒有記憶體區域性性問題或快取問題,CUDA 將其視為單塊 GPU,可見這些晶片的橋接器至關重要。然而,GPU 晶片、LSI 橋接器、RDL 中介層和主機板基板之間的熱膨脹特性可能不匹配,導致系統彎曲和故障。

圖片

圖源:Nvidia

因此,英偉達在 8 月承認了其 Blackwell GPU 的良品率低,需要修改 GPU 矽片的頂部金屬層和凸片,以提高生產良率。當時,英偉達在一份宣告中表示,「公司已經對 Blackwell GPU 的掩膜實施了修復。」

不過,英偉達也重申,公司在第二季度與客戶一起對 Blackwell GPU 進行了抽樣檢查,並承認必須生產「低良率 Blackwell 材料」才能滿足對 Blackwell 處理器的需求。

同時,黃仁勳在 2025 財年第二季度財報電話會議上表示,公司針對 Blackwell B100 和 B200 GPU 的設計進行了所有必要的變更,從而有望在第四季度實現量產。

圖片

英偉達 Blackwell GPU 不同型號的引數規格。

其實在半導體行業中,影響良率的 bug 以及重大功能問題並不是什麼新鮮事。通常,公司透過修改金屬層(或兩層)等新步進(stepping)來修復這些問題。

據此前報導,英特爾的 Sapphire Rapids 有 500 個 bug。因此,英特爾釋出了大約十幾個步進來修復所有 bug(其中五個是基礎重置)。每個新步進大約需要三個月才能完成(包括識別問題、修復問題和生產新版本晶片)。

圖片

圖源:Intel

從這一點來看,英偉達和臺積電修復 Blackwell GPU 的速度的確令人印象深刻。

目前,已修復的用於 AI 和超級計算機的 Blackwell GPU 預計將於最近幾天投入量產,並在 2025 年初開始發貨(仍在英偉達 2025 財年內)

此外,根據英偉達在今年初披露的訊息,AWS、谷歌、Meta 和微軟是其主要客戶(合計收入佔比高達 40%),為滿足他們對其新一代 AI 算力的需求,該公司必須在本年度出貨一些最初低良率的 Blackwell GPU。不過,2024 年究竟會有多少 Blackwell GPU 被「送」往資料中心,我們不得而知。

週三美股收盤,剛剛創下歷史新高的英偉達股票收跌 2.81 %,回落到 140 美元以下。

圖片

參考內容:

https://www.tomshardware.com/pc-components/gpus/nvidia-adresses-significant-blackwell-yield-issues-production-ramp-in-q4

https://www.reuters.com/technology/artificial-intelligence/nvidias-design-flaw-with-blackwell-ai-chips-now-fixed-ceo-says-2024-10-23/

https://www.tomshardware.com/tech-industry/artificial-intelligence/nvidias-jensen-huang-admits-ai-chip-design-flaw-was-100-percent-nvidias-fault-tsmc-not-to-blame-now-fixed-blackwell-chips-are-in-production

相關文章