繼良品率低後,英偉達Blackwell又出過熱問題,說好的明年初發貨呢?

机器之心發表於2024-11-18
發言人將「工程迭代」稱為「正常且在意料之中」。

今年的的 GTC 大會,英偉達將 AI 晶片的標杆推向了難以想象的高度。

為了幫助世界構建更大、更智慧的 AI,英偉達首先拿出了世界上最先進的 GPU—— Blackwell 系列。
圖片
Blackwell 擁有 2080 億個電晶體,在同一顆晶片上整合了兩個 GPU。其兩塊小晶片之間的互聯速度高達 10TBps,徹底解決了記憶體瓶頸和快取問題。

與前代產品 H100 相比,Blackwell 的效能提升同樣令人矚目,達到了 Hopper 的 30 倍。
圖片
以訓練一個 1.8 萬億引數的 GPT 模型為例,如果使用 Hopper,需要 8000 個 GPU,消耗 15 兆瓦電力,訓練 3 個月;而換成 Blackwell,僅需 2000 個 GPU,就能在同樣的時間內完成,能耗只需 4 兆瓦,實現了效能和效率的雙重突破。

Blackwell 的量產問世,無疑將為 AI 模型訓練和人形機器人的發展注入強勁動力,對整個 AI 應用生態也將產生深遠影響。
圖片
自 3 月份釋出,6 月份宣佈投產以來,Blackwell 最初定於 2024 年第二季度發貨,全球科技公司都在瘋狂求購。

但在原定的發貨時間,傳出了 Blackwell 因為良品率低,將推遲發貨的訊息。

當時,黃仁勳在 2025 財年第二季度財報電話會議上表示,設計上的問題都已修復,有望在第四季度實現量產。

現在,英偉達的客戶又在擔心一個新問題,當晶片連線到 Nvidia 自己的伺服器機架時,會過熱。
圖片
據 The Information 報導,英偉達 Blackwell GPU 在 72 核的伺服器上暴露了過熱隱患。這些伺服器每個機架的功耗預計高達 120 千瓦,過熱問題不僅限制了 GPU 的效能,還可能損壞元件。為此,英偉達不得不多次重新評估伺服器機架的設計方案。
圖片
這引發了谷歌、Meta 和微軟等大客戶對能否按時在其資料中心部署 Blackwell 的擔憂。

為此,英偉達已要求供應商對機架進行多項設計變更,進一步推遲了預期發貨日期。該公司發言人將「工程迭代」描述為「正常且在意料之中」。
圖片
此前,由於 GPU 良率不高的問題,Blackwell 的量產計劃就推遲了一次。

今年 8 月,有媒體稱 Blackwell 存在設計缺陷。由於 Blackwell 是英偉達首個採用 MCM(多晶片封裝)設計的 GPU,在同一個晶片上整合了兩個 GPU。

這種「二合一」的創新,顯然不能再透過傳統方式來打造。Blackwell 的 B100 和 B200 GPU 兩個型號使用臺積電的 CoWoS-L 封裝技術連線兩個晶片,該技術依賴於配備區域性矽互連(LSI)橋接器的 RDL 中介層,以實現約 10 TB/s 的資料傳輸速。

然而,由於 GPU 晶片、LSI 橋、RDL 中介層和主機板基板之間的熱膨脹特性不匹配,導致封裝結構出現彎曲,從而引發系統故障。
圖片
對此,黃仁勳表示:「我們的 Blackwell 晶片存在設計缺陷,雖然可以正常使用,但該設計缺陷導致良率低下」。

更多詳情可參見:《100% 英偉達的錯:黃仁勳確認 Blackwell 缺陷修復,明年初出貨》

最終修訂版的 Blackwell GPU 直至 10 月底才開始量產,這意味著英偉達最快也要等到明年 1 月底才能向客戶交付這些處理器。

而 Blackwell 正在面臨前所未有的需求。近期,黃仁勳在摩根士丹利舉辦的投資者會議上透露,Blackwell 已經全部售罄。摩根士丹利分析師 Joe Moore 指出,英偉達高管稱,Blackwell GPU 產品的訂單積壓已達 12 個月。

AWS、CoreWeave、谷歌、Meta、微軟和甲骨文等科技巨頭,已經採購了英偉達及其製造合作伙伴臺積電在未來四個季度內能生產的所有 Blackwell GPU。

這種旺盛的需求表明,儘管 AMD、英特爾以及各大雲服務商正努力分得一杯羹,英偉達在 AI GPU 的領導地位還將進一步鞏固並擴大。

作為人類歷史上估值最高的股票,英偉達將於本週三公佈收益。與 8 月份的情況相似,在類似的時間節點,又傳出了有關下一代 Blackwell 晶片出問題的訊息。
圖片
在英偉達承認 Blackwell 存在設計缺陷導致良品率低後,當時剛創下歷史新高的英偉達股票收跌 2.81 %,又回落到了 140 美元以下。
圖片
這一次,英偉達的股價又會發生怎樣的變化呢?

參考連結:
https://www.theinformation.com/articles/nvidia-customers-worry-about-snag-with-new-ai-chip-servers
https://www.tomshardware.com/pc-components/gpus/nvidias-data-center-blackwell-gpus-reportedly-overheat-require-rack-redesigns-and-cause-delays-for-customers

相關文章