繼良品率低後，英偉達Blackwell又出過熱問題，說好的明年初發貨呢？

机器之心發表於2024-11-18

原文網址 : https://www.jiqizhixin.com/articles/2024-11-18-4

發言人將「工程迭代」稱為「正常且在意料之中」。

今年的的 GTC 大會，英偉達將 AI 晶片的標杆推向了難以想象的高度。

為了幫助世界構建更大、更智慧的 AI，英偉達首先拿出了世界上最先進的 GPU—— Blackwell 系列。

Blackwell 擁有 2080 億個電晶體，在同一顆晶片上整合了兩個 GPU。其兩塊小晶片之間的互聯速度高達 10TBps，徹底解決了記憶體瓶頸和快取問題。

與前代產品 H100 相比，Blackwell 的效能提升同樣令人矚目，達到了 Hopper 的 30 倍。

以訓練一個 1.8 萬億引數的 GPT 模型為例，如果使用 Hopper，需要 8000 個 GPU，消耗 15 兆瓦電力，訓練 3 個月；而換成 Blackwell，僅需 2000 個 GPU，就能在同樣的時間內完成，能耗只需 4 兆瓦，實現了效能和效率的雙重突破。

Blackwell 的量產問世，無疑將為 AI 模型訓練和人形機器人的發展注入強勁動力，對整個 AI 應用生態也將產生深遠影響。

自 3 月份釋出，6 月份宣佈投產以來，Blackwell 最初定於 2024 年第二季度發貨，全球科技公司都在瘋狂求購。

但在原定的發貨時間，傳出了 Blackwell 因為良品率低，將推遲發貨的訊息。

當時，黃仁勳在 2025 財年第二季度財報電話會議上表示，設計上的問題都已修復，有望在第四季度實現量產。

現在，英偉達的客戶又在擔心一個新問題，當晶片連線到 Nvidia 自己的伺服器機架時，會過熱。

據 The Information 報導，英偉達 Blackwell GPU 在 72 核的伺服器上暴露了過熱隱患。這些伺服器每個機架的功耗預計高達 120 千瓦，過熱問題不僅限制了 GPU 的效能，還可能損壞元件。為此，英偉達不得不多次重新評估伺服器機架的設計方案。

這引發了谷歌、Meta 和微軟等大客戶對能否按時在其資料中心部署 Blackwell 的擔憂。

為此，英偉達已要求供應商對機架進行多項設計變更，進一步推遲了預期發貨日期。該公司發言人將「工程迭代」描述為「正常且在意料之中」。

此前，由於 GPU 良率不高的問題，Blackwell 的量產計劃就推遲了一次。

今年 8 月，有媒體稱 Blackwell 存在設計缺陷。由於 Blackwell 是英偉達首個採用 MCM（多晶片封裝）設計的 GPU，在同一個晶片上整合了兩個 GPU。

這種「二合一」的創新，顯然不能再透過傳統方式來打造。Blackwell 的 B100 和 B200 GPU 兩個型號使用臺積電的 CoWoS-L 封裝技術連線兩個晶片，該技術依賴於配備區域性矽互連（LSI）橋接器的 RDL 中介層，以實現約 10 TB/s 的資料傳輸速。

然而，由於 GPU 晶片、LSI 橋、RDL 中介層和主機板基板之間的熱膨脹特性不匹配，導致封裝結構出現彎曲，從而引發系統故障。

對此，黃仁勳表示：「我們的 Blackwell 晶片存在設計缺陷，雖然可以正常使用，但該設計缺陷導致良率低下」。

更多詳情可參見：《100% 英偉達的錯：黃仁勳確認 Blackwell 缺陷修復，明年初出貨》

最終修訂版的 Blackwell GPU 直至 10 月底才開始量產，這意味著英偉達最快也要等到明年 1 月底才能向客戶交付這些處理器。

而 Blackwell 正在面臨前所未有的需求。近期，黃仁勳在摩根士丹利舉辦的投資者會議上透露，Blackwell 已經全部售罄。摩根士丹利分析師 Joe Moore 指出，英偉達高管稱，Blackwell GPU 產品的訂單積壓已達 12 個月。

AWS、CoreWeave、谷歌、Meta、微軟和甲骨文等科技巨頭，已經採購了英偉達及其製造合作伙伴臺積電在未來四個季度內能生產的所有 Blackwell GPU。

這種旺盛的需求表明，儘管 AMD、英特爾以及各大雲服務商正努力分得一杯羹，英偉達在 AI GPU 的領導地位還將進一步鞏固並擴大。

作為人類歷史上估值最高的股票，英偉達將於本週三公佈收益。與 8 月份的情況相似，在類似的時間節點，又傳出了有關下一代 Blackwell 晶片出問題的訊息。

在英偉達承認 Blackwell 存在設計缺陷導致良品率低後，當時剛創下歷史新高的英偉達股票收跌 2.81 ％，又回落到了 140 美元以下。

這一次，英偉達的股價又會發生怎樣的變化呢？

^{參考連結：}

^{https://www.theinformation.com/articles/nvidia-customers-worry-about-snag-with-new-ai-chip-servers}

^{https://www.tomshardware.com/pc-components/gpus/nvidias-data-center-blackwell-gpus-reportedly-overheat-require-rack-redesigns-and-cause-delays-for-customers}

100%英偉達的錯：黃仁勳確認Blackwell缺陷修復，明年初出貨
2024-10-24
AMD釋出最強AI晶片，對標英偉達Blackwell，2025年上市
2024-10-11
AI晶片
英偉達推出下一代Blackwell GPU，成本和能耗降低25倍
2024-03-19
GPU
特斯拉自研AI晶片，要和英偉達說再見?
2018-08-03
AI晶片
英偉達最新AI超級算力Blackwell GPU平臺即將登陸亞馬遜雲科技
2024-03-19
AIGPU亞馬遜
英偉達的AI晶片霸主之路！
2019-11-25
AI晶片
說好的節操呢
2019-05-11
超算“猛將”英偉達
2020-11-19
有英偉達新卡的安裝
2024-04-14
Kafka又出問題了！
2021-04-03
Kafka
繼英偉達後，三星190GB機密資料遭同一黑客組織洩露
2022-03-07
黑客
英偉達財報：2020年英偉達淨利潤23.74億美元同比增長282%
2021-08-19
小米9今日首發開賣瞬間售罄網友：說好的現貨呢？
2019-02-26
英偉達VR：GPU的發展還需要一個20年
2018-03-13
VRGPU
新火種AI|美光、英偉達大漲，AI引爆後，晶片行業寒冬已過？
2023-12-21
AI晶片行業
前有Mellanox 後有Arm 英偉達下一個看上了誰？
2020-09-16
英偉達又向開源邁了一步「GitHub 熱點速覽」
2024-07-23
Github
英偉達總市值已達2.32萬億美元已超過俄羅斯GDP
2024-03-08
RTX 2080Ti顯示卡返修率不足0.01% 英偉達:問題卡很少
2018-11-06
英偉達財報：2025財年Q3英偉達營收351億美元創新高
2024-11-21
營收
英偉達財報：2022年Q1英偉達收入82.9億美元同比增長46%
2022-05-27
英偉達財報：2024財年Q4英偉達營收達221億美元同比增長265%
2024-02-22
營收
沒有英偉達CUDA，深度學習的發展將延遲？
2019-03-29
深度學習
英偉達控制皮膚沒有顯示設定英偉達顯示設定不可用
2022-07-01
英偉達與AI晶片的未來之戰
2021-06-22
AI晶片
Arch系linux安裝英偉達顯示卡驅動小問題（nvidia-smi failed）
2024-06-10
LinuxAI
英偉達淨利潤高達50% ARM成史上最大泡沫背後的半導體公司
2024-07-14
英偉達財報：2018年Q1英偉達淨利潤12.44億美元同比增長145%
2018-05-11
英偉達：英偉達2022年Q4營收76.43億美元淨利潤同比增長106%
2022-02-17
營收
英偉達財報：2023財年Q4英偉達營收為60.5億美元同比下滑21%
2023-02-23
營收
今天有什麼好說的呢
2021-03-26
Mellanox能給英偉達帶來什麼？
2019-03-12
英偉達股價突破1100美元市值達2.8萬億美元
2024-05-30
英偉達財報：2023年Q3英偉達營收同比增長206% 淨利潤暴增1259%
2023-11-22
營收
英偉達財報：2022年Q1財季英偉達淨利潤16.18億美元同比增長46%
2022-05-26
英偉達開發者計劃全球副總裁：開發者是最重要的
2018-12-05
暴雪“爽約”英偉達背後：雲遊戲理論成型，現實骨感
2020-02-21
遊戲
對於醫療人工智慧企業算力問題，英偉達打出關鍵一招
2019-01-28
人工智慧

繼良品率低後，英偉達Blackwell又出過熱問題，說好的明年初發貨呢？

相關文章