DeepSeek+華為晶片將帶火中國晶片行業

banq發表於2025-01-29

DeepSeek 可能會帶火中國的晶片行業,讓中國晶片進入一個超速發展時期:
DeepSeek V3 從一開始就能在華為的 昇騰 Ascend 晶片上跑推理。華為的 910C 晶片(能匹配英偉達的 H100 )既可以用來訓練,也能用來推理。

英偉達厲害的地方在於它的 CUDA(軟體加生態系統),華為自己維護了一個 PyTorch 的倉庫,只要加一行程式碼,就能把 CUDA 的東西搬到自己的 CANN 上。

開發人員用起來發現:

  • 華為 昇騰  910C 的推理效能大概能達到 H100 的 60%
  • 要是再自己動手寫 CANN 核心最佳化一下,效能還能更高。

將來可能會發生這些事:
現在 AI 模型架構越來越往 Transformer靠攏,CUDAPyTorch編譯器就沒那麼重要了,因為工程師可以在 CANN 裡自己寫核心,把效能調到很高。

DeepSeek 的團隊要是多在華為晶片上下功夫,就能少依賴英偉達,成本也能降下來。畢竟誰也不知道美國啥時候又出啥限制晶片出口的招。

不過訓練這塊還是挺難的,英偉達在這一塊還是很強,因為中國晶片在長期訓練的穩定性上好像還有點問題。

不過,DeepSeek R1蒸餾模型可以在配備華為晶片的華為雲上執行。在華為晶片上只能跑密集蒸餾模型,而不是真正用稀疏的DeepSeek V3或者R1模型。

因為DeepSeek的部署要求很厲害,比如最低推薦的叢集配置:預填充階段要4個節點,每個節點配32個H800 GPU,解碼階段要40個節點,總共320個H800 GPU。

這些GPU在伺服器裡用NVLink連起來,整個叢集的GPU再透過IB(InfiniBand)全互連,這得是很強的網路。

但華為的Ascend 920晶片在網路方面有點弱,所以不確定它能不能高效地跑真正的備用模型。不過也說不定,說不定他們能找到辦法,畢竟Ascend晶片比英偉達H800便宜很多,說不定效率低點也能湊合用。

現在的問題是“中國能不能弄到更多HBM?”
幾個月前的對HBM限制法規,把HBM賣給中國公司的路都給堵死了。要是沒有HBM,想做出效能還不錯的推理晶片,那可太難了。

另外一個問題是良品率:
TikTok 的中國母公司位元組跳動今年訂購了超過 10 萬片 Ascend 910B 晶片,但截至 7 月,收到的訂單不到 3 萬片,速度太慢,無法滿足公司的需求。訊息人士稱,其他向華為訂購晶片的中國科技公司也抱怨了類似的問題。

華為 910C概念股
華為910C概念股主要涉及與華為昇騰910C晶片相關的產業鏈公司,這些公司可能在晶片的生產、封裝、散熱、聯結器、伺服器代工等方面與華為有合作。以下是一些主要的華為910C概念股:

核心供應商

  • 華豐科技:提供高速聯結器,是華為高速背板聯結器的國內主要供應商之一。
  • 創益通:為莫仕提供高速聯結器,莫仕間接供貨華為和英偉達。
  • 意華股份:主營聯結器,面向資料通訊和消費電子領域,是華為的主要供應商之一。
  • 華正新材:供應半導體封裝材料。
  • 興森科技:可能為昇騰910C提供載板。
  • 通富微電已經開始試生產HBM2晶片‌。根據1月26日的訊息,日經新聞報導稱,中國封測巨頭通富微電已經正式宣佈開始試生產高頻寬記憶體(HBM2)晶片‌
  • 其他兩家生產HBM2記憶體的中國廠商,一個是大家非常熟悉的長鑫儲存(CXMT),最近剛剛推出DDR5記憶體,另一個就是武漢新芯(XMC)。

相關文章