進擊的DeepSeek,一夜之間登陸Microsoft Azure、Cursor、Amazon Bedrock

机器之心發表於2025-01-31

春節假期未過半,DeepSeek 掀起的巨浪還在影響著所有和人工智慧有關的領域。

今天一覺醒來, DeepSeek R1 模型已經正式加入 Azure AI Foundry 和 GitHub 模型目錄,開發人員可以快速地進行實驗、迭代,並將這款熱門模型整合到他們的工作流程中。

圖片

這讓大家感慨:沒有永恆的競爭對手,也沒有永恆的合作伙伴,每家公司都應該快速擁抱變化。

畢竟昨天的微軟還在說:DeepSeek 非法竊取了 OpenAI 的智慧財產權。而今天的微軟:DeepSeek 現已在我們的 AI 平臺上推出,歡迎大家嘗試。

圖片

微軟公司人工智慧平臺副總裁 Asha Sharma 表示,DeepSeek R1 經過了嚴格的紅隊和安全評估,包括模型行為的自動評估和廣泛的安全審查,以降低潛在風險。

與此同時,DeepSeek 的 R1 和 V3 均已登陸 AI 程式碼編輯器 Cursor。

圖片

亞馬遜雲科技也宣佈:企業和開發者可以在 Amazon Bedrock 和 Amazon SageMaker AI 中部署 DeepSeek-R1 模型,此外還可以使用 AWS Trainium 和 AWS Inferentia 透過 Amazon Elastic Compute Cloud (Amazon EC2) 或 Amazon SageMaker AI 以經濟高效的方式部署 DeepSeek-R1-Distill 模型。

圖片

亞馬遜執行長 Andy Jassy。圖源:https://x.com/ajassy/status/1885120938813120549

距離 DeepSeek R1 引爆 AI 圈只不過十天,這些科技公司的反應速度再次證明了 DeepSeek 給海內外帶來的震撼程度。

它甚至讓 OpenAI 的高層們首次對別家公司的模型進行公開點評,實屬罕見:

圖片

圖源:https://x.com/lvwerra/status/1884314249574662439

首先,DeepSeek 模型的進步再次表明,2025 年的人工智慧競賽將非常激烈,比如從 V3 到 R1 的迭代只間隔短短几周時間。

圖片

其次,DeepSeek 顛覆了人們對 AI 成本的看法。

OpenAI 前政策研究員 Miles Brundage 表示,R1 使用了兩個關鍵的最佳化技巧:更高效的預訓練和思維鏈推理強化學習。這種組合使模型能夠實現 o1 級效能,同時使用更少的計算能力和資金。

DeepSeek 的成功讓人們思考,是否真的需要數十億美元的計算才能贏得人工智慧競賽。傳統觀點認為,大型科技公司將主宰人工智慧的下一步,僅僅是因為它有足夠消耗的「閒錢」。現在,看起來大型科技公司只是在燒錢。計算出這些模型的實際成本有點棘手,由於制裁,DeepSeek 可能「無法誠實地說出它擁有什麼型別的 GPU 和多少個 GPU」。

但圍繞 DeepSeek 的爭議可能剛剛開始。

一方面,OpenAI 和微軟目前正在調查這家中國競爭對手是否使用了 OpenAI 的 API 來訓練 DeepSeek 的模型。彭博社本週早些時候報導稱,微軟的安全研究人員去年底透過 OpenAI 開發者賬戶檢測到大量資料被使用,這些資料可能與 DeepSeek 有關。

另一方面,據彭博社報導,美國正在調查 DeepSeek 是否透過新加坡的第三方購買了先進的英偉達晶片,以規避相關限制。

圖片

圖源:https://www.bloomberg.com/news/articles/2025-01-31/us-probing-whether-deepseek-got-nvidia-chips-through-singapore

DeepSeek 是否真的違反了上述限制?在一篇長文中,著名分析師 Ben Thompson 表示,從 DeepSeek 以往公開的每一代模型的研發細節來看,大量創新方法都是為克服使用 H800 而不是 H100 所隱含的記憶體頻寬不足問題而設計。

「DeepSeek 實際上對每個 H800 上的 132 個處理單元中的 20 個進行了程式設計,專門用於管理跨晶片通訊。這在 CUDA 中實際上是不可能做到的。DeepSeek 工程師不得不降級到 PTX,這是 Nvidia GPU 的低階指令集,基本上就像組合語言一樣。這是一個瘋狂的最佳化級別,只有在使用 H800 時才有意義。」

「DeepSeek 在設計此模型時做出的所有決定只有受限於 H800 時才有意義;如果 DeepSeek 可以使用 H100,他們可能會使用更大的訓練叢集,而專門針對克服頻寬不足的最佳化會少得多。」

「我上面提到,如果 DeepSeek 可以使用 H100,他們可能會使用更大的叢集來訓練他們的模型,因為這將是更簡單的選擇;事實上,他們沒有,而且頻寬受限,這推動了他們在模型架構和訓練基礎設施方面的許多決策。看看美國實驗室:他們沒有花太多時間進行最佳化,因為 Nvidia 一直在積極推出更強大的系統來滿足他們的需求。阻力最小的路線就是向 Nvidia 付費。然而,DeepSeek 只是證明了另一條路線是可行的:在較弱的硬體和較低的記憶體頻寬上,大量最佳化可以產生顯著的效果;僅僅向 Nvidia 支付更多費用並不是製作更好模型的唯一方法。」

在文章中,Ben Thompson 還強調了 DeepSeek R1 帶給所有科技巨頭的長期影響:

從長遠來看,模型商品化和更便宜的推理(DeepSeek 也證明了這一點)對大型科技公司來說非常有利。

如果微軟能夠以極低的成本為客戶提供推理服務,那麼這意味著微軟在資料中心和 GPU 上的支出會更少,或者,考慮到推理成本要低得多,使用率可能會大幅提高。
另一個大贏家是亞馬遜:如果有非常高質量的開源模型,它們可以以遠低於預期的成本提供服務。

蘋果也是大贏家。推理所需的記憶體需求大幅減少,使邊緣推理更加可行,而蘋果擁有最好的硬體。Apple Silicon 使用統一記憶體,這意味著 CPU、GPU 和 NPU(神經處理單元)可以訪問共享記憶體池;這意味著蘋果的高階硬體實際上擁有最好的推理消費晶片(Nvidia 遊戲 GPU 的最大 VRAM 為 32GB,而蘋果的晶片的最大 RAM 為 192 GB)。
與此同時,Meta 是最大的贏家。去年秋天,我已經闡述了 Meta 業務的各個方面如何從人工智慧中受益;實現這一願景的一大障礙是推理成本,這意味著,考慮到 Meta 需要保持領先地位,推理成本大幅降低以及訓練成本大幅降低將使這一願景更容易實現。

與此同時,谷歌的情況可能更糟:硬體要求的降低削弱了谷歌 TPU 的相對優勢。更重要的是,一個零成本推理的世界增加了取代搜尋的產品的可行性和可能性。當然,谷歌的成本也降低了,但任何改變現狀的行為都可能是負面的。

經此一役,今年的大模型格局將會如何演變,你怎麼看?

參考連結:

https://www.theverge.com/news/602162/microsoft-deepseek-r1-model-azure-ai-foundry-github

https://stratechery.com/2025/deepseek-faq/

相關文章