衝刺AGI對決:DeepSeek演算法 vs 英偉達算力

banq發表於2025-02-04

人工智慧發兩個方向:GPU硬體和強化學習演算法,這兩個方向是條條大路通羅馬還是南轅北轍?

首先,讓我們瞭解一下強化學習演算法代表DeepSeek DualPipe 演算法,再談談英偉達的GPU硬體!

1、DeepSeek 的DualPipe 演算法
DeepSeek 的 DualPipe 演算法是一種最佳化技術,主要用於提高 GPU 節點之間的通訊效率和混合專家(MoE)模型的利用率。MoE 模型透過將計算任務分配給多個“專家”(即不同的神經網路)來實現更高效的計算訓練,尤其是在使用數千個 GPU 進行訓練時。雖然這種方法可以顯著提高計算效率,但由於所有引數都需要載入到 GPU 的視訊記憶體(VRAM)中,因此對記憶體的需求仍然很高。

如果有人想打敗英偉達,唯一需要做的就是製造配備128、256、512、1024 GB視訊記憶體的GPU。不需要更快,甚至不需要很棒的工具。我們需要更多視訊記憶體。英偉達似乎不明白這一點,第一個做到的公司將會取代英偉達。

DualPipe 演算法在前向和後向微批次內和跨微批次重疊計算和通訊階段,減少了管道效率低下的問題。

具體來說,排程(把令牌路由到專家)和組合(聚合結果)操作與計算並行處理,並用了定製的 PTX(並行執行緒執行)指令,這意味著他們寫了低階的專用程式碼來和 Nvidia CUDA GPU 互動並最佳化操作。

DualPipe 演算法的核心在於將 token 路由給不同的專家,並透過一種名為 PTX(並行執行緒執行)的程式碼並行處理結果的聚合。這種方法不僅最佳化了硬體利用率,還幫助降低了成本。

DualPipe 演算法有效地減少了訓練過程中的瓶頸,特別是在 MoE 架構中跨節點專家並行性方面。這種最佳化使得 DeepSeek 的叢集在預訓練期間能夠處理 14.8 萬億個 token,而通訊開銷幾乎為零。

除了 DualPipe,DeepSeek 還把每個 token 的最大節點數限制在 4 個,減少了參與通訊的節點數。這減少了流量,確保通訊和計算能有效重疊。

低精度訓練技術
降低計算和通訊需求的一個關鍵因素是用了低精度訓練技術。DeepSeek 用了 FP8 混合精度框架,在不影響數值穩定性的情況下實現了更快的計算速度和更低的記憶體使用量。矩陣乘法等關鍵操作用 FP8 進行,而嵌入和規範化層等敏感元件保留了更高的精度(BF16 或 FP32)以確保準確性。這種方法降低了記憶體需求,同時保持了準確性,相對訓練損失誤差始終低於 0.25%。

MoE 模型優缺點

  • MoE 模型有很多優勢,比如能夠以更低的成本訓練更大的模型,加快預訓練和推理速度,並減少生成第一個 token 的延遲。
  • 然而,MoE 模型也有一些挑戰,比如需要更多的視訊記憶體來同時儲存所有專家,並且在微調模型時可能會遇到困難。


混合精度和多頭潛在注意力降低記憶體使用
DeepSeek 還透過一種名為“多頭潛在注意力”(MLA)的技術進一步降低了記憶體使用率,將記憶體使用量減少了 5% 到 13%。MLA 透過處理長文字序列來減少推理過程中的記憶體需求。正如 ML 工程師 Zain ul Abideen 指出的那樣,“MLA 的效能優於傳統的多頭注意力(MHA),並且顯著減少了鍵值(KV)快取,從而提高了推理效率。”

記憶體是 GPU 中非常昂貴的元件,尤其是像 Hopper 這樣的 GPU,它的 HBM3e 記憶體容量有限,只有 80GB。相比之下,Blackwell GPU 的 HBM3e 記憶體容量高達 192GB,幾乎是 Hopper 的 2.5 倍。因此,減少記憶體使用量是最佳化 Hopper GPU 效能的關鍵。

DeepSeek 的成功還得益於其創新的模型架構方法。他們引入了一種新穎的 MLA 方法,將記憶體使用量降低到傳統 MHA 架構所消耗記憶體的 5%-13%。

2、英偉達硬體的優勢
Nvidia 的 Hopper 系列 GPU 憑藉其 TransformerEngine 在 AI 領域表現出色。兩年前,Hopper 的 Transformer Engine 為 ChatGPT 的成功奠定了基礎,因為它消除了在數學上尋找元素之間模式的需求,從而大大擴充套件了可用資料集的範圍和處理速度。

H100 GPU 還利用 Transformer Engine 實現了混合精度計算,例如 FP8、FP16 或 FP32,具體取決於工作負載的需求。Nvidia 設計了在不同浮點精度之間切換的能力,以減少記憶體使用量。

FP8 使其能夠“同時加速訓練並減少 GPU 記憶體使用”,因為他們驗證了 FP8 可以用於以極低的成本訓練大規模模型。大多數計算密集型的操作都是在 FP8 中進行的,而一些關鍵操作則保留了更高的精度,例如那些對精度要求較高的操作。

雖然低精度訓練經常會受到啟用值、權重和梯度中異常值的限制,並且測試表明 FP8 訓練容易出現不穩定性,但隨著硬體的進步(例如 Hopper 對 FP8 的支援和 Blackwell 對 FP4 的支援),低精度訓練正在成為一種高效的解決方案。

與 Hopper 相比,Blackwell 具有新的 Tensor Core 精度、FP4 精度、更多的流處理器(SM)和 CUDA 核心。Blackwell 整合了 2080 億個電晶體,能夠提供高達 20 petaflops 的 FP4 計算能力,而 H100 的 FP8 計算能力僅為 4 petaflops。B200 GPU 配備了支援 4 位浮點(FP4)的第二代 Transformer Engine,目標是在保持準確性的同時,將記憶體可支援的模型的效能和大小翻倍。

為了簡單重現 DeepSeek 的訓練效率並開發大規模模型,Hopper GPU 是必不可少的,因為它支援 FP8,而 Blackwell 則帶來了 FP4 支援,能夠為萬億引數模型提供實時推理和增強訓練。

3、通向AGI兩條道路:強化學習  vs.  英偉達Blackwell晶片
人工智慧(AI)發展的兩個關鍵方向:硬體(GPU)和演算法(強化學習),這兩個方面是合力還是二選一?

這可能代表未來兩條道路:

  1. 硬體:Blackwell晶片支援的萬億引數模型
  2. 演算法:與強化學習的專家小模型並行。

(1)認為硬體是通往AGI道路的觀點:
Blackwell 和未來幾代 GPU 是 AI 發展的必需品,

  • GPU(比如英偉達的 Blackwell)是 AI 模型訓練和執行的核心硬體。它們提供了強大的計算能力,能夠處理海量資料。
  • AGI(通用人工智慧)是指像人類一樣能夠理解、學習和解決各種複雜問題的 AI。要實現 AGI,我們需要更強大的硬體支援,尤其是能夠處理萬億級引數模型的 GPU。
  • 未來幾代 GPU(比如 Blackwell)會越來越強大,能夠支援更大規模的 AI 模型訓練,這是實現 AGI 的基礎。

這裡思維的預設假設前提是:AGI依靠萬億引數模型的內部湧現而實現,依然將越大越好作為信條,相信大模型內部的上帝顯現。

(2)強化學習可能是實現 AGI 的路徑之一
強化學習是一種讓 AI 透過與環境的互動來學習的方法:比如,AI 透過試錯,獲得獎勵或懲罰,從而調整自己的行為。這是智慧體的核心。

智慧體強調專業深入,而不是如同大模型那麼廣大而神奇。

如果 AI 在一個複雜的環境中不斷嘗試最大化獎勵,它可能會學會一些複雜的能力,比如社交智慧和語言理解。這些能力是 AGI 的重要組成部分。這就是強化學習會發明自己的專家語言,也就是領域語言:AI自創符號語言:DeepSeek內部私語被曝光! 

建立自己的領域專家語言下一步,透過類似DDD領域驅動設計或其他符號推理機制,落實為具體實施步驟,只能一個個代理智慧實現成為可能。

(3)思維陷阱
這些無數個專業的博士級別智慧體如同瑞士軍刀,深入各個專業領域遊刃有餘,如同包丁解牛,需要時才啟動,實現按需提供專家,而不是執行一個龐大的大型計算機系統為全球所有知識服務,這是典型的愚蠢的資料庫中心繫統,這也是Oracle老闆投資5000億建立資料中心的原因,因為打造上帝核心是這些人的預設心理模式,上帝是一個單點風險,尼采像皇帝新裝中的小孩,說了一句上帝死了,主語沒有了,人們突然從燈下黑中醒悟,這才是真正文明覺醒,但是歷史總是在重複,在 AGI/ASi到來的今天,商人們又在玩同樣花樣。

有一種觀點認為:

  • 強化學習通常專注於解決特定任務(比如下棋或玩遊戲),而 AGI 的目標是讓 AI 能夠像人類一樣處理各種任務。
  • 雖然強化學習是邁向 AGI 的重要一步,但它還不夠。AGI 需要 AI 具備更廣泛的能力,比如理解複雜的環境、學習新知識並應用到不同領域。

注意這裡語句:讓 AI 能夠像人類一樣處理各種任務。
其實人類是一個聚合概念,集體概念,沒有一個具體的人會處理各種任務,人有所長,AGI也是如此,AGI必須依靠一個個強化學習專家組成一個集合概念,才能像像“人類”一樣處理各種任務。我們不能把“人類”和“個人”混同在一起,這其實是主語思維導致。幽默:“主語是什麼”是一個重要的哲學課題

關於第二條:“理解複雜的環境、學習新知識並應用到不同領域”
這是也因為主謂賓的造句語言方式影響了我們的思維方式,集合與個體元素不能混同,因為領域有專業區別,領域存在邊界,限制上下文,因此,只要做好每個領域邊界內的事情,你就是專家,無數個你這樣的專家每天透過學習,應用到自己的專業領域,這就是類似人類的分而治之,分工協作。

(4)上帝思維的AGI:

  • 要實現 AGI,AI 模型需要變得更大、更復雜。目前的模型引數規模在千億級別,但 AGI 可能需要萬億甚至十萬億級別的模型。
  • 這種規模的模型需要強大的硬體支援,比如英偉達的 Blackwell 和其他 AI 加速器。這些硬體能夠提供足夠的計算能力和記憶體,來訓練和執行這些巨型模型。

如果這樣的登天塔能夠造成,人類文明早就比現在先進很多等級,問題在於:單點登天塔是不存在的,上帝是不存在的。

總結:
以強化學習為主的AGI或ASI實現道路主要基於大自然分而治之的智慧,人類內部線粒體網路都有這種分工協作應對環境不同而採取的策略,這麼簡單常識為何人們選擇性忽視?卻去追逐大而全的上帝?用全球能源作為祭品供奉這樣的上帝機器?

 

相關文章