自有歪果仁為DeepSeek「辯經」:揭穿圍繞DeepSeek的謠言
机器之心發表於2025-02-05
面對 DeepSeek R1 這個似乎「一夜之間」出現的先進大模型,全世界已經陷入了沒日沒夜的大討論。從它的模型能力是否真的先進,到是不是真的只用了 550W 進行訓練,再到神秘的研究團隊,每個角度都是話題。雖然 R1 是開源的,圍繞 DeepSeek 的各種誇張猜測還是層出不窮,有人說訓練 R1 實際上使用的算力遠超論文所說的,有人質疑 R1 的技術創新,甚至還有人說 DeepSeek 實際的目標是做空……近日,知名生成式 AI 創業公司 Stability AI 的前研究主管 Tanishq Abraham 終於坐不住了,他撰文揭穿了圍繞 DeepSeek 的一系列謬論。行文直接了當,讓人很快就可以瞭解實際情況。讓我們看看海外一線 AI 研究者是怎麼說的。今年 1 月 20 日,DeepSeek 開源的強推理模型 R1 震撼了世人,與其他所有開源大語言模型(LLM)相比,該模型的不同之處在於以下幾點:- 效能實際上與 OpenAI 的 o1 一樣好,這是一個先進的模型,標誌著開源首次真正趕上閉源;
- 與其他先進模型相比,R1 是在相對較低的訓練預算下完成的;
- 易於使用的使用者介面,加上其網站和應用程式中具有可見思路鏈的良好使用者體驗,吸引了數百萬新使用者。
鑑於 DeepSeek(深度求索)是一家中國公司,美國及其一眾科技公司紛紛指責新模型存在各種「國家安全問題」。因此,有關該模型的錯誤資訊氾濫成災。這篇博文的目的是反駁自 DeepSeek 釋出以來許多與人工智慧相關的極其糟糕的評論,並以一名工作在生成式人工智慧前沿的 AI 研究人員的身份提供客觀的看法。誤解 1:DeepSeek 是一家突然冒出來的中國公司完全錯誤,到 2025 年 1 月,全球幾乎所有生成式 AI 研究人員都聽說過 DeepSeek。DeepSeek 甚至在 R1 全面釋出前幾個月就已經預告了釋出!傳播這種誤解的人很可能不是從事人工智慧工作的人,如果你不積極參與某個領域,就認為你對這個領域正在發生的事情瞭如指掌,這是荒謬且極其傲慢的。DeepSeek 的第一個開源模型於 2023 年 11 月釋出,它們是最先進的程式碼 LLM(DeepSeek-Coder)。如下圖所示,DeepSeek 在一年的時間裡持續釋出新產品,R1 只是其中的一個:羅馬不是一天建成的,從 AI 創業公司的角度來看 DeepSeek 的進步速度也沒有什麼可疑的。人工智慧領域一切都發展得如此之快,而且他們擁有一支顯然很出色的團隊,一年內取得如此大的進步在我看來是合理的。如果你想知道還有哪些團隊不為公眾所知,但在人工智慧圈卻備受看好,這裡面可以包括 Qwen(阿里巴巴)、YI(零一萬物)、Mistral、Cohere 和 AI2。我要指出的是,它們都沒有像 DeepSeek 那樣持續推出 SOTA 模型,但它們都有潛力釋出一流的模型,正如它們過去所展示的那樣。誤解 2:訓練模型不可能只花費 600 萬美元,DeepSeek 在撒謊這個說法很有意思。有人聲稱 DeepSeek 在撒謊,隱瞞了真實的訓練成本,以此掩蓋他們透過非法途徑獲取了由於出口管制本不該獲得的算力。首先,我們要理解這 600 萬美元的數字從何而來。這個數字最早出現在 DeepSeek-V3 的論文中,該論文比 DeepSeek-R1 的論文早一個月釋出: DeepSeek-V3 的技術報告,釋出於 2024 年 12 月 27 日DeepSeek-V3 是 DeepSeek-R1 的基礎模型,這意味著 DeepSeek-R1 就是在 DeepSeek-V3 的基礎上增加了一些強化學習訓練。從這個角度來說,這個成本確實不夠準確,因為還未計入強化學習訓練的額外成本。不過,強化學習訓練的成本可能也就幾十萬美元。那麼,DeepSeek-V3 論文中提到的這個 550 萬美元是否準確呢?根據 GPU 成本、資料集規模和模型規模的多項分析都得出了類似的估算結果。值得注意的是,雖然 DeepSeek V3/R1 是一個擁有 6710 億引數的模型,但它採用了混合專家系統 (MoE) 架構,這意味著每次函式呼叫 / 前向傳播只會用到約 370 億引數,訓練成本的計算也基於這個數值。DeepSeek 報告的是基於當前市場 GPU 價格的估算成本。英偉達 AI 計算卡的價格並不固定,我們並不知道他們的 2048 塊 H800 GPU 叢集 (不是 H100!) 的實際成本。通常情況下,整體購買 GPU 叢集會比零散購買便宜,所以實際的算力成本可能更低。關鍵在於,這只是最終訓練執行的成本,還有許多小規模的實驗和消融實驗,這也是一筆開銷,但往往不會被計算在訓練成本內。此外,還有研究人員的薪資等其他成本。據 SemiAnalysis 報導,DeepSeek 的研究人員年薪據傳高達 100 萬美元,這與 OpenAI 或 Anthropic 等頂尖 AI 實驗室的高薪資水平相當。在比較不同模型的訓練成本時,人們通常只關注最終訓練執行的成本。但由於不實資訊的傳播,有人開始用這些額外的成本來質疑 DeepSeek 的低成本和運營效率。這種比較是極不公平的。其他 AI 前沿實驗室在消融實驗等各種實驗和研究人員薪資方面的額外支出同樣巨大,但在這些討論中往往不會被提及!誤解 3:價格太便宜了,所有美國 AGI 公司都在浪費錢,這對英偉達來說極為不利這又是一個相當愚蠢的觀點。DeepSeek 在訓練效率上確實比許多其他 LLM 要高得多。不僅如此,可能許多美國的前沿實驗室在計算資源的使用上效率都不高。然而,這並不意味著擁有更多的計算資源是一件壞事。最近,這樣的觀點比較盛行,這種觀點可歸因於他們並不理解擴充套件率(scaling laws),也不理解 AGI 公司 CEO 的思維方式(任何被視為 AI 專家的人都應該理解這些)。最近幾年 AI 領域的 Scaling Laws 已經證明了,只要我們持續向模型中投入更多的計算資源,效能就會不斷提升。當然,隨著時間推移,擴充套件的具體方法和側重點也在變化:最初是模型規模,然後是資料集規模,現在是推理時的計算資源和合成資料。儘管如此,自 2017 年 Transformer 架構問世以來,「更多計算資源 = 更好效能」的總體趨勢似乎一直成立。更高效的模型意味著在給定的計算預算下,你可以榨取更多的效能,但更多的計算資源仍然會帶來更好的結果。更高效的模型意味著你可以用更少的計算資源做更多的事情,但如果有更多的計算資源,你還能做得更多!現在,你可能對擴充套件律有自己的看法。你可能認為即將出現一個瓶頸期,也可能像金融領域常說的那樣,過去的效能並不代表未來的結果。但如果你想要理解最大的 AGI 公司正在做出的舉措,這些看法其實並不重要。所有最大的 AGI 公司都在押注擴充套件律能夠持續足夠長的時間,以便實現 AGI 和 ASI。這是他們堅定的信念。如果他們深信不疑,那麼唯一合理的舉措就是獲取更多的計算資源。你可能會說英偉達的 GPU 很快就會過時,看看 AMD、Cerebras、Graphcore、TPU、Trainium 等等新產品的效能。市面上有數不清的 AI 專用硬體都在與英偉達競爭。未來可能會有一家公司勝出。到那時,AI 公司可能會轉向使用它們的產品。但這都與 DeepSeek 的成功完全無關。(憑心而論,考慮到英偉達目前的市場主導地位和持續創新的能力,我還沒有看到其他公司能夠撼動英偉達在 AI 加速晶片領域霸主地位的有力證據。)總的來說,我認為沒有理由因為 DeepSeek 而不看好英偉達,用 DeepSeek 來論證這一點似乎並不恰當。誤解 4:DeepSeek 沒有任何有意義的創新,只是在抄襲美國公司錯誤。在語言模型的設計及其訓練方式上,DeepSeek 有許多創新之處,其中一些創新比其他更為重要。以下列舉了部分(並非詳盡列表,詳情請參閱 DeepSeek-V3 和 DeepSeek-R1 論文):1. Multi-latent 注意力(MHA)—— 通常情況下,LLM 是基於多頭注意力機制(MHA)的 Transformer 架構。DeepSeek 團隊開發了一種 MHA 機制的變體,這種變體不僅更加節省記憶體,而且效能表現也更為出色。2. GRPO 與可驗證獎勵。自從 o1 釋出以來,AI 社群一直在嘗試復現其效果。由於 OpenAI 對其工作原理保持高度封閉,社群不得不探索各種不同的方法以實現類似 o1 的結果。有許多研究方向,例如蒙特卡洛樹搜尋(Google DeepMind 在圍棋中獲勝所使用的方法),但這些方法最終被證明不如最初預期的那麼有前景。另一方面,DeepSeek 展示了一個非常簡單的強化學習(RL)流程實際上可以實現類似 o1 的結果。更重要的是,他們開發了自己版本的 PPO RL 演算法,稱為 GRPO,這種演算法更高效且效能更優。AI 社群的許多人都在思考,為什麼我們之前沒有嘗試過這種方法呢?3. DualPipe—— 在多 GPU 上訓練 AI 模型時,需要考慮效率問題。你需要確定模型和資料集如何在所有 GPU 之間分配,資料如何在 GPU 之間流動等。還需要儘量減少 GPU 之間的資料傳輸,因為這種傳輸速度很慢,最好儘可能在每個單獨的 GPU 上進行處理。總之,設定這種多 GPU 訓練的方式有很多種,DeepSeek 團隊設計了一種名為 DualPipe 的新方法,這種方法更加高效且速度更快非常幸運的是,DeepSeek 完全開源並詳細記錄了這些創新,這與美國的 AGI 公司不同。現在,每個人都可以利用這些進步來受益並改進自己的 AI 模型訓練。誤解 5:DeepSeek 正在從 ChatGPT 吸取知識OpenAI 曾經聲稱,DeepSeek 透過一種稱為蒸餾的技術從 ChatGPT 中吸取知識。但在這裡,蒸餾一詞的使用顯得有些奇怪。通常情況下,蒸餾指的是基於所有可能的下一個詞(token)的完整機率(logits)進行訓練,但 ChatGPT 甚至沒有公開這些資訊。OpenAI 及其員工聲稱 DeepSeek 使用 ChatGPT 生成的文字對其進行訓練。但他們沒有提供任何證據,如果這是真的,那麼 DeepSeek 顯然違反了 ChatGPT 服務條款。不過我們對這一行為的法律後果尚不清楚。需要注意的是,這僅在 DeepSeek 自己生成用於訓練的資料時才成立。如果 DeepSeek 使用了來自其他來源的資料(目前有許多公開的資料集),這種形式的蒸餾或合成資料訓練並不違反服務條款(TOS)。儘管如此,這並不會減損 DeepSeek 的成就。對於研究人員來說,DeepSeek 更令人印象深刻的不是其效率方面,而是他們對 o1 的復現。此外,有研究者高度懷疑對 ChatGPT 進行蒸餾是否會有幫助,因為 o1 的 CoT(Chain-of-Thought)思維過程從未公開披露,那麼 DeepSeek 是如何能夠學習到它的呢?此外,許多 LLM 確實在 ChatGPT(以及其他 LLM)生成的合成資料上進行訓練,而且在任何新的網際網路上抓取的資料中自然也會包含 AI 生成的文字。總的來說,對於 DeepSeek 的模型表現優異僅僅是因為它蒸餾了 ChatGPT 的這一觀點,確實忽略了 DeepSeek 在工程、效率和架構創新方面的實際成果,這些都在 DeepSeek 的技術報告中有詳細說明。老實說,過去兩個月裡,中美在 AI 領域的競爭態勢並沒有太大變化。反倒是外界的反應相當激烈。中國在 AI 領域一直很有競爭力,但 DeepSeek 的出現讓中國變得不容忽視。關於開源,常見的觀點是:既然中國 AI 比較落後,美國就不該公開分享技術,以免他們迎頭趕上。但顯然,中國已經趕上來了,而且實際上他們早就做到了,甚至在開源領域處於領先地位。因此,封閉我們的技術是否真的能帶來顯著優勢,這一點尚不明確。值得注意的是,像 OpenAI、Anthropic 和 Google DeepMind 這樣的公司,其模型確實比 DeepSeek R1 更強大。例如,OpenAI 的 o3 模型在基準測試中的表現非常出色,而且他們很可能已經在開發下一代模型了。此外,隨著「星門計劃」等大規模投資的推進,以及 OpenAI 即將完成的融資,美國的前沿 AI 實驗室將有足夠的計算資源來保持領先。當然,中國也會在 AI 開發上投入大量資金。總體來看,競爭正在加劇!但我認為,美國的通用人工智慧(AGI)前沿實驗室繼續保持領先的前景依然十分光明。一方面,部分人工智慧從業者(尤其是 OpenAI 員工)正試圖刻意淡化 DeepSeek 的成就;另一方面,某些專家和自封權威人士對 DeepSeek 的反應又顯得過度誇張。需要明確的是:OpenAI、Anthropic、Meta、Google、xAI、英偉達等公司的發展遠未終結;DeepSeek 對其成果的描述(很可能)並無虛假。但必須承認,DeepSeek 值得獲得應有認可,其推出的 R1 模型確實令人印象深刻。https://www.tanishq.ai/blog/posts/deepseek-delusions.html