成本打下來了,需求更多才對?
春節這幾天,國內外 AI 圈都被 DeepSeek 刷了屏。英偉達的股市震盪更是讓全世界看得目瞪口呆(參見《英偉達市值蒸發近 6000 億美元,而 DeepSeek 剛剛又開源新模型》)。
簡單來說,DeepSeek 最近釋出的兩個模型 —— DeepSeek-V3 和 DeepSeek-R1 以很低的成本獲得了比肩 OpenAI 同類模型的效能。這引發了市場對 AI 硬體需求的擔憂,投資者擔心未來對英偉達高階晶片的需求可能會減少。
與此同時,關於 DeepSeek 技術創新的討論也非常多。很多人認為,DeepSeek 在硬體受限的條件下被逼走出了一條不同於 OpenAI 等狂堆算力的道路,用一系列技術創新來減少模型對算力的需求,同時獲得效能提升。
這些成就得到了包括 Sam Altman 在內的 AI 領軍人物的肯定。
隨後,OpenAI 首席研究官 Mark Chen 也發了帖。他表示,DeepSeek 確實獨立發現了一些 OpenAI o1 也在用的核心理念,不過,這並不代表 OpenAI 在算力上的高投入是不合理的。
帖子原文如下:
恭喜 Deepseek 開發出了 o1 級別的推理模型!他們的研究論文表明,他們獨立發現了一些我們在通往 o1 的路上發現的核心理念。
不過,我認為外界的反應有些過度誇大,特別是在成本方面的說法。擁有兩個正規化(預訓練和推理)意味著我們可以在兩個維度而不是一個維度(低成本)上最佳化某項能力。
但這也意味著我們有兩個可以擴充套件的維度,我們打算在這兩個維度上都積極投入算力!
隨著蒸餾研究的日益成熟,我們也發現降低成本和提升能力愈發解耦。能夠以更低成本(特別是在更高延遲的情況下)提供服務,並不意味著就能產生更好的能力。
我們將繼續提升以更低成本提供模型服務的能力,但我們對我們的研究路線圖保持樂觀,並將繼續專注於執行它。我們很高興能在本季度和今年為大家帶來更好的模型!
短短几段話,Mark Chen 表達了好幾層觀點,我們讓 DeepSeek-R1 來解讀一下每段話的言外之意:
總之,和 Sam Altman 一樣,Mark Chen 的發言也是在重塑外界對 OpenAI 的信心,並預告今年會帶來更好的模型。
此外,OpenAI研究科學家Noam Brown也在努力弱化外界對OpenAI和DeepSeek的對比,但大家似乎並不買單。
另外,Mark Chen 提到的「外界的反應有些過度誇大,特別是在成本方面的說法」這一點最近也被很多人討論,尤其是「DeepSeek-v3 訓練成本僅為 558 萬美元」這一說法。其實,DeepSeek-v3 的技術報告原文是這麼寫的:「上述成本僅包括 DeepSeek-V3 的正式訓練,不包括與架構、演算法、資料相關的前期研究、消融實驗的成本」。
圖靈獎得主、Meta AI 首席科學家 Yann LeCun 也認為市場對於 DeepSeek 的成本反應並不合理。不過,他是從推理的角度來看的。他指出,人們常常以為鉅額投資主要用於訓練更強大的模型,但實際上大部分錢都花在了讓這些 AI 服務能夠穩定地服務數十億使用者身上。而且隨著 AI 能力的增強,維持服務執行的成本會變得更高,關鍵是要看使用者是否願意為這些增強的功能付費。
不少網友對 LeCun 的看法表示贊同,認為訓練、推理成本更低的 AI 意味著這項技術能更快普及,從而創造更大的市場。
從這個角度來看,DeepSeek 在降低推理成本方面的努力似乎比降低訓練成本的貢獻更值得被關注。
針對可能即將到來的推理需求的激增,OpenAI、Meta 等都在做相應準備,比如旨在為 OpenAI 建設強大基礎設施的「星際之門」專案(計劃投資 5000 億美元,但資金是否到位一直存疑)、Meta 新一年 600 億美元的 AI 投資……
看來,2025 年,AI 市場的競爭依然激烈,DeepSeek 將在新一年走出多遠還有待觀察。