Meta陷入恐慌？內部爆料：在瘋狂分析複製DeepSeek，高預算難以解釋

机器之心發表於2025-01-24

「工程師正在瘋狂地分析 DeepSeek，試圖從中複製任何可能的東西。」

DeepSeek 開源大模型的陽謀，切切實實震撼著美國 AI 公司。

最先陷入恐慌的，似乎是同樣推崇開源的 Meta。

最近，有 Meta 員工在美國匿名職場社群 teamblind 上面釋出了一個帖子。帖子提到，國內 AI 創業公司 DeepSeek 最近的一系列動作讓 Meta 的生成式 AI 團隊陷入了恐慌，因為在前者的低成本高歌猛進下，後者無法解釋自己的超高預算的合理性。

原文如下：

這一切始於 DeepSeek-V3，它在基準測試中就已經讓 Llama 4 落後。更糟糕的是那個「擁有 550 萬訓練預算的不知名中國公司」。

工程師們正在瘋狂地分析 DeepSeek，試圖從中複製任何可能的東西。這一點都不誇張。

管理層擔心如何證明龐大的生成式 AI 組織的成本是合理的。當生成式 AI 組織中的每個「領導」的薪資都比訓練整個 DeepSeek-V3 的成本還要高，而我們有好幾十個這樣的「領導」時，他們要如何面對高層？

DeepSeek-R1 讓情況變得更加可怕。雖然我不能透露機密資訊，但這些很快就會公開。

這本應該是一個以工程為重點的小型組織，但是因為很多人想要參與進來分一杯羹，人為地膨脹了組織的招聘規模，結果每個人都成了輸家。

原貼連結：https://www.teamblind.com/post/Meta-genai-org-in-panic-mode-KccnF41n

帖子中提到的 DeepSeek-V3 和 DeepSeek-R1 分別釋出於 2024 年 12 月 26 日和 2025 年 1 月 20 日。

其中，DeepSeek-V3 在釋出時提到，該模型在多項評測成績超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他開源模型，並在效能上和世界頂尖的閉源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。

不過，更引人關注的是，這個引數量高達 671B 的大型語言模型訓練成本僅 558 萬美元。具體來說，它的預訓練過程竟然只用了 266.4 萬 H800 GPU Hours，再加上上下文擴充套件與後訓練的訓練，總共也只有 278.8 H800 GPU Hours。相較之下，Meta 的 Llama 3 系列模型的計算預算則多達 3930 萬 H100 GPU Hours—— 如此計算量足可訓練 DeepSeek-V3 至少 15 次。

而最近釋出的 DeepSeek-R1 效能更猛 —— 在數學、程式碼、自然語言推理等任務上，它的效能比肩 OpenAI o1 正式版。而且模型在釋出的同時，權重同步開源。很多人驚呼，原來 DeepSeek 才是真正的 OpenAI。UC Berkeley 教授 Alex Dimakis 則認為， DeepSeek 現在已經處於領先位置，美國公司可能需要迎頭趕上了。

看到這裡，我們不難理解為何 Meta 的團隊會陷入恐慌。如果今年推出的 Llama 4 沒有點硬本事，他們「開源之光」的地位岌岌可危。

有人指出，其實該慌的不止 Meta，OpenAI、谷歌、Anthropic 又何嘗沒有受到挑戰。「這是一件好事，我們可以實時看到公開競爭對創新的影響。」

還有人擔心起了英偉達的股價，表示「如果 DeeSeek 的創新是真的，那 AI 公司是否真的需要那麼多顯示卡？」

不過，也有人質疑，DeepSeek 究竟是靠創新還是靠蒸餾 OpenAI 的模型取勝？有人回覆說，這可以從他們的釋出的技術報告中找到答案。

目前，我們還無法確定帖子的真實性。

不知道 Meta 後續將如何回應，即將到來的 Llama 4 又會達到怎樣的效能。

為什麼量子計算如此難以解釋？ - quantamagazine
2021-06-18
AWS瘋狂投入資料庫難道僅為幹掉Oracle？
2018-05-07
資料庫Oracle
瘋狂的沙王
2018-03-20
瘋狂學習——DP！
2024-04-12
瘋狂ajax講義
2020-10-20
小丑路人瘋狂吧
2019-05-11
90%的頭部休閒遊戲瘋狂買量，廣告變現eCPM高達400元
2019-09-12
遊戲
大廠加持，瘋狂的“自走棋”緣何難逃變現困局
2020-04-15
Android逆向之旅--瘋狂兔子無敵跑跑內購破解教程
2018-05-28
Android
騰訊“瘋狂”開源！
2020-01-22
京東正在瘋狂招人。。。
2024-09-11
《什麼是高爾夫？》：萬物皆可高爾夫的瘋狂遊戲
2019-11-29
遊戲
MySQL內部開發人員如何看待MySQL組複製？
2018-10-12
MySql
百行以內實現複雜數學表示式計算
2020-05-12
win10 1909瘋狂讀硬碟怎麼解決_win10電腦硬碟瘋狂讀寫修復方法
2020-05-21
Win10硬碟
《蛋仔派對》：各大主播的技能秀，瘋狂亂鬥徹底瘋狂
2023-05-02
93-臭蟲也瘋狂
2020-04-04
瘋狂刪除tomcat日誌
2024-07-18
Tomcat
“瘋狂”的數字孿生
2022-09-09
熱門獨立遊戲開發者談為何成功難以複製
2021-10-19
遊戲開發
軟體已經寄了，但是車載測試在瘋狂吃肉？
2024-04-09
《絕地求生》任務系統上線玩家瘋狂吐槽：任務太難
2018-06-27
瘋狂複習半個月，全棧系統化的學習路線
2021-09-15
全棧
MySQL 主從複製原理不再難
2020-10-22
MySql
使用事件溯源、Kafka和OGG從Oracle內部複製資料
2019-09-11
事件KafkaOracle
【Luogu1616】瘋狂的採藥
2018-04-30
瘋狂的遊戲代言人！
2020-03-11
遊戲
數字馬力正在瘋狂招人。。
2024-10-28
特斯拉人，瘋狂買車配RZC
2022-03-11
瘋狂的 Vue3 之 Setup
2021-04-22
Vue
Ivan Zanotti 與他瘋狂的作品
2021-03-01
《仙劍1》的成功為什麼難以複製？從體驗本身談體驗
2019-06-14
高階複製錯誤ORA-23474解決方法
2019-05-09
解讀IBM超級計算機在預測分析領域的前景YE
2022-03-21
IBM計算機
2024-4-11 瘋狂星期四
2024-04-15
AI正在瘋狂尋找Know-How
2019-01-30
AI
瘋狂Java講義第3版PDF
2019-03-12
Java
不知道為啥他們複製我在 Laravel 社群裡釋出的東西到處複製貼上【難道是抖音風？天天覆制貼上】
2019-12-30
Laravel
計算機概念——零複製
2024-11-25
計算機

Meta陷入恐慌？內部爆料：在瘋狂分析複製DeepSeek，高預算難以解釋

相關文章