DeepSeek成功背後是寬客精神

banq發表於2025-01-24


DeepSeek之所以能如此迅速地擊敗其他公司,是因為他們都是寬客。背後是量化幻方,專門從事A股量化投資的公司,他們天生就能最佳化了大規模ML的亞納秒延遲。有一個破解的訓練/推理基礎設施意味著你執行實驗,而其他人正在編寫LaTex。

簡單來說:DeepSeek公司能像賽跑冠軍一樣飛快超過其他公司,秘密就是:他們是一群超級數學和電腦高手!就像小朋友從幼兒園就開始練習算數一樣,他們從小就在研究讓電腦"想問題"變得比眨眼睛還要快的方法。他們還發明瞭魔法工具箱,別人還在吭哧吭哧寫作業報告的時候,他們早就用魔法工具做完100個科學實驗啦!

傳說:DeepSeek創始故事是這樣的
有一天,銀行打電話給我們說:“嘿,你們的賬戶已經滿了,錢太多了!”然後我們就在想:“我們現在有這麼多錢,可以用GPU叢集做點什麼呢?”(GPU叢集就是一堆很厲害的電腦,可以處理很多複雜的事情。)
我們想了想,突然有個人說:“不知道啊,也許我們可以訓練一些大型語言模型(LLM),就當是個副業,玩玩看?”
另一個人聽了,笑著說:“對啊,當然可以!反正我們還有兩個小時才吃午飯呢,閒著也是閒著。”
就這樣,DeepSeek的故事開始了!

OpenAI剛剛宣佈o1-mini免費
由於DeepSeek低成本競爭,OpenAI宣佈o1-mini免費。

位元組跳動調整員工福利:
增加洗牙、子女流感疫苗福利。2026年起停發春節紅包,2025年停發放端午、中秋節禮品。不再提供下午茶,茶水間免費供應堅果。


事實上,DeepSeek r1版本最大的輸家是Meta
中國模型勝過Llama美洲駝
中國的AI公司現在有點難。因為外國不讓賣給他們最好的晶片,所以他們很難找到好用的“大腦”來訓練AI模型。而且,錢也不多,不像以前那樣有很多錢可以花在研究、開發和裝置上。但是,DeepSeek這家公司特別厲害,他們用很少的錢做出了比Meta(一家很大的外國公司)更好的AI模型,還把模型免費給大家用。他們讓大家看到,就算錢少、東西少,也能在短時間內做出更棒的AI模型。難怪Meta有點慌了,他們的“美洲駝Llama4”模型現在必須變得更好,不然就會丟臉。中國的公司讓競爭變得更激烈了!

Meta的戰略一直不是追趕OpenAI,而是讓一切都開源,這樣封閉的偉大模型(如GPT4o)的價值就會下降。貶值消耗戰。這似乎適得其反。

DeepSeek R1 也讓 Grok 3 感到很大壓力
如果 Grok 3 的表現只是和 DeepSeek R1 差不多,那 Grok 3 就算是失敗了,因為它用了超級貴的 10 萬個 Nvidia GPU 來訓練。其實,光是在效能上打敗 DeepSeek R1 還不夠,因為 DeepSeek 太便宜了。價格也得有競爭力才行!

沒有限制可能會讓你覺得自由,但其實也會讓你變得懶散,因為你總覺得可以隨便玩,隨便放棄。而有了限制,反而會逼著你去動腦筋,想辦法解決問題,變得更聰明、更有創造力。因為你不能一直玩,也不能一直逃避,你得學會用有限的東西去做出更好的結果。

中國在深度學習(Deepseek)和遊戲開發(Black Myth:Wukong)方面取得快速進步的秘訣在於,他們已經發現,僱傭擁有相關技能的年輕人,勝過僱傭那些擁有令人印象深刻的簡歷但在技術上沒有跟上的嬰兒潮一代。

相關文章