6美元!DeepSeek極簡法破解推理成本

banq發表於2025-02-06


上週五,一篇新論文(李飛飛團隊出品,簡稱s1論文)在AI圈子裡炸開了鍋,不過這次火的原因不是因為它提出了什麼超牛的模型,而是它讓我們意識到,離AI的真正大突破還有一段距離。

這篇論文談的是在Qwen2.5-32B-Instruct模型基礎上微調的推理擴充套件模型,成本只要6美元(不到人民幣50元),這只是在16個NVIDIA H100 GPU上執行26分鐘的花費。

這個模型雖然比不過目前最頂尖的技術,但它有個超大的優點:能在普通膝上型電腦上跑起來。

更重要的是,這篇論文把AI背後的原理講得明明白白,而且一點都不難懂。它讓我們看到,這些看似高大上的技術,其實並沒有想象中那麼複雜。

推理時間縮放定律
OpenAI 是第一個提出“推理時間縮放定律”的公司。簡單來說,如果大語言模型(LLM)在回答問題之前能“思考”更長時間,它的表現就會更好。但問題是,怎麼讓它思考更長時間呢?

OpenAI 和DeepSeek R1 有一些很酷的圖表,展示了模型的表現如何隨著平均思考時間的變化而變化(這些圖表來自 s1 論文)。

但他們是怎麼控制 LLM 回答的長度的呢?很多人都跳過了這部分細節,但 s1 論文把這一點講得很清楚,特別有意思。

駭客創新:Budget forcing預算強制
當 LLM 在推理時“思考”時,它會把自己的想法放在 XML 標籤 <think> 和 </think> 之間。一旦它跨過結束標籤 </think>,模型就會被訓練成用一種自信和權威的語氣給出最終答案。

在 s1 中,當 LLM 試圖停止思考(即生成 </think>)時,他們會用“Wait”來代替 </think>,強迫模型繼續思考。

然後,模型會開始重新猜測並仔細檢查答案。他們這樣做是為了控制思考時間的長短(縮短思考時間就是突然插入 </think>)。

換句話說:
為了控制最低限度,我們阻止模型生成思考結束的標記,還可以選擇在模型當前的推理過程中加上“Wait”這個詞,來鼓勵模型反思它現在生成的內容。

這方法聽起來有點傻,但很討人喜歡。感覺就像是我會嘗試的那種“駭客”操作。

所以,對於 o3-mini-low 和 o3-mini-high 模型,他們很可能也是這麼做的。

  • 他們可能訓練了 3 個模型,每個模型的平均思考時間都不同(在訓練期間測量)。
  • 最終,訓練過程會把這種行為“硬編碼”到模型的權重中。

在一個開源專案entropix中,他們會檢視 logits(和注意力)的熵和變熵,來改變標記的選擇方式。實際上,他們會用“Wait”這樣的標記來迫使 LLM 重新思考。雖然還有更多細節,但他們還會調整取樣器設定,讓模型變得更有創造力,或者進入一種積極的探索模式,這些都取決於模型的內部狀態。


為什麼只花了 6 美元?
因為他們用的模型很小,而且幾乎沒用多少資料。

在從 56K 個樣本中篩選出最好的 1K 個之後,他們發現這核心的 1K 個樣本就足以讓 32B 模型達到 o1-preview 的效能。增加更多資料並沒有提升表現。

32B 是一個小型模型,我甚至可以在膝上型電腦上執行它。他們用了 16 個 NVIDIA H100 GPU,每次訓練執行 26 分鐘,成本大約是 6 美元。

低成本意味著你可以進行多次實驗,他們也確實這麼做了。正如我們看到的,他們大量使用了一種叫“預算強制”的技術,重新執行整個訓練過程,並對配置做微小的調整,來證明哪些方法有效,哪些無效。

比如,他們怎麼確定用“Wait”而不是“嗯”?他們做了測量!

  • 他們還測量了訓練資料集的屬性,看看哪些樣本提供了最多的訊號:
  • 他們做了大量的預算強制實驗。這就是取得進展的方式。

我們常常認為 OpenAI 或 DeepSeek 只是一群天才,他們大膽猜測,花 1000 萬美元訓練,然後“砰”的一聲,創新就誕生了。

但事實並非如此,即使是最聰明的人也會進行數百次微小的實驗。

像 s1 這樣的創新可以大幅降低成本,這意味著研究人員可以更快地學習和理解這些模型。這直接推動了人工智慧的發展速度。

人們很容易看到像 s1 或 DeepSeek V3 這樣的低成本創新,然後認為 OpenAI 和 Anthropic 的龐大資料中心是在浪費錢。但我不這麼認為,擁有 10,000 臺 H100 意味著你可以比 s1 多做 625 倍的實驗。

蒸餾
需要注意的是,s1 資料集是“提煉”出來的。每個樣本都是另一個模型 Qwen2.5 生成的思維軌跡,提示模型在回答之前先思考。OpenAI 一直指責 DeepSeek 透過從 o1 中提煉資料來建立他們的 V3 模型,這違反了 OpenAI 的服務條款。目前還沒有強有力的公開證據,所以這些指控大多是空穴來風,但 s1 確實讓這些指控顯得更有可信度。

展望未來,幾乎不可能防止資料竊取(未經授權的提取)。1000 個樣本絕對屬於一個人在正常使用範圍內可能做的事情,甚至不需要十個人或一百個人。我懷疑 OpenAI 除了不釋出模型之外,是否有切實可行的方法來防止甚至檢測資料竊取。

需要注意的是,OpenAI 將其 o3 模型釋出為“深度研究”,也就是代理,而不是直接訪問模型 API。這可能是現在的一種趨勢,“代理/智慧體”是一種避免直接釋出模型的方式。

結論
S1 很重要,因為它展示了當前開放領域的人工智慧發展速度。當你考慮到 OpenAI 和 Anthropic 等公司擁有的計算能力時,人工智慧發展的潛在速度簡直令人難以置信。

S1 並不是DeepSeek R1 或OpenAI  o1 的複製品。DeepSeek  R1 和 OpenAI   o1 是純強化學習(RL)的演示,而 S1 表明監督微調(SFT)也有同樣大的潛力。這意味著研究人員有更多途徑可以探索,以推動推理時間擴充套件的發展。

參考:
使用 min-thinking-tokens 引數執行 deepseek-r1 指令碼,將 </think> 替換為隨機延續字串,以延長模型的思路鏈。

  • DeepSeek R1 系列模型在一個塊內輸出它們的思維鏈<think>...</think>。
  • 這段程式碼演示了你可以攔截那個結尾</think>並將其替換為“Wait, but”或“So”或“Hmm”,並誘使模型擴充套件其思維過程,產生更好的解決方案!


 

相關文章