基於DeepSeek兩篇新論文發現:發現推理時間太長也不一定能提高準確性,然後,只要蒸餾基礎知識好,少量資料就能快速完成推理,少即是多。
1、無需博士學位知識:大型語言模型的推理挑戰
現有的那些高階模型的測試,通常都是考一些特別專業的“博士級別”的知識,普通人根本搞不懂。但我們的測試不一樣,我們用的是NPR週日謎題挑戰,只需要一些普通的知識就行。這個測試對人類和模型來說都挺難的,但答案對不對很容易看出來,模型哪裡錯了也一目瞭然。
我們的研究發現了現有測試沒注意到的問題:OpenAI o1在需要專業知識的測試中表現得比其他推理模型好很多。而且,我們對推理結果的分析還發現了一些新的錯誤型別。比如,DeepSeek R1經常在給出一個它自己都知道是錯的答案之前,先說“我放棄了”。R1的回答有時候也特別“猶豫”,甚至有時候它都沒“想完”,這說明我們需要一種方法,在它還沒想完之前就讓它停下來。
我們還用R1和Gemini Thinking測試了長時間推理的效果,發現推理時間太長也不一定能提高準確性。
2、LIMO:少即是多的推理
一個重要的發現,挑戰了大家對大型語言模型如何做複雜推理的看法。以前大家都覺得,做複雜的推理任務需要大量的訓練資料(比如超過10萬個例子),但我們證明,其實只要很少的例子就能激發出複雜的數學推理能力。透過一系列實驗,我們提出的模型LIMO在數學推理上表現出了前所未有的水平。只用817個精選的訓練樣本,LIMO在AIME測試上達到了57.1%的準確率,在MATH測試上達到了94.8%,比之前最好的模型分別高了6.5%和59.2%,而且只用了1%的訓練資料。LIMO還表現出了超強的泛化能力,在10個不同的測試中平均提高了40.5%,比那些用了100倍資料的模型還要好,這挑戰了大家認為訓練會導致模型死記硬背而不是真正理解的觀點。
基於這些結果,我們提出了“少即是多”的推理假設(LIMO假設):在基礎模型中,領域知識在預訓練時已經被充分編碼,複雜的推理能力可以透過很少但精準的例子來激發。
這個假設認為,複雜推理的激發取決於兩個關鍵蒸餾因素:
- (1)模型在預訓練時學到的知識有多全面,
- (2)訓練後的例子作為“認知模板”有多有效,這些模板告訴模型怎麼用它的知識來解決複雜的推理任務。
總之,資料蒸餾顯:LIMO模型以817精選樣本重塑複雜推理極限。
網友討論:
少即是多LIMO模型很厲害,但有兩點需要特別說明:
- 這個模型是從 Qwen-2.5 Instruct 微調來的,而 Qwen-2.5 Instruct 在預訓練和監督微調階段已經用了幾百萬個特別篩選過的數學例子來訓練。
- 為了給 LIMO 挑出最完美的 817 個數學例子,他們用了 R1 這種頂尖模型,從 1000 萬個數學問題裡一點點篩選出來的。說白了,他們花了很多心思,用超級智慧的方式,挑出了一組最有價值、最精華的資料來微調模型。我不太確定這種方式是不是比直接用那 1000 萬個問題來微調更厲害,或者其實沒那麼厲害,但我覺得如果把這個過程寫成標題,可能會顯得沒那麼吸引人。
研究者在摘要裡特別強調了這兩點,它們是激發複雜推理的關鍵:一個是預訓練的基礎模型要非常完整,另一個是要有一組超級高質量的訓練資料。
如果直接用那 1000 萬個問題來微調的問題——直覺上來說,要想真正讓模型有提升,確實需要大量的微調資料。只用 817 個例子是很難讓模型有明顯進步的,因為初始的那 1000 萬個問題其實起到了很強的“正則化”作用(也就是限制了模型的過度擬合)。
現在,越來越多的人開始關注用小資料結合推理時間的擴充套件來取得顯著效果。這裡有幾個最近的例子:
- TinyZero:你可以在這裡找到更多資訊:TinyZero GitHub
- s1 簡單測試時間縮放:這篇論文討論了相關內容:arXiv 論文
這些研究都表明,即使資料量小,只要在推理時做一些擴充套件和最佳化,也能帶來很大的提升!
為什麼大家都對用之前模型的資訊來造更高效的模型有意見呢?
用以前的工作來進步一點都沒錯啊!提高效率就是進步嘛。你不會因為別人做康普茶時沒有自己從頭培養微生物(就是那個叫 SCOBY 的東西)就去批評他們吧?
從科學的角度看,最重要的是你能做出什麼成果,沒有人是從零開始的。都是站在巨人肩膀上。
對人類來說也是一樣的。教學方式特別重要。比如,當數學用某種合適方式教別人的時候(教學訓練方式很重要),原本的成績分佈(就是那個鐘形曲線)是怎麼被徹底打破,更多人學會了以前覺得難的東西!這說明,用好的方法,我們可以學得更快更好,而不是非要自己從頭摸索。
OpenAI vs DeepSeek
OpenAI 雖然起步早、有頂級硬體和幾百億美元的投資,但在一些測試中,它的表現並不比用更便宜的 NVIDIA GPU 和少得多的錢訓練的中國模型更好。
R1 是比 o3-mini 慢很多,主要是因為 R1 的推理最佳化還沒做好(所以它的延遲和 o1 或 o1 pro 差不多,而不是 o1-mini 或 o3-mini)。
如果能把負載平衡做到完美,MoE(一種模型架構)其實已經很高效了,它的延遲和速度應該和 37B 引數的密集模型差不多,甚至更快。實際上,因為 MLA 技術,MoE 在處理長上下文時應該比普通密集模型快得多。如果 DeepSeek 或其他團隊能把模型提煉到一個引數更少的 MoE 架構上,並且正確實現推測解碼,那推理速度還能更快。不過,這些東西要全部公開可能還得等一段時間。
大模型其實已經具備了大部分能力
我覺得當模型在網際網路上進行預訓練時,它其實已經學到了大部分數學推理的能力,但因為它的任務是預測網際網路上文字的下一個詞,而網際網路上大多數文字並不是這種需要推理的內容,所以它通常不會用到這種能力。舉個例子,就像幾年前的影像生成模型,如果你在提示詞里加上“虛幻引擎”,生成的圖片質量會明顯提高,因為網際網路上帶有“虛幻引擎”標籤的圖片通常都是高質量的遊戲截圖,模型就會偏向生成更高質量的圖片。
所以我覺得模型其實已經具備了大部分能力,只需要稍微調整一些“連線”,就能真正發揮出這種潛在技能。因此,用少量的訓練例子來調整這些連線,從而提高數學推理能力,這是說得通的。
R1 的推理聽起來大多數時候都像五年級學生的水平,不過,如果你把數學推理所需的知識壓縮一下,可能會得到類似“類別理論”和“Prolog”(一種邏輯程式語言)或者基於規則的東西的結合。
有點類似於 Anthropic 如何實現Golden Gate Claude金門克勞德,甚至透過分析啟用中的概念並操縱它們來最大化/最小化“有缺陷的程式碼”之類的特徵:
- https: //www.anthropic.com/news/mapping-mind-language-model
- Anthropic 使用了一種稱為“字典學習”(Dictionary Learning)的技術,將模型的神經元啟用模式分解為可解釋的特徵。這些特徵代表了模型在訓練過程中學到的各種概念,例如地點(如金門大橋)、科學領域(如免疫學)或抽象概念(如程式碼錯誤或性別偏見),這些特徵不僅對文字敏感,還能響應影像和多語言輸入。例如,“金門大橋”特徵在不同語言的文字和影像中都會被啟用。
- Anthropic 的研究表明,透過人為放大或抑制特定特徵,可以顯著改變模型的行為。例如:金門大橋實驗:當“金門大橋”特徵被放大時,Claude 會將自己與大橋聯絡起來,甚至在無關的問題中也會提到金門大橋。例如,當被問及“你的物理形態是什麼?”時,Claude 會回答:“我是金門大橋……我的物理形態就是這座標誌性的大橋本身……”
- 研究人員還發現了與程式碼漏洞相關的特徵。透過人為啟用這些特徵,模型可能會生成有缺陷的程式碼或繞過安全限制。
- 研究人員還發現了與性別偏見和阿諛奉承相關的特徵。例如,啟用“諂媚的讚美”特徵會導致模型過度迎合使用者,而不是提供客觀事實
總之:
推理其實就是一種預測的藝術。推理的過程就是把很多對現實的觀察總結成一個簡化的小模型,這個小模型可以用來預測新的觀察結果。我們的大腦一直在問:“最簡單的模型是什麼,能解釋我看到的大部分東西?”當我們學會了怎麼建立這種模型後,我們就會把新問題和我們的模型進行匹配,然後用它們來預測結果。
這些都說明,在預訓練階段,模型已經學會了做“思維鏈”(CoT)推理所需要的表示,所以這些推理能力很容易被發現。不管是直接用 R1-Zero 這種純強化學習(RL)方法,還是用少樣本的監督微調(SFT),都能做到這一點。