7GB視訊記憶體小模型也能“頓悟”!DeepSeek又顯神

banq發表於2025-02-07


極簡推理革命,7GB視訊記憶體小模型也能“頓悟”;15G視訊記憶體,任何小模型秒變推理模型。

今天,我們很高興在 Unsloth 里加入“推理”這個新功能!DeepSeek 的 R1 研究發現了一個“頓悟時刻”——R1-Zero 透過一種叫“組相對策略最佳化(GRPO)”的方法,自己學會了分配更多的思考時間,而不需要人來給反饋。

我們最佳化了整個 GRPO 過程,讓它的視訊記憶體(VRAM)佔用比 Hugging Face + FA2 少 80%。

這意味著你現在可以在自己的電腦上重現DeepSeek R1的那個“啊哈!”的瞬間

Qwen2.5(1.5B)這個模型,只需要7GB的視訊記憶體(VRAM)就能做到。

這個改進是透過GRPO技術實現的,我們把整個流程最佳化了,讓視訊記憶體使用減少了80%。

你可以在Colab筆記本上試試Llama 3.1 8B這個模型!

  • 之前,Tiny-Zero例子已經證明了,你可以用Qwen2.5(1.5B)來實現自己的“頓悟”時刻——但以前這至少需要4塊A100顯示卡(總共160GB視訊記憶體)。
  • 現在,有了Unsloth,你只需要一塊7GB視訊記憶體的顯示卡就能做到同樣的事情。

以前GRPO只能和FFT一起用,但現在我們讓它也能和QLoRA、LoRA這些技術相容了。

如果你有15GB的視訊記憶體,你可以把Phi-4(14B)、Llama 3.1(8B)、Mistral(12B)或者任何引數不超過15B的模型轉換成推理模型。

要點:

  • 最低要求:只要 7GB VRAM 就能在本地訓練你自己的推理模型。
  • 有 15GB VRAM?那你可以把最高 15B 引數的模型(比如 Llama 3.1(8B)、Phi-4(14B)、Mistral(7B)或 Qwen2.5(7B))變成推理模型。
  • 以前,GRPO 只能用來“完全微調”模型,但現在它也支援 QLoRA 和 LoRA 了!

注意:這不是微調 DeepSeek 的 R1 蒸餾模型,也不是用 Unsloth 現有的 R1 蒸餾資料做調整。而是用 GRPO 把普通模型訓練成真正的“推理”模型。

什麼是GRPO:
GRPO(組相對策略最佳化,Group Relative Policy Optimization)是一種讓 AI 更聰明的訓練方法,它可以讓 AI 自己學會更好地思考,而不需要人手把手教。

舉個例子:假設你在學數學,有一道難題,你可以選擇 花更多時間思考,或者 隨便寫個答案。如果你認真思考,最後解出來了,你會發現 “哦!原來這樣解才對!” 這就是一個頓悟時刻。

以前訓練 AI 時,通常是人告訴它“這樣做對,那樣做錯”,就像老師直接給答案。而 GRPO 讓 AI 自己分配思考時間,當它發現“認真想更有用”時,就會自動學會多花時間思考,而不是隨便猜答案。這樣 AI 變得更聰明,推理能力更強!

GRPO 可以讓 AI 自己分配思考時間,也可人為插入Wait在<think></think>之間,讓模型多思考一會兒,見 李飛飛的s1論文

專業解釋:
GRPO 是一種強化學習(RL)演算法,它不用“價值函式”也能最佳化 AI 的回答方式,這跟傳統的 PPO(近端策略最佳化)不一樣,PPO 需要依賴價值函式來判斷好壞。

在我們的實驗中,我們用 GRPO 來訓練 AI,讓它自己學會檢查和改進自己的答案,最終實現一個小小的“頓悟時刻”。

GRPO 的工作原理

  1. AI 先生成多個不同的回答。
  2. 每個回答都會被打分,評分標準可以是正確性,或者某些設定的獎勵規則(但不會用 LLM 評分)。
  3. 計算所有回答的平均分。
  4. 對比每個回答和平均分的差距。
  5. AI 會被訓練成更傾向於得分高的回答。

舉個例子
假設我們要訓練 AI 解數學題:

  • 問題:1+1 = ?
  • AI 回答:先計算 1+1,得到答案是 2。
  • 問題:2+2 = ?
  • AI 回答:先計算 2+2,得到答案是 4。

以前,我們需要收集大量資料,告訴 AI “計算過程要怎麼寫”,但 GRPO(DeepSeek 用的演算法)和其他強化學習方法,可以讓 AI 自己學會推理過程,並自動形成思考步驟。

不過,我們需要設定合理的獎勵規則或驗證機制,比如:

  • 答案正確,加 1 分。
  • 有單詞拼寫錯誤,扣 0.1 分。
  • 步驟清晰,加 0.5 分。

就這樣,我們可以給 AI 設定很多不同的評分標準,讓它自己學會怎麼最佳化答案!

GRPO 可以用來做什麼?

  • ✅ 你想訓練一個帶“獎勵系統”的定製模型(比如法律、醫學領域)?GRPO 能幫你搞定!
  • ✅ 你有輸入和輸出資料(比如問題和答案),但中間的思考過程不清楚?GRPO 可以自動幫你生成推理過程!
  • ✅ 還有更多可能性等你來探索!

Unsloth 中的 GRPO
如果你在本地使用 GRPO 和 Unsloth,請先執行命令:

pip install diffusers

因為它是必須安裝的依賴庫。

訓練注意事項

  • 訓練至少 300 步 後,獎勵分數才會真正開始上升。
  • 請使用 最新版本的 vLLM,保證相容性。
  • Colab 示例 只訓練了 1 個小時,所以效果比標準訓練差。要得到更好的結果,建議訓練 至少 12 個小時。不過,這不是硬性要求,你可以隨時停止訓練。

模型要求
  • 建議使用引數不少於 1.5B(15 億)的模型,這樣 AI 才能正確地生成思考過程。較小的模型可能達不到這個效果。
  • 如果你用的是 基礎模型,請確保它有一個聊天模板,這樣 GRPO 訓練才會正常工作。

另外,GRPO 的訓練損失監控 現在已經內建在 Unsloth 裡了,不需要再用 wandb 這些外部工具
 

相關文章