DeepSeek-R1 是 AI 開放模型生態系統向前邁出的一大步,其最新模型在多項指標上與 OpenAI 的 o1 相媲美。他們用更少的資金和計算實現了這一目標,這一事實引起了很多炒作和關注。
如果想了解大模型的入門,參考這個比喻:
- 用比喻解釋大模型訓練學習
下面是DeepSeek基於的論文研究集合:
Transformer 論文
從本質上講,DeepSeek 是建立在 Transformer 神經網路架構之上的。如果你不熟悉 Transformer,我建議你先閱讀 Google、OpenAI、Meta 和 Anthropic 的一些基礎論文。
1、你只需要注意力
這篇論文在 2017 年在機器翻譯的背景下介紹了 Transformer 架構,並開啟了 GPT-2、GPT-3、ChatGPT 以及現在的 DeepSeek 模型的縮放定律趨勢。
2、語言模型是無監督的多工學習者(GPT-2)
這篇論文展示了使用一套今天我們認為很小的模型對更大規模預訓練的推廣。這在當時是一件大事,表明我們不再需要為每個任務訓練專門的模型,但這種“無監督”學習方法可以讓模型“多工”。
連結:https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
還有一篇GPT-3 論文(語言模型是少樣本學習者),介紹了促進 LLM 的想法。這篇論文主要評論了他們如何擴大資料和計算。
3、訓練語言模型以遵循指令(InstructGPT)
InstructGPT 論文展示了 OpenAI 如何從預訓練的 GPT-3 模型轉變為類似 ChatGPT 的模型。他們沒有在這篇論文中明確將其稱為 ChatGPT,但如果你仔細閱讀,就會發現它要麼是 GPT-3.5,要麼是 ChatGPT。這裡的核心見解是收集資料來訓練獎勵模型,並使用強化學習將原始的預訓練模型轉變為遵循指令的有用聊天機器人。
4、Llama-3 模型群
Meta 的 Llama-3 Herd of Models 論文是首個可與 GPT-4 相媲美的大型語言模型。他們釋出了一個 405B 模型和一套較小的模型,以及一份技術報告,揭開了訓練流程內部工作原理的神秘面紗。
5、Transformer 的數學框架
Anthropic 的部落格文章和論文對於理解 Transformer 的內部工作原理非常有用。這篇論文深入探討了 Transformer 的工作原理,從最小的“電路”開始,然後逐步向上。它們很長,非常詳細,但非常值得一讀。
思路推理論文
DeepSeek 的 R1 和 OpenAI 的 o1 都依賴於包含模型內部推理的內部“思維”標記。這種行為可以被提示並訓練到模型中。使用這些額外的標記作為草稿,模型已被證明可以解決多步驟問題並處理更復雜的任務。以下論文很好地說明了思維鏈推理研究在過去幾年中取得了哪些進展。
1、思路鏈提示引發大型語言模型中的推理
本文表明,僅透過提示,模型就可以生成中間推理步驟,然後得出最終答案。提示提高了模型在一系列算術、常識和符號推理任務上的表現。它們的表現超過了(當時)最先進的微調 GPT-3 模型。
2、思想樹:利用大型語言模型進行深思熟慮的問題解決
當語言模型從左到右逐個標記地生成文字時,如果它們犯了一個錯誤,就很難回溯或讓模型糾正路線。在思想樹論文中,他們允許模型考慮多種可能的推理路徑,同時自我評估選擇以確定下一個最佳行動選擇。這是一種更昂貴的技術,因為它需要多次生成和多次驗證,但表明該模型能夠解決三個需要非平凡規劃或搜尋的新任務:24 遊戲、創意寫作和迷你填字遊戲。
3、思維圖譜:利用大型語言模型解決複雜問題
本文以思想鏈和思想樹為基礎,構建了一個任意圖,其中資訊單元(“LLM 思想”)是頂點,邊對應於這些頂點之間的依賴關係。與思想樹相比,這有助於降低計算成本。
4、思想的一切:打破彭羅斯三角定律,實現思想生成
該技術也稱為 XoT,它結合了蒙特卡洛樹搜尋模組並結合了外部領域知識來解決問題。值得注意的是,XoT 只需一次 LLM 呼叫即可產生多個解決方案,展現了其在解決不同領域複雜問題方面的卓越能力。
5、提示報告
這篇論文對不同的“思想”論文以及許多其他提示技巧進行了很好的調查。你可以整理這篇論文中的所有提示和技巧,以建立一些非常有趣的合成資料集,以進一步訓練越來越好的模型......只是說說而已。
專家混合論文
DeepSeek-V3 是他們所謂的“強混合專家 (MoE) 語言”模型,總共有 671B 個引數,每個 token 啟用 37B 個引數。GPT -4 一直被傳言是混合專家。這些架構背後的動機是,一些 token 需要不同程度的理解,透過將模型劃分為許多專家,您可以平衡活動引數的數量和模型理解,甚至可以獲得比完全密集模型更好的效能。
1、GShard:透過條件計算和自動分片擴充套件巨型模型
在一篇早期的 Mixture of Experts 論文中,他們將這項技術稱為“分片”模型權重。他們展示了一個巨型模型可以在 4 天內高效地完成訓練,實現從 100 種語言到英語的翻譯,與現有技術相比,質量要高得多。這有助於擴大模型權重,同時保持模型在計算和準確性方面的效能。
2、Switch Transformers:透過簡單高效的稀疏性擴充套件到萬億引數模型
Switch Transformers 論文訓練了一個他們稱之為具有大量引數的模型。他們簡化了 MoE 中的路由演算法,以提高訓練大型模型的穩定性並改善計算成本。
3、深度學習中的稀疏專家模型回顧
無論從哪一方面來說,MoE 都不是新鮮事物,這篇論文對深度學習模型中在稀疏性領域的嘗試進行了很好的歷史性探索。
4、專家Mixtral
本文簡要介紹了 Mistral 為小型 8x7B MoE 所做的工作。它們的效能達到了 GPT-3.5 級別,並根據 Apache 2.0 許可釋出了模型權重。我喜歡這篇論文的簡潔性和易讀性。
5、升級改造的 MoE 擊敗了密集的 LLM
升級是 Nvidia 團隊的一項有趣技術。我們還邀請了Arxiv Dives上的作者來談論他的工作。這個想法是採用一組預先訓練的密集模型,並將它們組合成專家混合模型。我認為,這裡可以進行很多探索,將開放權重模型組合起來,並將它們升級為更智慧的模型。
強化學習論文
正如Yann LeCunn喜歡說的那樣,這是錦上添花。這就是將經過預先訓練的 LLM 變成具有個性、語氣和實用性的聊天機器人的原因。它還有助於使模型與人類偏好保持一致。本節將主要涉及後訓練 LLM 背景下的 RL,儘管該領域有大量其他研究。
1、RLAIF 與 RLHF:利用 AI 反饋擴充套件人類反饋的強化學習
本文透過從迴圈中移除人類,擴大了為 LLM 提供反饋的資料管道。RLHF(來自人類反饋的 RL)是一種可靠的訊號源,因為反饋是由人類提供的,但收集資料的成本很高。他們表明,可以從充當獎勵模型的 LLM 中獲取訊號。這為其他工作奠定了基礎,包括自我獎勵語言模型,最終是 R1 和 o1。
2、自我獎勵語言模型
該摘要的第一行非常精彩:“我們假設,為了實現超人代理,未來的模型需要超人的反饋,以提供足夠的訓練訊號。”
在本文中,他們展示了不僅可以使用外部獎勵模型,還可以使用相同的 LLM 作為生成器和獎勵模型。這個想法是,如果相同的模型權重學習如何生成文字並理解什麼是好的和壞的輸出,那麼效能就會更好。他們迴圈設定了這個模型,並看到模型在 3 個訓練週期內自我判斷和改進的持續改進。
3、思考LLM:遵循一般指導並進行思維生成
撰寫上述《自我獎勵語言模型》論文的 Meta 團隊在 o1 釋出後帶著類似的流程回來了,這次加入了思維鏈推理。他們在 o1 釋出後很快推出了這項研究,但沒有釋出任何模型,但這是一個與訓練 R1 風格模型非常相似的流程。
4、DPO——直接偏好最佳化
儘管還有許多其他訊號可用於強化學習,例如 DeepSeek 中使用的 PPO 或 GRPO,但本節中還是將 DPO 論文放在了這一部分。在我看來,DPO 是最容易理解的,它將為您提供其他技術的良好起點。
DeepSeek 論文
最後但並非最不重要的是 DeepSeek 論文字身。我想先從非 DeepSeek 論文開始,讓您在深入“深度”端之前有一個基本的瞭解。R1 的成功離不開一系列工作的進展,所以我不會錯過下面的任何一篇論文。
1、DeepSeekLLM:利用 Longertermism 擴充套件開源語言模型
這是他們基礎語言模型的 V1。在這裡,DeepSeek 正在探索縮放定律的極限,並遵循現已確立的預訓練、監督微調和 DPO 模式來獲得最終的聊天模型。
2、DeepSeek-V2:強大、經濟、高效的混合專家語言模型
DeepSeek MoE 仍然使用您最喜歡的 SFT 和 RL 來獲得最終模型。在這裡,DeepSeek 將 V1 擴充套件為專家混合模型,從而提高效能並將訓練成本降低 42%。他們在這裡開始升溫。
3、DeepSeek-V3 技術報告
與 R1 相比,這篇論文的宣傳力度略低,可能是因為它是在 12 月 26 日釋出的,而所有 AI 影響者都在放聖誕假。這個模型的訓練成本令人震驚,僅為 500 萬美元,而其他實驗室報告的為 1 億美元。他們釋出了檢查點,作為對世界其他地區的一份禮物,並取得了與許多其他前沿實驗室相當的表現。
4、DeepSeek-R1:透過強化學習激勵法學碩士的推理能力
我們終於有了 o1 競爭對手,開源,可供所有人免費下載和試用。好吧,如果你想下載 670GB 的模型權重並擁有一組 GPU 來執行它們。幸運的是,他們還提煉了一組較小的模型,甚至可以在現代 Macbook 上本地執行。這些模型是開源和開放模型向前邁出的有希望的一步,也是人們在家中建立合成資料集和執行 SOTA 模型的絕佳起點。
5、DeepSeekMath:在開放語言模型中突破數學推理的極限
在 R1 論文中,他們提到他們在強化學習階段使用了一種演算法 GRPO。GRPO 實際上是在這篇 DeepSeekMath 論文中引入的,他們提高了模型推理數學問題的能力。這篇論文是 DeepSeek 論文集中的一篇精妙 MVP,強烈推薦。
另外一些可能被遺漏的 DeepSeek 論文是:
- DeepSeek-Prover:透過大規模合成資料推進法學碩士 (LLM) 中的定理證明
- DeepSeek-Coder-V2:打破程式碼智慧閉源模型壁壘
- DeepSeekMoE
網友指南:
DeepSeek [1] 使用了 2015 年強化學習提示工程師 [2] 及其 2018 年改進版 [3] 的元素,透過 1991 年的神經網路蒸餾程式 [4 ]:一個蒸餾的思路鏈系統,將 [2] 的 RL 機器和世界模型摺疊成一個網路。
參考文獻(在網上很容易找到):
[1] #DeepSeekR1 (2025):透過強化學習激勵法學碩士中的推理能力。arXiv 2501.12948
[2] J. Schmidhuber (JS, 2015)。關於學習思考:強化學習控制器和迴圈神經世界模型的新組合的演算法資訊理論。arXiv 1210.0118。第 5.3 節描述了強化學習 (RL) 提示工程師,它學會主動和迭代地查詢其模型以進行抽象推理、規劃和決策。
[3] JS (2018)。一個大網路,萬物皆可。arXiv 1802.08864。另請參閱 US11853886B2。本文使用 1991 年的神經網路蒸餾程式 [4],將強化學習器和 [2] 的世界模型(例如基礎模型)合併為一個網路。本質上就是現在所謂的 RL“思想鏈”系統,其中後續改進不斷被蒸餾成一個網路。另請參閱 [5]。
[4] JS (1991)。使用歷史壓縮原理學習複雜的擴充套件序列。神經計算,4 (2):234-242,1992。基於 TR FKI-148-91,TUM,1991。第一個基於深度迴圈神經網路層次結構(具有不同的自組織時間尺度)的深度學習器,透過無監督預訓練(CHatGPT 中的 P)和預測編碼克服了梯度消失問題。此外:將教師網路(分塊器)壓縮或提煉為學生網路(自動化器),不會忘記其舊技能 - 這種方法現在被廣泛使用。另請參閱 [6]。
[5] JS (AI Blog, 2020)。規劃與強化學習與迴圈世界模型和人工智慧好奇心誕生 30 週年(1990 年,引入高維獎勵訊號和 GAN 原理)。包含上述 [2][3] 的摘要。
[6] JS(AI Blog,2021 年)。30 週年:第一個採用無監督預訓練的深度學習(1991 年)[4]。無監督分層預測編碼可找到序列資料的緊湊內部表示,以促進下游學習。層次結構可以提煉 [4] 為單個深度神經網路。1993 年:解決深度 >1000 的問題。