【LLM訓練】從零訓練一個大模型有哪幾個核心步驟?

青松^_^發表於2024-11-24

【LLM訓練】從零訓練一個大模型有哪幾個核心步驟?

⚠︎ 重要性:★★★


NLP Github 專案:

  • NLP 專案實踐fasterai/nlp-project-practice

    介紹:該倉庫圍繞著 NLP 任務模型的設計、訓練、最佳化、部署和應用,分享大模型演算法工程師的日常工作和實戰經驗

  • AI 藏經閣https://gitee.com/fasterai/ai-e-book

    介紹:該倉庫主要分享了數百本 AI 領域電子書

  • AI 演算法面經fasterai/nlp-interview-handbook#面經

    介紹:該倉庫一網打盡網際網路大廠NLP演算法面經,演算法求職必備神器

  • NLP 劍指Offerhttps://gitee.com/fasterai/nlp-interview-handbook

    介紹:該倉庫彙總了 NLP 演算法工程師高頻面題


從零開始訓練LLM需要如下4個核心步驟:

LLM的構建主要包含四個階段:

  • 預訓練
  • 有監督微調
  • 獎勵建模
  • 強化學習

這四個階段都需要不同規模資料集合以及不同型別的演算法,會產出不同型別的模型,同時所需要的資源也有非常大的差別。

OpenAI 使用的大規模語言模型構建流程:

第 0 步:預訓練基礎大模型

目的:基於海量資料以“文字接龍”的形式構建基礎語言模型。

語言建模和去噪自編碼的輸入輸出對比:

第 1 步:有監督微調(SFT)

目的:人類引導“文字接龍”的方向。利用少量高質量資料集合,包含使用者輸入的提示詞(Prompt)和對應的理想輸出結果。

第 2 步:訓練獎勵模型

目的:為GPT請一個好老師。基於人類反饋訓練的獎勵模型可以很好的人類的偏好。從理論上來說,可以透過強化學習使用人類標註的反饋資料直接對模型進行微調。構建獎勵模型(Reward Model),模擬人類的評估過程可以極大降低人類標註資料的時間和成本。獎勵模型決定了智慧體如何從與環境的互動中學習並最佳化策略,以實現預定的任務目標。

第 3 步:根據獎勵模型進行強化學習

目的:AI 指導 AI,最佳化預訓練模型。

使用獎勵模型強化訓練基礎模型:


MLP 大模型高頻面題彙總

NLP基礎篇

  • 【NLP 面試寶典 之 模型分類】 必須要會的高頻面題
  • 【NLP 面試寶典 之 神經網路】 必須要會的高頻面題
  • 【NLP 面試寶典 之 主動學習】 必須要會的高頻面題
  • 【NLP 面試寶典 之 超引數最佳化】 必須要會的高頻面題
  • 【NLP 面試寶典 之 正則化】 必須要會的高頻面題
  • 【NLP 面試寶典 之 過擬合】 必須要會的高頻面題
  • 【NLP 面試寶典 之 Dropout】 必須要會的高頻面題
  • 【NLP 面試寶典 之 EarlyStopping】 必須要會的高頻面題
  • 【NLP 面試寶典 之 標籤平滑】 必須要會的高頻面題
  • 【NLP 面試寶典 之 Warm up 】 必須要會的高頻面題
  • 【NLP 面試寶典 之 置信學習】 必須要會的高頻面題
  • 【NLP 面試寶典 之 偽標籤】 必須要會的高頻面題
  • 【NLP 面試寶典 之 類別不均衡問題】 必須要會的高頻面題
  • 【NLP 面試寶典 之 交叉驗證】 必須要會的高頻面題
  • 【NLP 面試寶典 之 詞嵌入】 必須要會的高頻面題
  • 【NLP 面試寶典 之 One-Hot】 必須要會的高頻面題
  • ......

BERT 模型面

  • 【NLP 面試寶典 之 BERT模型】 必須要會的高頻面題
  • 【NLP 面試寶典 之 BERT變體】 必須要會的高頻面題
  • 【NLP 面試寶典 之 BERT應用】 必須要會的高頻面題
  • ......

LLMs 微調面

  • 【NLP 面試寶典 之 LoRA微調】 必須要會的高頻面題
  • 【NLP 面試寶典 之 Prompt】 必須要會的高頻面題
  • 【NLP 面試寶典 之 提示學習微調】 必須要會的高頻面題
  • 【NLP 面試寶典 之 PEFT微調】 必須要會的高頻面題
  • 【NLP 面試寶典 之 Chain-of-Thought微調】 必須要會的高頻面題
  • ......

本文由mdnice多平臺釋出

相關文章