實戰｜如何低成本訓練一個可以超越 70B Llama2 的模型 Zephyr-7B

HuggingFace發表於2023-10-28

原文網址 : https://www.cnblogs.com/huggingface/p/17793429.html

模型

每一週，我們的同事都會向社群的成員們釋出一些關於 Hugging Face 相關的更新，包括我們的產品和平臺更新、社群活動、學習資源和內容更新、開源庫和模型更新等，我們將其稱之為「Hugging News」。快來看看有哪些近期更新吧！ ?

新的訓練方法 Zephyr-7B 模型超越 70B Llama2

跟大家介紹一個比較簡單的方法訓練出的一個 7B 的模型，它在 MT Bench 測試中的表現甚至超過了 Llama2 70B 模型。

馬上就試試看？https://huggingfaceh4-zephyr-chat.hf.space/

=== 方法揭秘 ? ===

首先，使用 UltraChat 資料集對 SFT Mistral 7B 模型進行訓練。
然後，使用"直接偏好最佳化" (DPO) 方法，將 SFT 模型調整到 UltraFeedback 資料集上。

=== 細節揭秘 ? ===

對於 SFT 訓練，我們使用了 UltraChat 資料集，它包含了約 1.6M個由 GPT3.5 生成的對話。我們最初是在所有資料上進行訓練的，但後來發現訓練出來的模型性格有點讓人討厭?。因此，我們篩選出了大約 200K 個更注重有益幫助的例子進行訓練：https://hf.co.co/datasets/stingning/ultrachat

接下來，我們使用了來自 Stanford 研究者們的超棒 DPO 演算法進行了另一輪微調。我們發現， DPO 比 PPO 穩定得多——強烈推薦去看他們的論文，瞭解更多資訊！https://hf.co/papers/2305.18290

在使用 DPO 的過程中，我們選用了 UltraFeedback 資料集，它包含了 64K 個提示和完整的回答，涵蓋了各種開放和封閉訪問模型的範圍。每個回答都由 GPT-4 根據有益性等標準進行了評分，以此來推導 AI 的偏好：https://hf.co/datasets/openbmb/UltraFeedback

在訓練方面，我們在所有實驗中都使用了 ? TRL 和 DeepSpeed ZeRO-3：

SFTTrainer https://hf.co/docs/trl/sft_trainer
DPOTrainer: https://hf.co/docs/trl/dpo_trainer

總計算成本：$500 或在16 x A100 上執行 8 小時

為了評估，我們使用了 LMSYS 提供的優秀工具 MT Bench。這個多輪的基準測試可以評估聊天機器人在創意寫作、編碼和數學等各個領域的能力。相比其他排行榜，它能提供更準確的關於聊天機器人效能的資訊：https://hf.co/spaces/lmsys/mt-bench

這個教程其實是我們在 Hugging Face 工作的一部分，是 “Alignment Handbook” 手冊的預告，我們在這本手冊中分享了關於 SFT、DPO、PPO 等多種訓練方法的穩健訓練方法。我們計劃不久後釋出初版，你可以在這裡跟蹤專案的進度?：https://github.com/huggingface/alignment-handbook

Hugging Face Hub 0.18.0 現已釋出

0.17.0 釋出的內容已經很多了，現在，0.18.0 也釋出啦！0.18.0 加入了對網站上 Collection 的 API 支援，文件也有了社群支援的韓語和德語的翻譯。更多詳細內容，請檢視此次 release note https://github.com/huggingface/huggingface_hub/releases/tag/v0.18.0

Hugging Face Hub｜Follow 功能上線 ?

Hub 剛剛更新了 Follow - 互相關注功能，可以隨時關注你喜歡的 / 仰慕的 / 想一起合作的 / 社群小夥伴啦 ❤️（社群小夥伴 = 業界大牛?）

來試試 ? 然後告訴我們你的使用感受和建議吧 ✨

以上就是本週的 Hugging News，週末愉快！

訓練一個目標檢測模型
2023-12-13
模型
怎麼訓練出一個NB的Prophet模型
2020-07-21
模型
【LLM訓練】從零訓練一個大模型有哪幾個核心步驟？
2024-11-24
大模型
「NLP」GPT：第一個引入Transformer的預訓練模型
2019-08-27
GPTORM模型
大模型如何提升訓練效率
2024-07-08
大模型
tensorflow：一個簡單的python訓練儲存模型，java還原模型方法
2018-04-24
Python模型Java
PyTorch 模型訓練實⽤教程（程式碼訓練步驟講解）
2020-09-25
PyTorch模型
如何將keras訓練的模型轉換成tensorflow lite模型
2018-08-21
Keras模型
2019最佳預訓練模型：非暴力美學，1/4算力超越RoBERTa
2019-11-09
模型
NLP生成任務超越BERT、GPT！微軟提出通用預訓練模型MASS
2019-05-10
GPT微軟模型
這才是真・開源模型！公開「後訓練」一切，效能超越Llama 3.1 Instruct
2024-11-23
模型Struct
海南話語音識別模型——模型訓練(一)
2024-11-02
模型
如何評估一個回答的好壞——BERTScore 基於預訓練模型的相似度度量方式
2024-04-16
模型
TensorFlow 呼叫預訓練好的模型—— Python 實現
2018-10-10
模型Python
輕量化模型訓練加速的思考（Pytorch實現）
2020-09-01
模型PyTorch
自訓練 + 預訓練 = 更好的自然語言理解模型
2020-11-13
模型
如何訓練個人的ChatGpt4
2023-04-13
ChatGPT
[原始碼分析] Facebook如何訓練超大模型---(4)
2022-01-24
原始碼大模型
[原始碼分析] Facebook如何訓練超大模型--- (5)
2022-01-26
原始碼大模型
[原始碼分析] Facebook如何訓練超大模型---(1)
2022-01-17
原始碼大模型
[原始碼分析] Facebook如何訓練超大模型 --- (2)
2022-01-19
原始碼大模型
[原始碼分析] Facebook如何訓練超大模型 --- (3)
2022-01-21
原始碼大模型
一文詳解TensorFlow模型遷移及模型訓練實操步驟
2023-02-06
模型
[專案實戰］訓練retinanet(pytorch版）
2019-05-08
NaNPyTorch
知識增強的預訓練語言模型系列之ERNIE：如何為預訓練語言模型注入知識
2021-12-30
模型
中文任務全面超越 BERT：百度正式釋出NLP預訓練模型ERNIE
2019-03-16
模型
實踐 | 如何訓練智慧體Agent玩毀滅戰士ViZDoom？
2019-02-25
智慧體OOM
監控大模型訓練
2024-03-13
大模型
PyTorch預訓練Bert模型
2020-11-17
PyTorch模型
fasttext訓練模型程式碼
2020-12-23
AST模型
MxNet預訓練模型到Pytorch模型的轉換
2018-06-28
模型PyTorch
初創公司如何訓練大型深度學習模型
2021-12-10
深度學習模型
基於 Fluid+JindoCache 加速大模型訓練的實踐
2024-02-28
UI大模型
用 Java 訓練深度學習模型，原來可以這麼簡單！
2020-11-02
Java深度學習模型
00 預訓練語言模型的前世今生（全文 24854 個詞）
2022-07-12
模型
iGear 用了這個小魔法，模型訓練速度提升 300%
2022-01-28
模型
手把手教你從模型訓練到部署（一）
2020-04-06
模型
如何訓練2457億引數量的中文巨量模型“源1.0”
2021-12-03
模型

實戰｜如何低成本訓練一個可以超越 70B Llama2 的模型 Zephyr-7B

新的訓練方法 Zephyr-7B 模型超越 70B Llama2

Hugging Face Hub 0.18.0 現已釋出

Hugging Face Hub｜Follow 功能上線 ?

相關文章