實戰|如何低成本訓練一個可以超越 70B Llama2 的模型 Zephyr-7B

HuggingFace發表於2023-10-28

每一週,我們的同事都會向社群的成員們釋出一些關於 Hugging Face 相關的更新,包括我們的產品和平臺更新、社群活動、學習資源和內容更新、開源庫和模型更新等,我們將其稱之為「Hugging News」。快來看看有哪些近期更新吧! ?

新的訓練方法 Zephyr-7B 模型超越 70B Llama2

跟大家介紹一個比較簡單的方法訓練出的一個 7B 的模型,它在 MT Bench 測試中的表現甚至超過了 Llama2 70B 模型。

馬上就試試看?https://huggingfaceh4-zephyr-chat.hf.space/

=== 方法揭秘 ? ===

首先,使用 UltraChat 資料集對 SFT Mistral 7B 模型進行訓練。
然後,使用"直接偏好最佳化" (DPO) 方法,將 SFT 模型調整到 UltraFeedback 資料集上。

=== 細節揭秘 ? ===

對於 SFT 訓練,我們使用了 UltraChat 資料集,它包含了約 1.6M個 由 GPT3.5 生成的對話。我們最初是在所有資料上進行訓練的,但後來發現訓練出來的模型性格有點讓人討厭?。因此,我們篩選出了大約 200K 個更注重有益幫助的例子進行訓練:https://hf.co.co/datasets/stingning/ultrachat

接下來,我們使用了來自 Stanford 研究者們的超棒 DPO 演算法進行了另一輪微調。我們發現, DPO 比 PPO 穩定得多——強烈推薦去看他們的論文,瞭解更多資訊!https://hf.co/papers/2305.18290

在使用 DPO 的過程中,我們選用了 UltraFeedback 資料集,它包含了 64K 個提示和完整的回答,涵蓋了各種開放和封閉訪問模型的範圍。每個回答都由 GPT-4 根據有益性等標準進行了評分,以此來推導 AI 的偏好:https://hf.co/datasets/openbmb/UltraFeedback

在訓練方面,我們在所有實驗中都使用了 ? TRL 和 DeepSpeed ZeRO-3:

總計算成本:$500 或在16 x A100 上執行 8 小時

為了評估,我們使用了 LMSYS 提供的優秀工具 MT Bench。這個多輪的基準測試可以評估聊天機器人在創意寫作、編碼和數學等各個領域的能力。相比其他排行榜,它能提供更準確的關於聊天機器人效能的資訊:https://hf.co/spaces/lmsys/mt-bench

這個教程其實是我們在 Hugging Face 工作的一部分,是 “Alignment Handbook” 手冊的預告,我們在這本手冊中分享了關於 SFT、DPO、PPO 等多種訓練方法的穩健訓練方法。我們計劃不久後釋出初版,你可以在這裡跟蹤專案的進度?:https://github.com/huggingface/alignment-handbook

Hugging Face Hub 0.18.0 現已釋出

0.17.0 釋出的內容已經很多了,現在,0.18.0 也釋出啦!0.18.0 加入了對網站上 Collection 的 API 支援,文件也有了社群支援的韓語和德語的翻譯。更多詳細內容,請檢視此次 release note https://github.com/huggingface/huggingface_hub/releases/tag/v0.18.0

Hugging Face Hub|Follow 功能上線 ?

Hub 剛剛更新了 Follow - 互相關注功能,可以隨時關注你喜歡的 / 仰慕的 / 想一起合作的 / 社群小夥伴啦 ❤️(社群小夥伴 = 業界大牛?)

來試試 ? 然後告訴我們你的使用感受和建議吧 ✨


以上就是本週的 Hugging News,週末愉快!

相關文章