ORPO偏好最佳化:效能和DPO一樣好並且更簡單的對齊方法

deephub發表於2024-04-16

現在有許多方法可以使大型語言模型(LLM)與人類偏好保持一致。以人類反饋為基礎的強化學習(RLHF)是最早的方法之一,並促成了ChatGPT的誕生,但RLHF的成本非常高。與RLHF相比,DPO、IPO和KTO的成本明顯更低,因為它們不需要獎勵模型。

雖然DPO和IPO的成本較低,但它們仍需訓練兩個不同的模型。首先是監督微調(SFT)步驟,即訓練模型按指令回答問題,然後使用SFT模型作為初始化和參考,以使模型與人類偏好一致。

ORPO是另一種新的LLM對齊方法,這種方法甚至不需要SFT模型。透過ORPO,LLM可以同時學習回答指令和滿足人類偏好。

在本文中,我將解釋ORPO並介紹其相關的內容,最後將展示如何使用消費級硬體將Mistral 7B轉換為聊天模型。

https://avoid.overfit.cn/post/100de526ac3c4ba2b01f591ba6d0e435

相關文章