AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
論文標題:GRAPE: Generalizing Robot Policy via Preference Alignment
論文連結:https://arxiv.org/abs/2411.19309
專案地址:https://grape-vla.github.io
程式碼地址:https://github.com/aiming-lab/GRAPE
GRAPE 在軌跡層面透過強化學習(RL)目標對 VLA 進行對齊,賦予模型全域性決策能力,而不僅僅是簡單的行為克隆;
GRAPE 隱式建模了成功和失敗嘗試中的獎勵,從而提升對多樣化任務的泛化能力;
GRAPE 採用可擴充套件的偏好合成演算法。GRAPE 透過與任意目標對齊的偏好對軌跡進行排序,進而使得 VLA 模型能被對齊到設定的目標上。