AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
論文標題:Token Preference Optimization with Self-Calibrated Visual-Anchored Rewards for Hallucination Mitigation 作者單位:阿里巴巴淘天集團 & MBZUAI 論文連結:https://arxiv.org/pdf/2412.14487
缺少高效和可擴充套件的 token-level 的獎勵訊號:如圖 1 所示,現有的多模態偏好對齊方法要麼使用 sequence-level 的獎勵,要麼需要透過細粒度標註獲得 token- level 的監督訊號。因此,設計一個高效且可擴充套件的 token-level 的監督訊號非常重要。 在訓練的過程中忽略了視覺錨定的 tokens(visual-anchored tokens)對所有 token 分配相同的獎勵是低效的,依賴視覺資訊生成的 tokens 更容易產生幻覺並需要重點對待(如圖 2 中的 glass)。
自動識別偏好資料中的視覺錨定 token,無需人工細粒度標註。 在每個訓練步自動地分配 token-level 的獎勵,該獎勵可以反映當前 token 對圖片資訊的依賴程度。
基礎模型:LLaVA-1.5(7B)/(13B)。 資料:RLHF-V(5k)。 Benchmark:幻覺評測集 AMBER、MMHal、HallusionBench,通用評測集 SeedBench、MMBench、LLaVA-Bench 及 MM-Vet。
TPO 在 LLaVA-1.5(7B)/(13B)模型上均帶來非常顯著的幻覺緩解效果,在大部分幻覺指標上超越了現有的偏好對齊幻覺緩解方法。 在 HallusionBench 中,easy 代表基於原圖問答,hard 代表基於人工編輯的反事實圖片問答。我們的方相較於初始模型在 hard 問題上取得了更顯著的提高,說明在 TPO 後,答案生成更依賴於視覺資訊而非語言模型先驗知識。
影像加噪的 steps 數量:如圖 5 顯示,加噪步數設定為 500 最優。 獎勵自校準中的 a: a=0.5 最優,即當 s=0 時,c=1 時,不分配獎勵訊號。
獎勵分配方式:只為正樣本或負樣本單獨引入 TPO 的獎勵,也可取得較優的對齊效果,但同時分配獲得最優表現。調換正負樣本中 token 獲取的獎勵和其視覺錨定程度的相關性,TPO 表現變差。
Attention 分析:圖 7 展示了在 TPO 訓練前後,模型回覆中每個 token 對影像 token 的 attention 分數加和的分佈。可以看到,TPO 訓練可以拉高模型回覆對影像資訊的關聯程度,錨定更多影像資訊,進而緩解幻覺問題。
獎勵自校準分析:圖 8 展示了正負樣本的監督訊號 c 隨訓練 step 的變換,證明了 TPO 在不斷自我校準獎勵的過程中,讓模型逐漸關注到更多的影像資訊。