AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
論文連結:http://arxiv.org/abs/2408.05479 程式碼連結:https://github.com/Gao-zy26/ReToMe-VA
在自注意力模組將 token 按幀劃分為和兩個集合。然後使用上述合併操作合併 token: