AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
論文:https://arxiv.org/abs/2411.14432 程式碼:https://github.com/dongyh20/Insight-V 模型:https://huggingface.co/THUdyh/Insight-V-Reason
一個用於生成長鏈、高質量推理資料的可擴充套件的資料生成流程。透過利用已有的模型構建資料生成流程,從而提供豐富的,可擴充套件的視覺推理訓練資料。 一個將視覺推理任務分解為推理和總結的多智慧體系統。透過將視覺任務分解為推理和總結,並利用不同的模型來分別解決不同的任務,來提升視覺推理能力。 一個用於增強視覺推理能力的兩階段訓練流程,從而使 Insight-V 能夠在視覺推理評測集上取得優異的效能。