
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com



論文題目:A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models
論文連結:https://arxiv.org/abs/2501.15147
專案主頁:https://lotbench.github.io


精選具有人類高質量創新內容 (HHCR) 的日式冷吐槽遊戲的資料,構建 MLM task,即要求 LLM 每一輪根據圖文資訊,生成 Rt 補全給定文字空缺;
判斷生成的 Rt 和 R (即 HHCR) 是否是異曲同工之妙 (different approach but equally satisfactory outcome, DAESO)。若是,則開始透過輪數計算創造力分數,否則進入第 3 步;
要求待測 LLM 根據測評時歷史互動資訊,提出一個一般疑問句 Qt. 測評系統根據 HHCR,返回 Yes 或者 No;
整理當前輪互動的所有資訊,和系統提供的提示,稱為下一輪的 history prompt,重新進入第 1 步生成創新響應環節。




