希望 2025 年 AI 領域能帶來推理之外的突破。
論文地址:https://arxiv.org/pdf/2412.14171v1 論文主頁:https://vision-x-nyu.github.io/thinking-in-space.github.io/ 論文標題:Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces
發現 1:空間推理是影響 MLLM 在 VSI-Bench 上的主要瓶頸。 發現 2:語言提示技術雖然在語言推理和一般視覺任務中有效,但對空間推理有害。 發現 3:在記憶空間時,MLLM 會根據給定的影片在模型中形成一系列區域性世界模型,而不是統一的全域性模型。