329篇影像、影片生成論文，今年CVPR最火的研究主題是這些

影像與影片合成、3D 視覺、人體行為識別、視覺與語言推理等研究方向論文最多，屬於最熱門的方向，體現當前學界對視覺生成、三維感知、人機互動等方向的高度重視。另外，多模態學習、以人為本的設計和自適應機器人可能構成人形機器人的未來。

一年一度的計算機視覺和模式識別會議（CVPR）一直是 CV 界前沿研究的燈塔。

CVPR 2024 錄用結果顯示，今年共有 2719 篇論文被接收，錄用率 23.6%。

那麼大模型時代，今年的研究主題有哪些變化？

最近，喬治亞理工學院計算機學院（College of Computing, Georgia Institute of Technology）對 CVPR 2024 錄用資料的統計分析，直觀呈現了當前計算機視覺領域的研究熱點分佈情況。

圖表顯示，論文主題涵蓋 36 個主題領域。

從主題分佈來看，論文數量最多的是影像和影片合成與生成（Image and video synthesis and generation）主題，一共 329 篇。

其次是三維視覺（3D from multi-view and sensors），一共 276 篇，依舊延續去年頂會的熱度。

事實上，上面兩個方向也是目前計算機視覺研究的重點。

接下來，人體行為識別（Humans: Face, body, pose, gesture, movement）一共 202 篇。該領域研究在人機互動、機器人、監控等領域有著廣泛應用。

視覺、語言與語言推理（Vision, language, and reasoning）一共有 152 篇。這是一個交叉研究方向，旨在幫助計算機像人一樣理解、關聯視覺和語言資訊，完成推理、問答、決策等高層認知任務。

資料表明，這個領域正受到學界高度關注。

比如，視覺推理，讓機器具備基於視覺的邏輯推理、常識推理能力，對於智慧教育、智慧法庭、輔助決策等高階應用意義重大；

視覺語言導航，可用於室內外機器人導航、頭顯裝置的導航、無人機巡檢；

多模態資訊融合 (Multimodal Fusion）實現全面、準確的場景理解；

視覺語言預訓練模型 (Vision-Language Pretraining)，試圖實現更高層次的語義理解和任務處理能力，為人工智慧技術的發展和應用擴充了新的邊界。

底層視覺（Low-level vision）一共 131 篇。傳統的識別檢測、分割等基礎任務論文數量相對減少，但仍是研究重點。

值得一提的是，一些研究也在探索新型視覺感測器出現後，與之相適應的新視覺資料處理和建模方法。

正如接收論文 “State Space Models for Event Cameras ” 討論的，事件相機等技術的發展表明，機器人感知周圍環境的方式得到了顯著增強。這些創新將有助於機器人、自動駕駛在複雜、動態環境中實現更好的導航和互動。

鑑於上半年人形機器人大熱，我們也看了看機器人 + AI 。

資料顯示，自動駕駛有 87 篇。自動駕駛是機器人領域最熱門的應用方向之一，需要視覺感知、決策規劃、控制等多項 AI 技術的支援。

機器人（Robotics) 主題一共 29 篇，涉及機器人視覺、導航、操縱等研究，視覺感知是機器人實現智慧化的關鍵。

比如，“DifFlow3D：Towards Robust Uncertainty-Aware Scene Flow Estimation with Iterative Diffusion-Based Refinement” 探討了提高 3D 場景理解可靠性的方法，這對於機器人在不可預測環境中的安全操作至關重要。

Embodied vision: Active agents, simulation 一共 27 篇。看來，透過視覺、動作等多模態互動，讓機器人在模擬或真實環境中學習，是一個新興的研究正規化。

正如我們在不少影片中剛看到的，機器人也越來越多地具備同時處理多項任務的能力。

“ManipLLM：Embodied Multimodal Large Language Model for Object-Centric Robotic Manipulation” 等論文也呈現出一種轉變 —— 整合各種資料型別（文字、視覺、感測器資料）、在環境中執行復雜操作和互動的模型。

“Smart Help: Strategic Opponent Modeling for Proactive and Adaptive Robot Assistance in Households” 直接聚焦於家庭服務機器人中的對抗建模問題，旨在實現更加主動、適應性強的機器人助手。

Video: Action and event understanding，一共 78 篇。對於機器人而言，理解影片中的動作、事件語義，對實現智慧人機互動非常關鍵，仍然是一個核心研究主題。

“Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives” 展示了從多個角度理解人類行為的努力（以人為本的互動），增強了機器人學習和適應人類行為的能力。

Vision + graphics 一共 56 篇。3D 重建、渲染等技術在機器人模擬、VR/AR 等方面有重要應用。

Vision applications and systems 一共 44 篇，機器人是視覺技術的主要應用方向之一。

CVPR 2024 對 AI 和機器人技術的關注，凸顯了先進計算模型、感知增強技術以及對人類場景深度理解等方面與機器人系統的逐步整合。這種整合正在為開發更加直覺化、功能更強、適應性更高的機器人鋪平道路。

^{參考連結：https://public.tableau.com/views/CVPR2024/CVPRtrends?%3AshowVizHome=no&continueFlag=6a947f6367e90acd982f7ee49a495fe2}

相關文章