結論 論文作者透過多模態和增強效能的三個核心實驗以及引入一種新的生成任務,展示了 M3Act 的優點。在多人跟蹤和群體活動識別實驗中,他們觀察到了隨著更多合成資料的加入,模型對未見測試案例的泛化能力得到了改善。 此外,M3Act 中的合成資料可以替代部分目標領域的真實資料而不影響效能,從而有望減少訓練過程中對大量真實資料的需求,進而降低了資料收集和標註的成本。這一發現證明了小樣本甚至零樣本從模擬資料遷移到現實資料的潛力。 在可控 3D 群體活動生成中,儘管 MDM+IFormer 只是這一任務的基線模型,它仍然學習到了人物運動的互動規則,並在控制下生成對齊良好的群體活動。值得注意的是,儘管生成方法目前表現不及程式化方法,但它展示了直接從各種訊號(活動類別、群組大小、軌跡、密度、速度和文字輸入)控制群體動作的潛力。隨著未來資料可用性增加和生成模型能力的提升,論文作者預計生成方法最終將佔據優勢,在社會互動和人類集體活動方面得到更廣泛應用。 儘管 M3Act 資料集中群體行為的複雜性可能受到資料生成過程中啟發式規則的限制,M3Act 在整合新的群體活動方面提供了顯著的靈活性,從而適應任何特定的下游任務。這些新群體可以來源於專家指導的啟發式規則、大型語言模型生成的規則或可控 3D 群體活動生成模型的輸出。此外,論文作者認識到合成資料與現實世界資料之間存在的領域差異。隨著未來版本中資料生成器中資產的增加,可以提高模型的泛化能力並緩解這些差異。 [1] Yuang Zhang, Tiancai Wang, and Xiangyu Zhang. Motrv2: Bootstrapping end-to-end multi-object tracking by pretrained object detectors. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 22056–22065, 2023.[2] Honglu Zhou, Asim Kadav, Aviv Shamsian, Shijie Geng, Farley Lai, Long Zhao, Ting Liu, Mubbasir Kapadia, and Hans Peter Graf. Composer: Compositional reasoning of group activity in videos with keypoint-only modality. Proceedings of the 17th European Conference on Computer Vision (ECCV 2022), 2022.[3] Kirill Gavrilyuk, Ryan Sanford, Mehrsan Javan, and Cees GM Snoek. Actor-transformers for group activity recognition. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 839–848, 2020.[4] Guy Tevet, Sigal Raab, Brian Gordon, Yonatan Shafir, Daniel Cohen-Or, and Amit H Bermano. Human motion diffusion model. arXiv preprint arXiv:2209.14916, 2022.