CVPR 2024 | 合成影片資料集裡只有單人資料?M3Act破解人群行為標註難題

机器之心發表於2024-06-03
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

圖片

  • 論文連結:https://arxiv.org/abs/2306.16772
  • 專案連結:https://cjerry1243.github.io/M3Act/
  • 論文標題:M3Act: Learning from Synthetic Human Group Activities

引言

透過視覺資訊識別、理解人群的行為是影片監測、互動機器人、自動駕駛等領域的關鍵技術之一,但獲取大規模的人群行為標註資料成為了相關研究的發展瓶頸。如今,合成資料集正成為一種新興的,用於替代現實世界資料的方法,但已有研究中的合成資料集主要聚焦於人體姿態與形狀的估計。它們往往只提供單個人物的合成動畫影片,而這並不適用於人群的影片識別任務。

圖片

在這篇文章中,作者提出了一個適用於多群組人群行為的合成資料生成框架 M3Act。實驗顯示,該合成資料集可以大大提高下游模型在多人跟蹤和群體活動識別上的效能,並可以在 DanceTrack 任務上替代超過 62.5% 的真實資料,從而在現實應用場景中降低資料標註成本。此外,該合成資料框架還提出一類新的任務:可控 3D 群體活動生成。該任務旨在利用多種輸入(活動類別、群體大小、軌跡、密度、速度和文字輸入)直接控制群體活動生成結果。作者嚴格定義了任務和指標,並提供了有競爭力的基線和結果。

資料生成
基於 Unity 引擎開發,M3Act 涵蓋了多種行為型別的人群資料,提供了高度多樣化和逼真的影片影像,以及全面的資料標記。與其他合成資料集相比,M3Act 提供了更為全面的標記資料,包括 2D 和 3D 標記以及細粒度的個人級別和群組級別標籤,因此使其成為支援多人和多組研究任務的理想合成資料集生成器。

圖片

資料生成器包括 25 個 3D 場景、104 個高動態範圍全景影像、5 種光線設定、2200 個人物模型、384 個動畫(14 個動作類別)和 6 個群體活動型別。資料生成過程如下所示,首先透過隨機化過程確定一個模擬情景內的所有引數,然後根據引數生成帶有背景物件、燈光和攝像機的 3D 場景,以及帶有動畫的人物模型群組。最後從多個視角渲染 RGB 影像並匯出標記結果。

圖片

為確保模擬資料具有高度多樣性,M3Act 為資料生成過程的幾乎所有方面提供隨機化。這包括場景中的群體數量、每個群體中的人數、群體的位置、群體中人的排列、個體的位置、例項化角色的紋理,以及場景、照明條件、相機位置、角色、群體活動、原子動作和動畫片段的選擇。每個群體活動也被構建為一個引數化模組。這些引數包括群體中的個體數量和群體活動內允許的特定原子動作。

最終生成的資料集分為兩個部分。第一部分 「M3ActRGB」 包含了 6000 次單一但多型別群體活動的模擬和 9000 次多群體多型別模擬,總計 600 萬張 RGB 影像和 4800 萬個邊界框(bounding box)。第二部分 「M3Act3D」 僅包含 3D 資料。它由超過 65000 次 150 幀單一多型別群體活動的模擬組成,總時長達 87.6 小時。據作者所知,M3Act3D 的群體大小和互動複雜度顯著高於以前的多人運動資料集,是第一個針對大型群體活動的大規模 3D 資料集。

實驗結果

M3Act 的實際效果透過三個核心實驗展示:多人跟蹤、群體活動識別和可控群體活動生成。

實驗一:多人跟蹤

研究發現,在既有模型 MOTRv2 [1] 的訓練中新增合成資料後,模型在所有 5 個指標上都有顯著提高,特別是在 HOTA 指標上的排名中從第 10 位躍至第 2 位。同時,當訓練集中 62.5% 的真實資料被合成資料替換之後,模型依然可以取得相似的效能。另外,與其他合成資料來源相比,如 BEDLAM 和 GTA-Humans,M3Act 為模型訓練提供了更大的效能進步,表明其更適合多人群體活動任務。最後,下表展示了不同模型在 M3Act 下的訓練結果。結果表明,M3Act 在各種模型中都是有效的。

圖片

實驗二:群體活動識別

類似地,M3Act 也提高了兩個既有群體活動識別模型的效能,如下表所示:隨著用於預訓練的合成資料量的增加,識別準確性不斷提高。使用 100% 的合成資料時,群體活動識別模型 Composer [2] 的準確率在群體級別平均提高了 4.87%,個人級別提高了 7.43%,而另一群體活動識別模型 Actor Transformer [3] 在群體級別上看到了 5.59% 準確率的增加,在個人級別上增加了 5.43%。

圖片

下表展示了使用不同輸入模態在 CAD2 和 Volleyball(VD)上的群體識別準確率。實驗中的效能增益表明,M3Act 的合成資料可以有效地利於下游任務,並橫跨不同模型、輸入模態和資料集。

圖片

實驗三:可控 3D 群體活動生成

圖片

作者提出了一個新型任務:可控 3D 群體活動生成。該任務旨在基於給定的活動類別標籤和任意群體大小,從高斯噪聲中合成一組 3D 人類動作。既有研究儘管可以生成多人動作,但它們限於雙人場景或具有固定人數的群體。因此,作者提出了兩個基線方法。在第一個基線方法中,群體活動透過重複呼叫單人運動擴散模型 MDM [4] 來實現,因此每個個體的生成過程都是獨立的。第二個方法則基於 MDM 增加了一個互動變換器(IFormer)。由於其對人類互動的建模,MDM+IFormer 能夠在一次前向傳播中產生協調的群體活動。

作者從在群體和個體兩個層面考慮以下評估指標:識別準確率、弗雷歇特初始距離(FID)、多樣性和多模性。此外,作者基於社會力模型,在群體層面增補了四個基於位置的指標:碰撞頻率、排斥互動力、接觸排斥力和總排斥力。結果顯示:

  • MDM+IFormer 能夠生成具有良好對齊的角色位置的群體活動。請參見下面的定性圖。
  • 兩個基線方法都能生成與輸入條件匹配的多樣化活動,但 MDM+IFormer 獲得了更好的 FID 分數。
  • MDM+IFormer 中的互動變換器大大降低了生成的群體活動內的碰撞頻率。

圖片

圖片

結論

論文作者透過多模態和增強效能的三個核心實驗以及引入一種新的生成任務,展示了 M3Act 的優點。在多人跟蹤和群體活動識別實驗中,他們觀察到了隨著更多合成資料的加入,模型對未見測試案例的泛化能力得到了改善。

此外,M3Act 中的合成資料可以替代部分目標領域的真實資料而不影響效能,從而有望減少訓練過程中對大量真實資料的需求,進而降低了資料收集和標註的成本。這一發現證明了小樣本甚至零樣本從模擬資料遷移到現實資料的潛力。

在可控 3D 群體活動生成中,儘管 MDM+IFormer 只是這一任務的基線模型,它仍然學習到了人物運動的互動規則,並在控制下生成對齊良好的群體活動。值得注意的是,儘管生成方法目前表現不及程式化方法,但它展示了直接從各種訊號(活動類別、群組大小、軌跡、密度、速度和文字輸入)控制群體動作的潛力。隨著未來資料可用性增加和生成模型能力的提升,論文作者預計生成方法最終將佔據優勢,在社會互動和人類集體活動方面得到更廣泛應用。

儘管 M3Act 資料集中群體行為的複雜性可能受到資料生成過程中啟發式規則的限制,M3Act 在整合新的群體活動方面提供了顯著的靈活性,從而適應任何特定的下游任務。這些新群體可以來源於專家指導的啟發式規則、大型語言模型生成的規則或可控 3D 群體活動生成模型的輸出。此外,論文作者認識到合成資料與現實世界資料之間存在的領域差異。隨著未來版本中資料生成器中資產的增加,可以提高模型的泛化能力並緩解這些差異。

[1] Yuang Zhang, Tiancai Wang, and Xiangyu Zhang. Motrv2: Bootstrapping end-to-end multi-object tracking by pretrained object detectors. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 22056–22065, 2023.
[2] Honglu Zhou, Asim Kadav, Aviv Shamsian, Shijie Geng, Farley Lai, Long Zhao, Ting Liu, Mubbasir Kapadia, and Hans Peter Graf. Composer: Compositional reasoning of group activity in videos with keypoint-only modality. Proceedings of the 17th European Conference on Computer Vision (ECCV 2022), 2022.
[3] Kirill Gavrilyuk, Ryan Sanford, Mehrsan Javan, and Cees GM Snoek. Actor-transformers for group activity recognition. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 839–848, 2020.
[4] Guy Tevet, Sigal Raab, Brian Gordon, Yonatan Shafir, Daniel Cohen-Or, and Amit H Bermano. Human motion diffusion model. arXiv preprint arXiv:2209.14916, 2022.

相關文章