www.MotionGen.cn
一句話生成複雜3D動作,效果驚豔!測試期可申請免費試用。
3D內容製作領域,生成逼真的角色動作生成是一個持續挑戰,傳統方法依賴大量的手K製作,或昂貴動作捕捉裝置,效率低、成本高、難以生成一般運動任務或適應複雜場景和互動。
元象XVERSE推出國內首個基於物理的3D動作生成模型MotionGen,創新性融合大模型、物理模擬和強化學習等前沿演算法,讓使用者輸入簡單文字指令,就能快速生成逼真、流暢、複雜的3D動作,效果驚豔,標誌著中國3D AIGC領域的重大突破。
現在起,零經驗創作者也能輕鬆上手,創造高質量動畫,為動畫、遊戲、電影和虛擬現實行業帶來了極高創作自由度。
作為國內領先的AI+3D公司,元象研發了多款創新AIGC工具,包括廣東首批獲國家備案的元象大模型、圖文多模態大模型、基於3DGS革命性技術的3D場景生成工具、讓“虛擬世界活起來”的3D動作自動生成演算法等。元象的目標是持續提升認知智慧(AI)和感知智慧(3D),加快邁向通用人工智慧(AGI),讓每個人能自由地“定義你的世界”。
3D動作生成效果
MotionGen技術實現
3D動作生成的傳統方法存在諸多挑戰:運動控制器(motion controller)方法,設定引數後能生成簡單動作,但無法生成複雜動作;時空最佳化(spacetime optimization)方法,透過最佳化每幀位置和姿態,能生成流暢複雜的動作,但需精心設計目標函式和手動調參,工作量大,動作也無法複用到變化的環境或任務中;運動學(kinematic)方法,能生成高質量的單個動作,但處理不好重力和慣性等物理約束,連續動作會不夠真實;基於物理的運動控制方法,對角色的每個關鍵施加力和力矩,讓動作符合物理規律,但無法直接用在傳統的生成模型中。
MotionGen工具基於元象自主研發的MotionGenGPT演算法,將物理模擬、模仿學習、強化學習、向量量化變分自編碼器、Transformer模型等多種複雜演算法進行創新性融合,無需人工設定或調整引數,可直接生成逼真流暢的複雜3D動作,並可應用到任意角色的骨架驅動。
強化學習+物理模擬:讓動作自然逼真
使用動捕資料進行動作生成模型的訓練是目前業界普遍採用的方法。但原始動捕資料通常會帶有抖動和誤差等問題,使其不夠自然和符合物理規律。我們結合深度強化學習,透過在模擬環境中模仿人類動捕資料的模仿學習[1,2,3,4]可以生成更自然的動作。由於使用動捕資料,該方法無需設計特定的目標函式,而是利用統一的模仿誤差作為最佳化目標。透過在訓練過程中引入擾動和改變目標,訓練出的控制器可以適應目標motion的變化,呈現自然的過渡動作。
VQ-VAE:提取特徵並複用
基於基於向量量化變分自編碼器(VQ-VAE)[5]。近幾項研究表明,VQ-VAE提供了一個有效且緊湊的動作表徵,許多運動學中的動作生成模型[6,7,8]已經證明了VQ-VAE這種離散但緊湊的隱空間表示適用於在大型資料集上訓練,並可應用到各種下游任務中。受此啟發,我們將VQ-VAE訓練得來的動作表徵和GPT結合起來,實現基於物理模擬的文字生成動作。
Transformer:文字與動作的高效連線
在文字生成動作的任務中,Transformer 結構發揮了關鍵作用。受序列模型近兩年發展的啟發,我們透過 Transformer 的注意力機制[9],在文字與動作表徵之間建立了複雜而精準的聯絡。透過雙 Transformer 設計,模型不僅生成了基礎動作編碼,還進一步細化了這些編碼,捕捉到運動的微妙細節。這種多層次編碼方式使生成的動作既符合物理規律,又展現出自然的流動性和多樣性,極大提升了文字驅動動作生成的表現力。該設計使 MotionGenGPT 能夠從文字中生成多樣且高度逼真的運動序列,實現了自然語言與運動控制的無縫連線。
MotionGenGPT演算法分為兩大框架:
第一部分是學習物理正確的動作表徵(motion embeddings)。研發團隊基於物理模擬的運動控制,採用殘差向量量化變分自編碼器(Residual VQ-VAE)結合強化學習,從大量非結構化的人類運動資料集中學習動作表徵(motion embeddings)。透過引入離散動作表徵,有效捕獲多樣化的運動技能,為後續文字編碼器的接入提供了穩健的先驗分佈介面。
第二部分是對於生成模型的應用,演算法框架用自注意力機制(Self-attention mechanism)訓練了兩個 Transformer 模型。第一個模型是掩碼 Transformer(Masked Transformer),負責從文字編碼推理出基層(base layer)動作編碼。第二個模型是殘差 Transformer(Residual Transformer),基於基層動作編碼生成更精細的殘差向量化動作編碼。
這一設計提升了生成動作的細節表現力和與文字指令的匹配度,為文字生成動作任務提供了支援。
引用
1. Levi Fussell, Kevin Bergamin, and Daniel Holden. 2021. SuperTrack: Motion Tracking for Physically Simulated Characters Using Supervised Learning. ACM Transactions on Graphics 40, 6 (Dec. 2021), 197:1–197:13.
2. Libin Liu, Michiel Van De Panne, and Kangkang Yin. 2016. Guided Learning of Control Graphs for Physics-Based Characters. ACM ransactions on Graphics 35, 3 (May 2016), 29:1–29:14.
3. Xue Bin Peng, Pieter Abbeel, Sergey Levine, and Michiel van de Panne. 2018. DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills. ACM Transactions on Graphics 37, 4 (July 2018), 143:1–143:14.
4. TingwuWang, Yunrong Guo, Maria Shugrina, and Sanja Fidler. 2020. UniCon: Universal Neural Controller For Physics-based Character Motion. CoRR abs/2011.15119 (2020). arXiv:2011.15119.
5. Aaron van den Oord, Oriol Vinyals, and Koray Kavukcuoglu. 2017. Neural Discrete Representation Learning. In Proceedings of the 31st International Conference on Neural Information Processing Systems (Long Beach, California, USA) (NIPS’17). Curran Associates Inc., Red Hook, NY, USA, 6309–6318.
6. Heyuan Yao, Zhenhua Song, Yuyang Zhou, Tenglong Ao, Baoquan Chen, Libin Liu. MoConVQ: Unified Physics-Based Motion Control via Scalable Discrete Representations. arXiv preprint arXiv:2310.10198, 2023.
7. Chuan Guo, Yuxuan Mu, Muhammad Gohar Javed, Sen Wang, and Li Cheng. MoMask: Generative Masked Modeling of 3D Human Motions. arXiv preprint arXiv:2312.00063, 2023.
8. Qingxu Zhu, He Zhang, Mengting Lan, and Lei Han. 2023. Neural Categorical Priors for Physics-Based Character Control. ACM Trans. Graph. 42, 6, Article 178 (December 2023), 16 pages.
9. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Advances in Neural Information Processing Systems (NeurIPS), 2017. 2, 4, 6.