圖靈獎得主Geoffrey Hinton最新研究NASA：一種更好地學習三維模型動作的方法

NASA: Neural Articulated Shape Approximation

論文作者：

Timothy Jeruzalski, Boyang Deng, Mohammad Norouzi, JP Lewis, Geoffrey Hinton, Andrea Tagliasacchi（Google Research）

論文連結：

https://static.aminer.cn/misc/pdf/1912.03207.pdf

圖靈獎得主Geoffrey Hinton最新研究NASA：一種更好地學習三維模型動作的方法

前言

本文對《NASA: Neural Articulated Shape Approximation》進行解讀，這篇文章提出了利用神經網路對有關節、可變形的三維模型進行估計的方法，與傳統方法相比，NASA具有複雜度低、模型水密性好、解析度高、模型估計效果好等優勢。

簡介

隨著深度學習在計算機視覺以及圖形學領域起到了越來越重要的作用，越來越多的方法基於神經網路模型建立了對三維幾何模型的表達。然而，這些工作主要基於普通的不可變形的三維模型，對具有關節結構的可變形的三維模型的研究依然很少。但由於具有關節結構的三維模型包含了人體模型，廣泛應用於遊戲、電影、虛擬現實以及擴增實境等領域，因此對於這類模型的研究便十分重要。

在本文中，作者提出了一種新的方法用於訓練解碼器D來估計有關節的三維模型，解碼器生成的三維模型透過指示函式（indicator function）來表示，這一指示函式以三維模型的姿態作為引數，輸入為三維空間中的點x，當該點位於三維模型內時，輸出為1；位於三維模型外時，輸出為0。與其他方法不同的是，NASA專注於透過姿態引數來估計三維模型的指示函式，這些姿態引數描述了三維模型是如何變形的。

這篇論文的貢獻在於：

提出了一種透過神經網路估計有關節可變形的三維模型的方法；
透過明確地在網路中表示模型的變形結構，利用更少的模型引數實現了與之前方法相比相似的效能和更好的泛化能力；
指示函式這一表示方式支援交集和碰撞查詢，無需再將其轉換為其他的三維模型表示方式；
模型結果與之前的方法相比能夠更好地學習三維人體模型的動作。

圖靈獎得主Geoffrey Hinton最新研究NASA：一種更好地學習三維模型動作的方法

圖1：NASA模型生成效果（來源【7】）

實驗結果

模型效果在2D以及3D資料集上分別進行了測試，模型的表現透過預測結果與ground-truth之間的交併比來評測。

1.二維資料

二維資料集包含了100組動作，在這一資料集幾何形狀的生成透過兩種方式：①對於剛性資料集，包含了一組形狀的集合，每個形狀對應了模型的每個骨架，在整個模型的姿態發生變化的過程中，每個單獨的形狀不會發生變化。②對於混合資料集，則透過LBS演算法得到變形的形狀。對二維資料集的實驗結果如下圖所示：

圖靈獎得主Geoffrey Hinton最新研究NASA：一種更好地學習三維模型動作的方法

圖3：二維資料估計效果（來源：【7】）

圖靈獎得主Geoffrey Hinton最新研究NASA：一種更好地學習三維模型動作的方法

圖4：分片剛體模型R估計效果（來源：【7】）

圖靈獎得主Geoffrey Hinton最新研究NASA：一種更好地學習三維模型動作的方法

圖5：分片可變形模型D估計效果（來源：【7】）

可以看到，對於訓練集，三種方法都擬合出了較為不錯的效果，對於結構化的兩種方法，由於“D”並沒有限制每一個part不能改變形狀，因此“D”相較於“R”在LBS資料集上具有更好的效果。但是，“U”與“D”都有過擬合的現象產生，只有“R”在測試集上依然表現出了不錯的效果。

圖靈獎得主Geoffrey Hinton最新研究NASA：一種更好地學習三維模型動作的方法

圖6：在測試集上的效果（來源：【7】）

2.三維資料

對於三維模型的測試在AMASS資料集【6】上實現，實驗結果如下所示，與二維資料的結果類似：

圖靈獎得主Geoffrey Hinton最新研究NASA：一種更好地學習三維模型動作的方法

圖7：在三維資料集上的效果（來源：【7】）

總結

本文提出了一種新的思路，利用深度學習的方法，透過模型的姿態引數來估計有關節可變形的三維模型，並比較了結構化模型（R, D）相較於非結構化模型（U）具有更高的效率以及更好的泛化能力。這一方法的提出對錶示覆雜的有關節模型例如人體具有重要意義。

未來方向：

“R”相較於“D”在實驗中展示出了更好的泛化能力，但“D”在一些場景下依然具有較高的利用價值，是否可以將這兩種模型進行結合；
對於可變形模型來說，是否可以學習到模型的；
是否可以用符號距離函式來代替當前的指示函式；
NASA是否可用於differentiable rendering；
可變形的三維模型的運動的表示方式是否可以只透過二維資訊來獲取。

參考文獻：

【1】Alec Jacobson, Zhigang Deng, Ladislav Kavan, and J.P.Lewis. Skinning: Real-time shape deformation. In ACMSIGGRAPH Courses, 2014.

【2】J. P. Lewis, Matt Cordner, and Nickson Fong. Pose spacedeformation: A unified approach to shape interpolation andskeleton-driven deformation. In Proceedings of the 27^thAnnual Conference on Computer Graphics and InteractiveTechniques, SIGGRAPH ’00, pages 165–172, New York,NY, USA, 2000. ACM Press/Addison-Wesley PublishingCo.

【3】Dominik Lorenz, Leonard Bereska, Timo Milbich, andBjÃ˝urn Ommer. Unsupervised part-based disentangling ofobject shape and appearance. arXiv:1903.06946, 2019.

【4】Lin Gao, Jie Yang, Tong Wu, Yu-Jie Yuan, Hongbo Fu, YuKun Lai, and Hao Zhang. Sdm-net: deep generative networkfor structured deformable mesh. ACM TOG, 2019.

【5】Jeong Joon Park, Peter Florence, Julian Straub, RichardNewcombe, and Steven Lovegrove. DeepSDF: Learningcontinuous signed distance functions for shape representation. CVPR, 2019.

【6】Naureen Mahmood, Nima Ghorbani, Nikolaus F Troje, Gerard Pons-Moll, and Michael J Black. Amass: Archive ofmotion capture as surface shapes. ICCV, 2019.

【7】Jeruzalski, T., Deng, B., Norouzi, M., Lewis, J. P., Hinton, G., & Tagliasacchi, A. (2019). NASA: Neural Articulated Shape Approximation. arXiv preprint arXiv:1912.03207.

相關工作

實驗結果

總結

參考文獻：

相關文章