編者按本文是另一篇北京大學陳寶權課題組將在SIGGRAPH 2019宣讀的論文的解讀。
該論文題為《Multi-Robot Collaborative Dense Scene Reconstruction》,由北京大學客座學生董思言、周強與國防科技大學徐凱副教授,以及谷歌和慕尼黑工業大學等單位學者合作,由前沿計算研究中心執行主任陳寶權教授指導完成。
從機器人領域的移動導航、動作規劃和物體抓取等經典問題,到虛擬現實、擴增實境和混合現實等圖形技術,都離不開對真實場景的三維建模。隨著近幾年以微軟Kinect、英特爾RealSense等為代表的消費級RGB-D相機的普及,三維重建領域正經歷著一場“文藝復興”。三維重建涉及計算機圖形學、計算機視覺和機器人等多個領域,旨在採集真實世界中的彩色影像和深度影像,並以此重建出真實場景的三維模型。相比於傳統的鐳射或雷達掃描重建,近幾年RGB-D相機掃描(拍照)的重建演算法(如KinectFusion、VoxelHashing)近幾年取得了巨大進展。
VoxelHashing大規模場景重建目前的三維重建演算法為場景建模帶來了很多便利,但是仍存在很多問題。比如,即使是使用最先進的掃描重建演算法,仍然需要訓練有素的專業掃描人員執行掃描過程,演算法的使用對普通使用者並不友好。這是因為當前實時演算法之所以能做到實時響應,是因為其做了很多假設,例如要求掃描裝置的移動足夠平滑甚至是勻速,要求被掃描物體的表面有明顯的紋理或者幾何特徵。因此,普通使用者掃描過程中,經常會面臨演算法失敗的問題。即使是專業掃描人員,在掃描過程中需要保持合適的移動速度和掃描朝向,這也是枯燥且繁重的工作。主動式掃描和場景分析於是,近年來越來越多使用機器人代替人來做掃描重建的工作問世。從單個物體到室內房間,這些工作使用機器人攜帶掃描裝置,根據重建實時反饋,指導機器人掃描並建模。陳寶權老師帶領的Visual Computing and Learning 課題組近幾年發表了一些使用機器人做主動式掃描和建模的工作。主動式掃描的現有工作在對於單個物體、房間或公寓等場景的掃描都取得了不錯的效果。於是,使用更多機器人進行大規模場景的掃描重建是一個重要的擴充方向。
主動式掃描和物體識別群體智慧是機器人領域的一個重要研究方向。目前已經有一些針對機器人協同合作的研究工作,大部分這些工作研究重點在於機器人之間的座標定位和導航。也有一些工作基於貪心策略、MTSP(多旅行商問題)和區域分割等演算法設計策略指導多個機器人協同工作,雖然取得了一些進展,但是在場景複雜、機器人數量較多情況下其難求解,缺乏靈活性,並沒有達到預期的效果。以室內大規模場景的掃描和重建為目標,我們提出了基於最優質量傳輸理論(Optimal Mass Transport)的多機器人協同探索並重建未知室內場景模型的演算法。最優質量傳輸理論其實大家都不陌生,最經典的例子是土豆的供給和需求問題,假設有若干地區(下圖藍色)供給土豆,若干地區(下圖桔色)需求土豆,不同地區直接運輸土豆的代價不同, 那麼如何找出這樣一個規劃,使得所有需求地區都能得到滿足其需求的土豆數量,且總的運輸代價最低,這就是一個簡單的最優質量傳輸模型。
最優質量傳輸的例子最優質量傳輸理論就是為了研究這類優化問題而提出,其目標是求出兩個分佈(或者說集合)之間的對映關係,使得該對映在給定的度量下代價最低。在機器人掃描重建問題中,我們可以把機器人看作是掃描的供給方,未知環境看作是掃描的需求方,而機器人實際執行掃描任務所需要的代價(如移動距離)作為對映的度量。以此為基礎,我們通過求解最優質量傳輸,就可以得到機器人和掃描任務之間的對映,使掃描代價最低。機器人掃描的最優質量傳輸機器人的空間位置分佈可以直接作為掃描的供給分佈。那麼,如何度量未知環境對掃描的需求分佈呢?首先,所有的未知區域都屬於掃描的需求分佈,它們需要得到機器人的掃描和重建。另外,在掃描過程中,對於已掃描和重建的部分割槽域,我們沿襲最經典的三維重建方法KinectFusion中對掃描重建模型質量的評估方式,如果質量沒有達到目標,那麼我們把這些區域也加入掃描的需求分佈中,這樣我們得到了原始的需求分佈。由於掃描任務受掃描視角的影響,我們進一步推算出能掃描覆蓋需求分佈的最佳掃描視角,這些掃描視角也就是接下來機器人的掃描任務,這些掃描視角的空間分佈也就是最終的需求分佈。分析重建結果推算掃描視角作接下來是對掃描代價度量的研究。如果一個機器人只對映到了需求分佈中的一個掃描任務,我們可以簡單地使用機器人到任務的最優路徑長度作為其掃描代價;如果一個機器人對映到了多個掃描任務,那麼我們使用機器人與這些任務構成的TSP(旅行商問題)路徑長度作為其代價。這樣,我們就把多機器人掃描問題公式化成為了最優質量傳輸模型。在求解優化目標時,TSP的離散性給我們優化問題的求解帶來了困難,於是我們進一步研究目標函式近似求解的方法,最終使用基於聚類思想的方法求解,得到了不錯的效果。隨著掃描的進行,場景會不斷被探索重建,這個過程中最優質量傳輸的求解也會隨之更新,直到完整的場景被高質量地重建出來。隨場景更新而重新計算最優質量傳輸我們的結果我們在模擬器中使用Matterport3D與SUNCG資料集對演算法進行了測試,取得了不錯的效果。
Matterport3D (上圖) 與 SUNCG (下圖) 資料集測試結果同時,我們也在五院的幾個房間使用Turtlebot機器人做了真機實驗。下面是我們重建的結果。五院幾個房間掃描重建結果總結我們提出了一種多個機器人協同掃描的理論和演算法。基於最優質量傳輸理論,使用分而治之的策略,驅動多個機器人高效地探索掃描室內大規模場景,並重建其三維模型。
SIGGRAPH (Special Interest Group on Computer GRAPHics and Interactive Techniques) 是計算機領域規模最大的頂級會議、CCF A類會議,參加人數達2萬餘人,每年收錄百餘篇圖形學相關的優秀論文,是計算機圖形領域集技術、藝術與展覽於一體的盛會。SIGGRAPH 2019將於2019年7月28日-8月1日在美國洛杉磯舉行。
圖文 | 董思言
Visual Computing and Learning