CVPR 2021 | 華南理工等推出基於3D點雲資料的功能可供性資料集

機器之心發表於2021-06-01
為了促進視覺功能可供性在真實場景中的研究,在這篇CVPR 2021論文中,來自華南理工大學等機構的研究者提出了基於 3D 點雲資料的功能可供性資料集 3D AffordanceNet。基於此資料集,研究者提供了三個基準任務,用於評估視覺功能可供性理解。
簡介

功能可供性 (Affordance) 理解關心的是人類和環境之間的互動。例如,一個人可以坐在椅子上,抓取一個杯子或者提起一個揹包。能夠從視覺資訊中理解物體的功能可供性對機器人在動態且複雜的環境中執行操作是至關重要的。物體功能可供性理解具有廣泛的應用,例如行為預測和物體有效功能預測等。在計算機視覺領域,已有相關工作基於視覺資訊進行物體功能可供性研究,即視覺功能可供性(Visual Affordance)理解。許多工作基於深度神經網路構建演算法,因此需要大量的標註資料進行網路訓練和效能測試。現有的物體功能可供性資料集大都從 2D (RGB) 或者 2.5D (RGB-D) 感測器中採集資料,其中 2D 資料缺乏幾何資訊,而 2.5D 資料常常因為採集的深度資訊方差過小導致幾何資訊不夠豐富。然而,物體功能可供性理解需要足夠的幾何資訊,例如:關於抓取的功能可供性與物體上的垂直結構高度相關。現有資料關於幾何資訊的缺失和匱乏使得相關工作仍然無法對物體功能可供性進行充分並完善的研究。

當前三維點雲研究集中在 ShapeNet、PartNet 等資料集,其中 PartNet 的提出也受到了功能可供性的啟發。然而,PartNet 資料集以語義分割例項分割作為支撐任務,其標註並未真正考慮人或機器人可以與物體開展的互動。並且分割任務在每個點雲類別上獨立展開,即在做分割任務時假設物體類別已知,這樣的實驗設定違背了與真實場景中各種物體同時存在或物體類別比較含糊的情況。為了促進視覺功能可供性在真實場景中的研究,來自華南理工大學等機構的研究者提出了基於 3D 點雲資料的功能可供性資料集 3D AffordanceNet,該資料集基於現有的大型 3D 點雲分割資料集 PartNet,透過一個 3D GUI 標註工具,引導標註者在預先定義好的功能類別上進行資料標註,並利用標籤傳播演算法將標註者的標註擴散到整個物體點雲上,以獲得點雲中的各個點關於具體功能的機率值得分。如圖 1 所示,在資料標註的過程中,研究者發現人們所感知的物體功能可供性與 PartNet 資料集中提供的物體部件標籤只有部分重疊,證明了在 PartNet 資料集基礎上進行物體功能可供性標註的必要性。

CVPR 2021 | 華南理工等推出基於3D點雲資料的功能可供性資料集

圖 1:3D AffordanceNet 資料集樣例

研究者在所提出的 3D AffordanceNet 資料集基礎上,提出了 3 個視覺功能可供性理解任務,並對利用半監督學習方法進行視覺功能可供性理解以利用未標註的資料樣本的方式進行了探索,三個基線方法被用於在所有任務上進行評估,評估結果表明研究者提出的資料集和任務對視覺功能可供性理解在具有價值的同時,也具有挑戰性。

CVPR 2021 | 華南理工等推出基於3D點雲資料的功能可供性資料集

  • 論文連結:https://arxiv.org/abs/2103.16397

  • 實驗程式碼:https://github.com/Gorilla-Lab-SCUT/AffordanceNet

  • 專案網頁:https://andlollipopde.github.io/3D-AffordanceNet/#/


3D AffordanceNet 資料集

為了構建 3D AffordanceNet 資料集,研究者首先透過參考相關文獻定義了功能類別,並從 PartNet 資料集中採集了用於標註的 3D 點雲資料,覆蓋了室內場景中的常用物體類別,同時開發了一個問答式的 3D GUI 標註工具進行資料採集,最後利用標籤傳播演算法獲得完整點雲的功能可供性標註。

具體而言,研究者參考相關文獻,選擇了 18 個適合 PartNet 資料集中 3D 物體的功能類別:抓取 (Grasp)、提起 (Lift)、包含 (Contain)、開啟 (Open)、躺 (Lay)、坐 (Sit)、支援 (Support)、抱 (Wrap-Grasp)、傾倒 (Pour)、顯示 (Display)、推 (Push)、拉 (Pull)、聽 (Listen)、穿 (Wear)、按 (Press)、切 (Cut)、戳 (Stab)、移動 (Move)。研究者根據 PartNet 資料集中物體的屬性和與人或機器進行互動的功能,將篩選出的 18 個功能類別與各個物體類別進行關聯,例如,一張椅子是可以 “坐” 的而不可以 “躺” 的。標註者可以在各個物體類別所支援的功能類別上進行標註,需要注意的是,標註者可以自由地決定物體在預定義的功能類別中所支援的類別,因此有些物體不會被標註到所有為此物體類別預定義的功能類別。

研究者開發了一個基於網頁的問答式 3D GUI 標註工具。給定一個 3D 物體模型,標註者可以隨意旋轉,平移,縮放 3D 模型,以便從任意角度充分地觀察物體。如圖 2 所示,標註者將首先被問及物體所支援的功能有哪些 (What affordances does this shape support?),在選擇了物體所支援的功能之後,標註者將根據問題的引導,在物體上標註支援某個功能的關鍵點。標註者還會決定所選擇的功能是否會擴散到當前關鍵點所屬部件的臨近物體部件,若是,則標註者還將會選擇被擴散到的臨近物體部件,若否,則標註者繼續在同一個部件上進行關鍵點標註。引導標註者標註關鍵點的問題在圖 3 中給出。

CVPR 2021 | 華南理工等推出基於3D點雲資料的功能可供性資料集

圖 2:資料標註流程

CVPR 2021 | 華南理工等推出基於3D點雲資料的功能可供性資料集

圖 3:問題示例

在獲得了各個 3D 物體關於不同功能的關鍵點座標後,研究者透過最遠點取樣演算法在 3D 物體模型上密集取樣 10000 個點,並利用標籤傳播演算法將標籤從關鍵點傳播到 3D 物體上各個點上以獲得帶有完整標註的點雲。具體而言,首先基於取樣得到的 3D 點雲構建一個 k 最近鄰圖,並計算得到鄰接矩陣 A:

CVPR 2021 | 華南理工等推出基於3D點雲資料的功能可供性資料集

其中v是點的xyz座標,NN_k是點的 k 最近鄰點。接下來透過公式CVPR 2021 | 華南理工等推出基於3D點雲資料的功能可供性資料集將鄰接矩陣對稱化,並利用公式CVPR 2021 | 華南理工等推出基於3D點雲資料的功能可供性資料集獲得標準化後的鄰接矩陣,其中D是度數矩陣。最後所有點的得分S透過閉式解CVPR 2021 | 華南理工等推出基於3D點雲資料的功能可供性資料集得到,其中CVPR 2021 | 華南理工等推出基於3D點雲資料的功能可供性資料集是一個 one-hot 標籤向量,1 代表被標註的標籤。α是一個用於控制S的下降速度的引數,在實際中被設定為 0.998。最後將S進行歸一化使得其值域位於 0 到 1 之間以表徵機率分數。部分標籤傳播過後的資料樣例在圖 4 中給出。

CVPR 2021 | 華南理工等推出基於3D點雲資料的功能可供性資料集

圖 4:部分資料樣例

資料集的統計特性

最終 3D AffordanceNet 資料集為涵蓋了 23 個物體類別的 22949 個物體提供了定義良好的視覺功能可供性標註,每個物體類別最多被標註有 5 個功能類別。從功能可供性的角度來看,18 個功能類別總共有 56307 個物體功能可供性標註。值得一提的是,每個點可以同時被標註為支援多個功能類別。圖 5 和圖 6 展示了資料集的統計特性。

CVPR 2021 | 華南理工等推出基於3D點雲資料的功能可供性資料集

圖 5:資料集統計特性,每個物體類別支援的功能類別及其數量

CVPR 2021 | 華南理工等推出基於3D點雲資料的功能可供性資料集

圖 6:每個功能類別被標註的物體數量

實驗與基準

研究者將資料集按照 70%、20%、10% 的比例依次劃分成訓練集、驗證集和測試集,並基於所提出的資料集提出了三個視覺功能可供性理解任務:完整點雲 (Full-Shape) 功能可供性估計、部分點雲 (Partial) 功能可供性估計和旋轉點雲 (Rotate) 功能可供性估計,並進一步探索了使用半監督學習的方法利用未標註資料進行點雲功能可供性估計的可能性。三個基線方法被用於評估所提出的任務:PointNet++、DGCNN 和 U-Net、PointNet++ 和 DGCNN 的實驗都採用了它們論文中的預設引數,而對 U-Net 則採用 PointContrast 提供的預訓練引數進行初始化。

完整點雲功能可供性估計旨在估計完整的點雲上各個點支援的功能類別及其對應的機率分數。所有網路的分類頭部都被設定成各個功能類別單獨的分類頭部,而各個分類頭部共享同一個骨幹網路。骨幹網路提取的各個點特徵經過若干線性變換層,最後透過一個 sigmoid 函式得到點關於某個功能類別的機率得分。研究者使用交叉熵損失函式和考慮了正負樣本的 DICE 損失函式訓練三個基線網路:

CVPR 2021 | 華南理工等推出基於3D點雲資料的功能可供性資料集

CVPR 2021 | 華南理工等推出基於3D點雲資料的功能可供性資料集

其中M是功能類別的數量,N是物體數量,CVPR 2021 | 華南理工等推出基於3D點雲資料的功能可供性資料集是標註第j個點關於第i個功能類別的標註得分,CVPR 2021 | 華南理工等推出基於3D點雲資料的功能可供性資料集是網路預測的得分。最終的損失函式CVPR 2021 | 華南理工等推出基於3D點雲資料的功能可供性資料集。網路效能的評估指標採用平均準確度 (mAP),均方誤差 (MSE),ROC 曲線下面積 (AUC) 和平均交併比 (aIOU),所有效能指標都在各個功能類別上計算之後取所有類別的算術平均值作為最終指標。特別的,對 aIOU,研究者以 0.01 的間隔從 0 到 0.99 間取閾值將預測得分二值化,計算所有閾值下預測得分與標註得分的 IOU,最後 aIOU 即為所有閾值下的 IOU 算術平均值。除了 MSE 外,其餘所有指標的計算都將標註得分進行二值化處理。

部分點雲功能可供性估計在部分可見的點雲上進行功能可供性估計。由於實際場景中感測器掃描得到的點雲資料不一定是完整的,因此在部分點雲上進行功能可供性估計也是研究者考慮的重點。具體而言,研究者透過在 (-1,-1,1),(1,1,1),(1,-1,-1),(-1,1,-1)四個位置設定相機獲取固定視角下的部分點雲資料,在三個基線網路上以與完整點雲功能可供性估計相同的方式進行訓練和測試。

旋轉點雲功能可供性估計在旋轉後的點雲上進行功能可供性估計。PartNet 中的 3D 點雲均處於標準姿態下,研究者提出兩種旋轉實驗設定:z/z 旋轉和 SO(3)/SO(3)旋轉,前者將點雲沿著重力軸方向進行隨機旋轉,後者將點雲沿著三個軸方向進行隨即旋轉。對各個旋轉實驗,在訓練階段,對每個點雲進行隨機旋轉取樣輸入進網路,在測試階段,將網路在預先隨機取樣好的 5 個旋轉點雲下進行測試。訓練和測試方法與完整點雲功能可供性估計相同。

如圖 7 所示,三個基線網路在提出的三個任務上的效能隨著任務的難度逐漸下降,其中 SO(3)旋轉實驗的效能下降最為明顯,三個基線網路的 mAP 均下降了 5~10% 的百分點,而即使在完整點雲上的評估效能也存在較大的提升空間,說明了 3D AffordanceNet 和提出的任務對現有的網路是具有挑戰性的,適合於視覺功能可供性理解的網路結構和訓練方法仍然有待研究。

CVPR 2021 | 華南理工等推出基於3D點雲資料的功能可供性資料集

圖 7:實驗效能評估結果。P 代表 PointNet++,D 代表 DGCNN,U 代表 U-Net

圖 8 展示了 PointNet++ 的部分實驗結果視覺化影像。從第二行可看出,PointNet++ 在完整點雲上預測的結果是合理並符合預期的。第三行的部分點雲預測結果則在一些功能類別上失敗了,例如在包含 (Contain) 類別上網路忽略掉了一些部分觀測到的平面。第三行和第四行的預測結果表明網路在旋轉點雲上效能較差,例如對開啟 (Open) 類別完全預測錯誤,對包含 (Contain) 網路預測分數較低。

CVPR 2021 | 華南理工等推出基於3D點雲資料的功能可供性資料集

圖 8:PointNet++ 的實驗結果視覺化

標註功能可供性是一個較為困難的標註任務,因此會帶來較高的人力和時間成本。為了探索利用未標註資料進行視覺功能可供性理解任務的可能性,研究者進行了半監督學習的實驗。研究者使用 DGCNN 作為骨幹網路,在原有訓練集的基礎上取樣了 1% 的資料作為帶標註資料,其餘的為未標註資料,並採用最新的半監督學習方法虛擬對抗訓練 (VAT) 訓練網路,VAT 降低未標註資料及其增廣資料的預測結果之間的均方誤差:

CVPR 2021 | 華南理工等推出基於3D點雲資料的功能可供性資料集

其中CVPR 2021 | 華南理工等推出基於3D點雲資料的功能可供性資料集是增廣資料的預測機率得分。為了增廣資料,首先施加一次對抗攻擊,對應的對抗擾動則與原始點雲相加作為增廣點雲。最後用於半監督學習功能可供性估計的損失函式為:

CVPR 2021 | 華南理工等推出基於3D點雲資料的功能可供性資料集

其中CVPR 2021 | 華南理工等推出基於3D點雲資料的功能可供性資料集分別是標註資料和未標註資料的均方誤差損失。研究者採用半監督學習在完整點雲功能可供性估計任務上訓練 DGCNN 網路,並與只使用 1% 資料全監督訓練的 DGCNN 網路進行效能比較。如圖 9 所示,透過利用大量未標註的資料,與半監督學習訓練的網路效能相比,只使用少量標註資料全監督訓練的網路的效能有 1~2% 的百分點的提升,說明未標註資料可以為功能可供性學習提供有用的資訊,利用未標註資料提升網路的效能應獲得更多人的關注。

CVPR 2021 | 華南理工等推出基於3D點雲資料的功能可供性資料集

圖 9:半監督與全監督效能比較

相關文章