論文連結:https://arxiv.org/abs/2106.05897
程式碼地址:https://github.com/Talegqz/unsupervised_co_part_segmentation
01 引 言
部件分割 (co-part segmentation) 是計算機視覺領域中的一個重要問題。它透過識別圖片中目標物件的組成部件 (part) ,並將屬於每個部件的畫素聚類到一起,可以為有鉸鏈結構的物體提供較為緊湊且有意義的部件結構 (part-structure) 表示。它可以應用於運動追蹤、動作識別、機器人操縱以及自動駕駛等具體任務,因而具有重要的研究價值。
隨著深度學習的發展以及大量的標註資料集的出現,基於監督的學習方法已經在包括部件分割在內的很多視覺問題上超越了傳統的方法。但這類學習方法往往需要大量的先驗知識,並且高度依賴高質量資料集標註,較難應用到未曾見過的物體上。
在本項研究中,我們提出了一種無監督的影像部件分割方法,創新性地採用了將部件分割過程和部件裝配過程相結合的自監督學習思路,利用影片中的運動資訊來提取潛在的部件特徵,從而實現對物體部件的有意義的分割。我們透過在人體、人手、四足動物、機械臂等不同研究物件的影片上的測試,證明了這一無監督影像部件分割方法有效性。同時,定量實驗的對比也表明該方法的效果優於現有的基於無監督學習的工作,達到了較高的水平。
02 方 法
我們的方法基於一個假設,即影片中的運動物體是由不變的部件組成,影片中幀與幀的區別只是部件的不同位置和縮放之間的區別,透過部件之間的仿射變換,我們可以將影片中的一幀轉換為另一幀。基於這一假設,我們利用神經網路分析兩張圖片之間的轉換,自動將圖片分割為不同的部件並學習其對應的變換方式,進而根據另一張圖片的資訊重新組裝這些部件,從而實現無監督的部件分割。
對於單張圖片來說,部件的分割裝配過程如下圖所示。首先,我們利用編碼器把輸入圖片編碼為部件特徵和部件變換。然後,其中的部件特徵將透過解碼器生成相應的部件圖片和部件蒙版。最後,這些部件圖片將根據對應的部件蒙版被組裝成最終的圖片。
部件分割裝配的結構
而在訓練時,我們每次隨機從影片中選擇兩幀作為源圖片和目標圖片。我們假定影片中部件都存在一個標準的特徵表示,而每個部件的變換是相對於標準特徵的變換。在此基礎上,我們可以透過逆變換將源圖片的部件特徵變換到標準特徵,然後再利用目標圖片的變換得到新的變換特徵,透過這個新的特徵可以生成預測的目標圖片。
基於部件分割裝配的訓練過程
在訓練過程中,我們要求神經網路能夠儘可能地重構目標圖片。由於上述組裝過程的約束,只有更準確的分割才能實現更好的生成結果。因而透過這種方式,我們實現了對圖片分割的自監督學習。而進一步地,我們限定變換為只包括旋轉、縮放、平移的仿射變換,並且假定在標準特徵空間中每個部件的中心在原點位置,同時協方差矩陣為單位矩陣。在訓練中我們要求在經過變換後,部件的中心應該與變換的平移部分一致,而部件的協方差矩陣與旋轉縮放矩陣一致。基於這個約束,我們可以使網路學到的部件分割和變換有更明確的物理意義,增加了結果的可解釋性。
03 實驗結果
我們的方法不需要任何標註,可以直接應用於人體、手、四足動物和機械臂等物件。
人手、馬、人體以及機械臂的分割結果
而與其他現有的無監督方法相比,我們的方法實現了更加一致且緊湊的分割,並在分割一致性和前景準確性的定量實驗上超過了現有的方法。
在 VoxCeleb 和 Tai-Chi-HD 資料集上與其他方法的對比結果
如下圖所示,我們的網路可以學習到每個部件的分割,並可以將部件重新組合為輸入圖片。
部件分割的結果展示
每個部件的圖片由解碼器得到,最後組裝為源圖片
同時,在損失函式約束下,我們可以學習到可解釋的仿射變換,其中估計的變換與每個部件運動的方向相一致。
仿射變換可解釋性的對比
圖片分別對應 Motion Co-part 的結果,以及我們的方法在不使用變換損失函式和使用變換損失函式下所訓練的模型結果
另外,透過在較大的資料集上訓練,我們的模型可以擴充套件到同型別的新圖片上。例如下圖所示,我們可將在 Tai-Chi-HD 和 VoxCeleb 等資料集上訓練的模型無縫應用到在 Youtube 上找到的同類新影片上。
圖文 | 高慶哲
Visual Computing and Learning (VCL)