本文提出了一種透過關聯影像顯著性例項而實現弱監督語義分割的新方法。
論文名稱:《Associating Inter-Image Salient Instances for Weakly Supervised Semantic Segmentation》
論文連結:http://mftp.mmcheng.net/Papers/18ECCVGraphPartition.pdf
目錄
導語
背景
設計思想
網路架構
實驗
結論
參考文獻
往期解讀
導語
深度學習方法分為有監督學習和無監督學習,前者為深度學習“攻下一座座城池”,碩果累累,而後者則是希望和未來所在。然而,介於兩者之間的弱監督學習同樣不容忽視,潛力巨大。在本文中,曠視科技和清華大學透過原創性地整合顯著性檢測和圖劃分演算法等多種技術,提出一種新型弱監督學習方法,加速語義分割發展,推動該技術在自動駕駛、安防、新零售、物流等行業的落地和普及。
這一方法的最大技術亮點是既利用的每個顯著性例項的內在屬性,又挖掘了整個資料集範圍內不同顯著性例項的相互關係。實驗結果表明了該方法的有效性和高效性。正是透過一個個技術難點的攻克,不斷積澱,相互共振,促成 AI 原創技術矩陣,形成 AI+IoT 體系,助力曠視科技以非凡科技持續為客戶和社會創造最大價值。
背景
語義分割是計算機視覺領域最為重要的任務之一,其目的是為影像的每個畫素標註語義資訊。卷積神經網路強大的學習能力使這一領域取得了巨大的進展,但神經網路的訓練需要大量的畫素級標註的訓練資料,比如 PASCAL VOC 和 MS COCO。
弱監督語義分割作為一種降低對畫素級標註資料需求的新方法,近期備受關注。這一方法只需要諸如關鍵詞(keywords)、邊界框(bounding boxes)、線條(scribbles)、點(points)等標註資訊,即可輕鬆完成資料的構建。本文研究的是隻有關鍵詞作為標註資訊的弱監督框架。
在弱監督語義分割中,一個主要挑戰是在關鍵詞與相應的語義目標之間建立有效的連線。絕大多數先前方法使用各種低層資訊檢測器(low-level cue detectors)捕捉畫素級資訊以從原始影像中生成輔助(proxy)ground-truth。顯著性模型和注意力機制都是常用的方法。由於上述方法只給到畫素級顯著性/注意力資訊,很難把不同前景目標目標區分開。因此,判別語義例項的能力尤為關鍵。
隨著顯著性檢測演算法的快速發展,一些顯著性檢測器,比如 MSRNet 和 S^4Net,不僅可以實現顯著性區域的畫素級預測,還可以提取顯著例項。透過借鑑上述例項級顯著目標檢測器的優點,本文提出利用 S^4Net 從而在早期顯著性檢測階段執行例項提取任務,這極大地簡化了pipeline,一些由 S^4Net 生成的例項級顯著性影像如圖 1(b) 所示。
圖 1:本文方法圖示。
由於透過顯著性檢測等低層特徵檢測器獲得的前景不含語義資訊,對於多標籤訓練樣本,為每個前景目標分配正確的關鍵詞(標籤)是需要解決的重要任務。傳統方法處理弱監督問題時,著眼於獨立處理每一張影像。本文不僅利用了每個顯著性例項的內在特徵,而且藉助在整個資料集範圍內所有顯著性例項的語義相互關係,為每個顯著性例項分配正確的語義標籤,生成 proxy ground-truth。這一演算法可以使用圖劃分建模。
設計思想
為了利用帶有邊界框的顯著性例項掩碼,需要克服兩個主要困難。第一,一張影像可能標註多個關鍵詞,因此要解決關鍵詞和顯著性例項的對應問題。第二,並不是所有的由顯著性例項檢測器生成的例項都是在語義上有意義的,納入這些噪聲例項會影響後續操作的準確性。因為識別和去除這些噪聲例項在本文方法中很重要。上述兩個困難都可以表示為標籤分配問題,即分別為語義例項和噪聲例項打上正確的標籤。
本文在整個訓練集內,綜合考慮一個顯著性例項的內在資訊和顯著性例項間的相互關係。透過注意力機制等方法,僅僅考慮 RoI 的內部資訊,即顯著性例項的本質特徵,對顯著性例項賦予正確的標籤也是可能的。但是,除了每個 RoI 的內在屬性,每個顯著性例項之間還有語義上的相互關係:同一類別的顯著性例項通常有著相似的語義特徵。將其考慮在內對標籤分配很重要。
具體而言,一方面,這一新框架包含一個注意力模組,基於內在屬性預測某個顯著性例項屬於各個標籤的機率;另一方面,透過一個提取器為每個顯著性例項預測語義特徵,以獲取語義關係。在語義上相似的顯著性例項有著近似的語義特徵向量。
基於語義特徵可以得到一張相似性圖,其中頂點表示顯著性例項,邊權重記錄一對顯著性例項之間的語義相似性。本文透過一個圖劃分演算法把圖分為若干個子圖,其中每個子圖表示一個具體的類別。圖劃分流程被建模為一個混合整數二次規劃問題(MIQP),從而獲得一個全域性最優解。其目標是使每個子圖內部的頂點儘可能相似。圖劃分過程也會把顯著性例項的內在屬性考慮在內。
本方法給出了高質量的 proxy-ground-truth 資料,可訓練全監督語義分割模型。當在 DeepLab 上處理語義分割任務之時,本文方法在 PASCAL VOC 2012 測試集上 mIoU 為 65.6%,優於當前最優方法。在畫素級語義分割之外,本文還利用例項級 proxy-ground-truth 資料訓練了例項級分割模型,首次證明了只使用關鍵詞標註的弱監督框架進行例項級分割的能力。
網路架構
在這一部分,首先給出 pipeline 概述,接著討論網路結構和標籤分配演算法。該框架如圖 2 所示。絕大多數依賴於畫素級線索(比如顯著性、邊緣、注意力圖)的先前工作把例項判別作為一項關鍵任務。但是,隨著深度學習的發展,顯著性檢測器可以預測顯著性圖以及例項邊界框。在給定只標有關鍵詞的訓練影像的情況下,研究者藉助例項級顯著性分割網路 S^4Net 從每張影像中提取顯著性例項。每個顯著性例項有一個邊界框和一個掩碼,表明影像中有一個視覺可見的前景目標。這些顯著性例項是類別不可知的,因此提取器 S^4Net 無需針對本文訓練集進行訓練。儘管顯著性例項包含訓練分割掩碼的 ground-truth 掩碼,但是使用這些顯著性例項訓練分割網路有兩個主要的限制。
首先,一張影像可以標註多個關鍵詞。其次,由 S^4Net 檢測的例項不一定在訓練集的類別之中。本文把這些顯著性例項看作是噪聲例項,消除它們是本文 pipeline 不可或缺的一部分。兩個限制可透過解決標籤分配問題而解決,其中研究者把顯著性例項與基於影像關鍵詞的正確標籤相聯,並把其他例項標為噪音。
圖 2:Pipeline。
本文 pipeline 同時考慮了一個單一區域的內在屬性和所有顯著性例項之間的關係。一個分類網路輸出的分值圖中,目標所在區域(畫素)內會有對正確的類別的較強響應。因此,在類啟用對映(class activation mapping/CAM)的啟發下,本文利用注意力模組直接根據其內在屬性識別顯著性例項的標籤。
現有弱監督分割工作的一個弱點是一張張處理訓練集,忽略了整個訓練集中顯著性例項之間的關係。但是,屬於同一類別的顯著性例項有著相似的語義資訊,可在標籤分配中發揮作用。本文架構提取每個顯著性例項的語義特徵,語義資訊相似的區域有著相似的語義特徵,並由此構建一個相似性圖。標籤分配現在變成了一個圖劃分問題,同時利用了單一顯著性例項的內在屬性和所有顯著性例項的整體關係。
實驗
本節展示了該方法在 PASCAL VOC 2012 語義分割基準上的結果,同時與一些當前最佳方法做了對比。結果表明該框架大幅超出所有現有的弱監督方法。本文同樣也透過一系列實驗分析每一元件的重要性。本文進而給出了在 MS COCO 例項分割任務上的初步結果。
表 3 給出了在 PASCAL VOC 2012 驗證集和測試集上新的當前最優結果。具體而言,相較於 Mining Pixels 的基線結果,該方法在測試集和驗證集上分別實現了 6% 和 5.8% 的提升。另外,值得注意的是,該方法甚至優於(以線條和點的形式)帶有額外監督的其他方法。
除了語義分割結果,本文還展示了只使用關鍵詞的弱監督方法的例項分割結果。表 4 把本文方法與當前最優的全監督方法進行了結果對比。只借助帶有關鍵詞的原始 RGB 影像,即可實現例項級分割。
表 3:本文方法在 PASCAL VOC 2012 驗證集和測試集上的畫素級分割結果及與現有最佳方法的對比。
表 4:本文方法在 COCO 測試集上的例項分割結果及對比。
結論
本文提出一個全新的弱監督分割框架,旨在基於提取自訓練影像的顯著性例項和被分配的標籤,生成精確的 proxy-ground-truth 資料。本文把顯著性例項引入弱監督分割,極大地簡化了現有工作中的目標判別流程,並使得該框架可執行例項級分割。本文把標籤分配任務建模為一個網路劃分問題,透過整數二次規劃對這一問題進行求解。為提升標籤分配的準確性,來自單一的顯著性例項的內在資訊和整個資料集中所有目標的關係同時被考慮在內。
實驗表明該方法在 PASCAL VOC 2012 語義分割基準上取得了新的當前最優結果,並首次展示了只有關鍵詞作為標註資訊的弱監督方法在 MS COCO 例項級語義分割任務中所取得的結果。