基於深度學習的影象語義分割技術概述之背景與深度網路架構

古來聖賢皆寂寞發表於2019-01-25

影象語義分割正在逐漸成為計算機視覺及機器學習研究人員的研究熱點。大量應用需要精確、高效的分割機制,如:自動駕駛、室內導航、及虛擬/擴增實境系統。這種需求與機器視覺方面的深度學習領域的目標一致,包括語義分割或場景理解。本文對多種應用領域語義分割的深度學習方法進行概述。首先,我們給出本領域的術語及主要背景知識。其次,介紹主要的資料集及難點,以幫助研究人員找到合適的資料集和研究目標。之後,概述現有方法,及其貢獻。最後,給出提及方法的量化標準及其基於的資料集,接著是對於結果的討論。最終,對於基於深度學習的語義分割,指出未來重點並得出結論。 

細粒度分類:同一類中不同子類物體間的分類。 
難點:受視角、背景、遮擋等因素影響較大,類內差異較大、類間差異較小。

基於深度學習的物體分類可以大致分為4類:分類,對齊,不同特徵相似性的判斷,分割槽

使用通用DCNN(Deep Convolutional Neural Network,深度卷積神經網路)進行細粒度分類;

先使用DCNN進行部件定位,之後進行部位對齊;

使用多個DCNN對細粒度識別中的相似特徵進行判別;

使用注意力模型定位區分性強的區域                                  

詞包模型:在介紹詞包模型前,我們先簡單回憶下自然語言處理中的詞包模型。詞包在自然語言處理中是一項非常流行的代表文件的技術,它忽略了文件中詞的順序。例如,在這個模型下,"a good book"和"book good a"是一樣的。詞包模型應用基於詞典的建模方法,每個文件像一個包(因此忽略了次序),包含了一些來著詞典的詞。計算機視覺的研究人員用了一個相似的思想來表示影象(這的影象可能特指一個特殊的物件,例如一張汽車的影象)。例如,把一張影象當做一個文件,從影象中提取出來的特徵就相當於詞(通常還需要一些額外的操作,下面會提到)。詞包表示法可以作為進一步影象處理的基本步驟,如物件分類。

1.底層特徵提取

    a.基於興趣點檢測:畫素點、邊緣、角點、一般會有一定的幾何不變性,用的比較多的有Harris角點、FAST(feature from accelerated segment test)、LOG(laplacian of guassian)、DOG(difference of gaussian)。

    b.密集點提取:從影象中按照固定步長、尺度提取出大量的區域性特徵描述如SIFT、HOG、LBP(local binary pattern)

 

2.特徵編碼

    底層特徵包含冗餘和噪聲,需要一種特徵變換演算法對底層進行編碼,從而獲得更加具有區分性、更加魯棒的特徵表達,重要的特徵編碼演算法包括:向量量化編碼,核詞典編碼、稀疏編碼、區域性線性約束編碼、顯著性編碼、Fisher向量編碼、超向量編碼。

    向量量化編碼:是通過一種量化的思想,使用一個較小的特徵集合(視覺詞典)來對底層特徵進行描述,達到特徵壓縮的目的.向量量化編碼只在最近的視覺單詞上響應為1,因而又稱為硬量化編碼、硬投票編碼,這意味著向量量化編碼只能對區域性特徵進行很粗糙的重構. 但向量量化編碼思想簡單、直觀,也比較容易高效實現。

   侷限性:在實際影象中,影象區域性特徵常常存在一定的模糊性,即一個區域性特徵可能和多個視覺單詞差別很小,這個時候若使用向量量化編碼將只利用距離最近的視覺單詞,而忽略了其他相似性很高的視覺單詞。

   軟量化編碼(又稱核視覺詞典編碼)演算法,區域性特徵不再使用一個視覺單詞描述,而是由距離最近的犓個視覺單詞加權後進行描述,有效解決了視覺單詞的模糊性問題,提高了物體識別的精度.

   稀疏編碼通過最小二乘重構加入稀疏約束來實現在一個過完備基上響應的稀疏性.得到一個高維的高度稀疏的特徵表達,大大提高了特徵表達的線性可分性,僅僅使用線性分類器就得到了當時最好的物體分類結果,將物體分類的研究推向了一個新的高度上。

   侷限性:稀疏編碼存在一個問題,即相似的區域性特徵可能經過稀疏編碼後在不同的視覺單詞上產生響應,這種變換的不連續性必然會產生編碼後特徵的不匹配,影響特徵的區分效能.

   區域性線性約束編碼它通過加入區域性線性約束,在一個區域性流形上對底層特徵進行編碼重構,這樣既可以保證得到的特徵編碼不會有稀疏編碼存在的不連續問題,也保持了稀疏編碼的特徵稀疏性。

   顯著性編碼引入了視覺顯著性的概念,如果一個區域性特徵到最近和次近的視覺單詞的距離差別很小,則認為這個區域性特徵是不“顯著的”,從而編碼後的響應也很小。編碼速度也比稀疏編碼快很多
   FISHER向量編碼同時融合了產生式模型和判別式模型的能力,與傳統的基於重構的特徵編碼方法不同,它記錄了區域性特徵與視覺單詞之間的一階差分和二階差分

   超向量編碼則直接使用區域性特徵與最近的視覺單詞的差來替換之前簡單的硬投票. 這種特徵編碼方式得到的特徵向量表達通常是傳統基於重構編碼方法的M倍(M是區域性特徵的維度).

 

3.特徵匯聚

    空間特徵匯聚是特徵編碼後進行的特徵集整合操作,通過對編碼後的特徵,每一維都取其最大值或者平均值,得到一個緊緻的特徵向量作為影象的特徵表達. 這一步得到的影象表達可以獲得一定的特徵不變性,同時也避免了使用 特徵集進行影象表達的高額代價. 最大值匯聚在絕大部分情況下的效能要優於平均值匯聚,也在物體分類中使用最為廣泛。由於影象通常具有極強的空間結構約束,空間金字塔匹配(spatial pyramid matching,SPM)提出將影象均勻分塊,然後每個區塊裡面單獨做特徵匯聚操作並將所有特徵向量拼接起來作為影象最終的特徵表達.

術語及背景概念

語義分割不是一個孤立的問題,而是影象推理從粗粒度到細粒度的過程中一個自然的步驟。

  • 分類(classification),對整個輸入進行預測,即預測影象中是什麼物體、或者給出物體的連結串列如果圖中有多個物體。
  • 定位或檢測(localization and detection)是細粒度推測的進一步發展,不只提供物體的類別,同時提供這些類的位置,例如:圖心或邊界框。
  • 語義分割(semantic segmentation)進行稠密預測(dense prediction)推斷每個畫素點的類標籤,通過這種方式,區域或物體內的畫素點被標記為相應的類別。
  • 物體分割(instance segmentation):分別標記同一類的不同物體,甚至是基於部分的分割(part based segmentation),將已經分割出的類進一步分割為底層的組成部分。

畫素分類問題可以被簡化為以下問題:對於隨機變數集合X={x1,x2,...,xn}X={x1,x2,...,xn}中的任一元素,尋找一種方法來分配類標籤L={l1,l2,...,lk}L={l1,l2,...,lk}。每個類標籤ll代表不同的類或物體,例如,飛機、汽車、交通標誌或者背景。標籤空間有kk中可能的狀態,其通常會被擴充到k+1k+1並且將l0l0作為背景或者空類。通常XX為W×H=NW×H=N的2D2D圖片中的畫素值。

 

相關文章