下一個專案將開始研究全景分割,這裡把去年和今年出來的paper簡單列了一下,全景分割框架內有很多細節,一時半會沒法吃透,需要時間慢慢消化。
Panoptic Segmentation
核心思想
http://arxiv.org/abs/1801.00868
- 提出新的任務PS,結合了semantic segmentation和instance segmentation
- 提出新的指標PQ
- 在三個資料集上研究了人和機器的表現。
評價指標
網路架構
結合語義分割和例項分割的output。在Cityscapes資料集上,用PSPNet和Mask R-CNN提供語義和例項分割。
實驗結果
Panoptic FPN
核心思想
- 基於Mask R-CNN with FPN,並作了一些小改變來生成語義分割結果。
網路架構
Semantic segmentation branch
從FPN的最深層開始,每層上取樣為1/4scale的feature map。每次上取樣包含3x3conv,group norm,ReLU和2x雙線性插值。
作者還考慮了記憶體和計算量,對比了如下的不同設計,發現FPN最高效。
聯合訓練
Instance segmentation losses:\(L_c(classification loss),L_b(bounding-box loss),L_m(mask loss)\)
Semantic segmentation loss:\(L_s\)
Final loss:\(\lambda_i(L_c+L_b+L_m)+\lambda_s L_s\)
實驗結果
DeeperLab
核心思想
- 主要貢獻
- 提出了幾種網路設計策略,特別是減少高解析度輸入的記憶體佔用。
- 基於設計策略,提出了高效single-shot,bottom-up的DeeperLab。
- 提出了新的指標Parsing Covering,從基於區域的角度評估影像解析結果。
Parsing Covering
PQ只關注每個例項的分割質量,而不考慮不同例項的大小,不同大小物體最終分割結果對PQ影響相同,於是提出了PC評價指標。
\(R,R'\)分別表示對應類別的預測segments與真實segments,\(|R|\)表示對應類別的例項在真實標註中畫素點數量,\(N_i\)表示類別為i的真實標註畫素點總和。通過對大的例項物體賦予更大的權重,使評價指標能夠更明顯地反映大物體的分割指標。
網路架構
Encoder
- Xception-71或MobileNetV2,並在末尾加了ASPP。
Decoder
- 借鑑了DeepLabV3+。ASPP的輸出分別被1x1conv降維然後concat。
- DeepLabV3+在concat前上取樣已經降維後的ASPP的輸出,但上取樣會帶來記憶體消耗,於是採用space-to-depth operation。
- 後面還使用兩個7x7的depthwise conv來增大感受野,然後通過depth-to-space降維。
Image Parsing Prediction Heads
- Semantic Segmentation Head:最小化bootstrappd cross-entropy loss並且用了hard example mining,只回傳top-K errors。
- Instance Segmentation Head
- the keypoint heatmap:預測畫素是否位於關鍵點中心半徑為R的圈內。
- the long-range offset map:預測畫素到所有關鍵點的位置偏移,對每個畫素的long-range資訊編碼。
- the short-range offset map:類似於long-- range其僅關注關鍵點半徑R內的畫素。
- the middle-range offset map:預測關鍵點對之間的偏移。
- Prediction Fusion:將四個預測融合到一個類不相關的instance segmentaion map,再最終融合semantic和instance segmentation map。
- Instance Predicton:Recursive offset refinement、Keypoint localization、Instance detection、Assignment of pixels to instances
- Semantic and Instance Prediction Fusion:從語義分割開始,被預測為‘stuff’被分配唯一的instance label。其他畫素的instance label通過例項分割確定,其semantic label則通過多數投票。
實驗結果
AUNet
核心思想
- 設計了PAM和MAM,分別基於RPN階段的特徵圖與例項分割輸出的前景分割區域,為stuff segmentation提供了物體層級注意力與畫素層級注意力。
網路架構
Attention-guided Modules
Proposal Attention Module(PAM)
Mask Attention Module(MAM)
此外還提出了RoIUpsample
實驗結果
UPSNet
核心思想
網路架構
Backbone:Mask R-CNN(ResNet+FPN)
Instance Segmentation Head:Bbox regression output、cls output 和seg mask output。
Semantic Segmentation Head:
Panoptic Segmentation Head:
實驗結果
TASCNet
核心思想
- 使例項分割和語義分割的預測輸出保持一致性。
網路架構
- Backbone:ResNet50+FPN,可捕獲更深層次的低階特徵,識別更廣泛的物件尺度。
- Stuff Head
- 用3x3conv 將維度從256降到128。
- 使用group normalization歸一化層。
- 使用額外的3x3conv,保持channel。
- 歸一化並上取樣到FPN最大尺度的feature map。
- Things Head:類似於Mask R-CNN,有三個head。
- Stuff Head
- TASC:將兩個head的輸出分佈分開。
- Mask-Guided Fusion
實驗結果
JSIS-Net
核心思想
- CNN聯合預測語義分割和例項分割輸出
- 啟發式合併輸出來生成全景分割結果
網路架構
框架
Backbone:ResNet-50,被語義分割和例項分割共享。
semantic segmentation branch:首先採用Pyramid Pooling Module來生成feature map,再使用混合上取樣將預測變成原圖尺度。混合上取樣首先採用了轉置卷積然後是雙線性插值。
instance segmentation branch:基於Mask R-CNN。
用Loss來平衡聯合學習。
- 合併輸出:需要解決兩類衝突:overlapping instance masks和conflicting stuff predictions
- Ovelapping instance masks:對所有重疊的instance mask採用NMS,但是會移除很多true的預測。相反,我們選擇利用每個例項的概率圖來解決衝突。在多個instance mask預測畫素屬於某個物體,採取特定畫素處具有最高概率的。
- Conflicting predictions for things classes:thing存在於語義分割和例項分割,無可避免會有衝突。於是我們移除語義分割輸出中所有thing類並用最可能的stuff類替換它們,這樣語義分割輸出中只有stuff類。然後用例項分割輸出的thing替代語義分割輸出。
實驗結果
OANet
http://arxiv.org/abs/1903.05027
核心思想
Contribution
第一個提出全景分割中的end-to-end occlusion aware pipeline。
- 提出了一種spatial ranking module來解決重疊關係的模糊性。
在COCO全景分割資料集上達到了SOTA。
網路架構
演算法包含三部分
- stuff branch預測整張圖的stuff segmentation
- instance branch提供instance segmentation
- spatial ranking module為每個instance生成ranking score
End-to-end 網路架構
- backbone:FPN
- Instance segmentation:Mask R-CNN提供proposal classification score、proposal bb coordinates和proposal instance mask。
- stuff segmentation:兩個3x3conv疊加在RPN的feature map上,之後concatenate。共享backbone和skip-connection。object資訊可以為stuff提供上下文,在測試時,我們只提取stuff preditions並將其歸一化為概率。
為了平衡兩種監督,我們提出了multiple losses。
\[L_{total}=(L_{rpn_cls}+L_{rpn_bbox}+L_{cls}+L_{bbox}+L_{mask})+\lambda \cdot L_{seg_(stuff+object)+L_{srm}}\]
Spatial Ranking Module
當前的例項分割框架沒有考慮不類間的重疊問題,因為指標AP等不受此問題影響。然而全景分割任務中影像中的畫素固定,因此必須解決重疊問題,或一個畫素多分配。
檢測分數通常對instance採用降序排列,由於COCO中人更加頻繁,使得領帶被誤判為人。 於是本文提出spatial ranking module模組,isntance tensor被初始化為0,mapping value被設定為1。然後我們在tensor後採用large kernel conv來獲得ranking score map。最後使用pixel-wise cross entropy loss來優化ranking score map。
實驗結果
Weakly- and Semi-Supervised Panoptic Segmentation
核心思想
- 首個採用弱監督學習全景分割的方法,在沒有足夠全景分割標註的情況下,學習模型。
總結
- 可以從以下三個角度分析與優化全景分割演算法:
- 網路框架搭建:這裡指提出一個整體網路,實現端到端。
- 子任務融合(Subtask Fusion):通常stuff 和instance分支通常相互獨立,這裡指兩個分支間是否建立了關聯並相互促進。
- 全景輸出預測(Panoptic Output):合併stuff和instance分支結果時,通常採用先驗邏輯判斷;這裡指是否設計了針對全景分割結果合併的模組。
Method | Contribution | End-to-end | Subtask Fusion | Panoptic Output | COCO 2018 task |
---|---|---|---|---|---|
Panoptic Segmention | define the ps task、Metric:PQ | × | × | × | |
Panoptic FPN | Up-to-Down | √ | × | × | 40.9 |
JSIS-Net | Try end-to-end | √ | × | × | 27.2 |
DeeperLab | Bottom-to-Up、Metric:PC | √ | × | √ | - |
UPSNet | Panoptic Head | √ | × | √ | 46.6 |
OANet | Occlusion Aware | √ | × | √ | 41.3 |
AUNet | Attention-guided | √ | √ | × | 46.5 |
TASCNet | Cross-task Consistency | √ | √ | √ | - |
參考
- paper
[1]Kirillov A, He K, Girshick R, et al. Panoptic segmentation[J]. arXiv preprint arXiv:1801.00868, 2018.
[2]Kirillov A, Girshick R, He K, et al. Panoptic Feature Pyramid Networks[J]. arXiv preprint arXiv:1901.02446, 2019.
[3]Yang T J, Collins M D, Zhu Y, et al. DeeperLab: Single-Shot Image Parser[J]. arXiv preprint arXiv:1902.05093, 2019.
[4]Li Y, Chen X, Zhu Z, et al. Attention-guided unified network for panoptic segmentation[J]. arXiv preprint arXiv:1812.03904, 2018.
[5]Xiong Y, Liao R, Zhao H, et al. UPSNet: A Unified Panoptic Segmentation Network[J]. arXiv preprint arXiv:1901.03784, 2019.
[6]Li J, Raventos A, Bhargava A, et al. Learning to fuse things and stuff[J]. arXiv preprint arXiv:1812.01192, 2018.
[7]de Geus D, Meletis P, Dubbelman G. Panoptic segmentation with a joint semantic and instance segmentation network[J]. arXiv preprint arXiv:1809.02110, 2018.
[8]Liu H, Peng C, Yu C, et al. An End-to-End Network for Panoptic Segmentation[J]. arXiv preprint arXiv:1903.05027, 2019.
- blog