CVPR 2019|PoolNet:基於池化技術的顯著性檢測論文解讀

ManWingloeng發表於2019-05-27

原文網址 : https://www.cnblogs.com/ManWingloeng/p/10930634.html

CVPR 2019|PoolNet:基於池化技術的顯著性檢測論文解讀
作者 | 文永亮
研究方向 | 目標檢測、GAN

研究動機

這是一篇發表於CVPR2019的關於顯著性目標檢測的paper，在U型結構的特徵網路中，高層富含語義特徵捕獲的位置資訊在自底向上的傳播過程中可能會逐漸被稀釋，另外卷積神經網路的感受野大小與深度是不成正比的，目前很多流行方法都是引入Attention（注意力機制），但是本文是基於U型結構的特徵網路研究池化對顯著性檢測的改進，具體步驟是引入了兩個模組GGM(Global Guidance Module，全域性引導模組)和FAM(Feature Aggregation Module，特徵整合模組)，進而銳化顯著物體細節，並且檢測速度能夠達到30FPS。因為這兩個模組都是基於池化做的改進所以作者稱其為PoolNet，並且放出了原始碼：https://github.com/backseason/PoolNet

模型架構

CVPR 2019|PoolNet:基於池化技術的顯著性檢測論文解讀

兩個模組：

GGM(Global Guidance Module，全域性引導模組)
我們知道高層語義特徵對挖掘顯著物件的詳細位置是很有幫助的，但是中低層的語義特徵也可以提供必要的細節。因為在top-down的過程中，高層語義資訊被稀釋，而且實際上的感受野也是小於理論感受野，所以對於全域性資訊的捕捉十分的缺乏，導致顯著物體被背景吞噬，所以提出了GGM模組，GGM其實是PPM（Pyramid Pooling module，金字塔池化模組）的改進並且加上了一系列的GGFs（Global Guiding Flows，全域性引導流），這樣做的好處是，在特徵圖上的每層都能關注到顯著物體，另外不同的是，GGM是一個獨立的模組，而PPM是在U型架構中，在基礎網路（backbone）中參與引導全域性資訊的過程。

其實這部分論文說得並不是很清晰，沒有說GGM的詳細結構，我們可以知道PPM[7]的結構如下：

該PPM模組融合了4種不同金字塔尺度的特徵，第一行紅色是最粗糙的特徵–全域性池化生成單個bin輸出，後面三行是不同尺度的池化特徵。為了保證全域性特徵的權重，如果金字塔共有N個級別，則在每個級別後使用1×1的卷積將對於級別通道降為原本的1/N。再通過雙線性插值獲得未池化前的大小，最終concat到一起。
如果明白了這個的話，其實GGM就是在PPM的結構上的改進，PPM是對每個特徵圖都進行了金字塔池化，所以作者說是嵌入在U型結構中的，但是他加入了global guiding flows（GGFs），即Fig1中綠色箭頭，引入了對每級特徵的不同程度的上取樣對映（文中稱之為identity mapping），所以可以是個獨立的模組。
簡單地說，作者想要FPN在top-down的路徑上不被稀釋語義特徵，所以在每次橫向連線的時候都加入高層的語義資訊，這樣做也是一個十分直接主觀的想法啊。
FAM(Feature Aggregation Module，特徵整合模組)
特徵整合模組也是使用了池化技巧的模組，如下圖，先把GGM得到的高層語義與該級特徵分別上取樣之後橫向連線一番得到FAM的輸入b，之後採取的操作是先把b用{2,4,8}的三種下取樣得到藍綠紅特徵圖然後avg pool（平均池化）再上取樣回原來尺寸，最後藍綠紅紫（紫色是FAM的輸入b）四個分支畫素相加得到整合後的特徵圖。

FAM有以下兩個優點：
- 幫助模型降低上取樣（upsample）導致的混疊效應（aliasing）
- 從不同的多角度的尺度上縱觀顯著物體的空間位置，放大整個網路的感受野
第二點很容易理解，從不同角度看，不同的放縮尺度看待特徵，能夠放大網路的感受野。對於第一點降低混疊效應的理解，用明珊師姐說的話，混疊效應就相當於引入雜質，GGFs從基礎網路最後得到的特徵圖經過金字塔池化之後需要最高是8倍上取樣才能與前面的特徵圖融合，這樣高倍數的取樣確實容易引入雜質，作者就是因為這樣才會提出FAM，進行特徵整合，先把特徵用不同倍數的下采樣，池化之後，再用不同倍數的上取樣，最後疊加在一起。因為單個高倍數上取樣容易導致失真，所以補救措施就是高倍數上取樣之後，再下采樣，再池化上取樣平均下來可以彌補錯誤。

上圖就是為了說明FAM的優點的，經過高倍上取樣之後的影像（b）和（d）容易引入許多雜質，致使邊緣不清晰，但是經過FAM模組之後的特徵圖就能降低混疊效應。

實驗結果

論文在常用的6種資料集上做了實驗，有ECSSD [8], PASCALS[9], DUT-OMRON [10], HKU-IS [11], SOD [12] and DUTS [13], 使用二值交叉熵做顯著性檢測，平衡二值交叉熵（balanced binary cross entropy）[14]作為邊緣檢測（edge detection）。

以下是文章方法跟目前state-of-the-arts的方法的對比效果，綠框是GT，紅框是本文效果。可以看到無論在速度還是精度上都有很大的優勢。

論文還針對三個改進的技術PPM、GGFs和FAMs的不同組合做了實驗，(a)是原圖，(b)是Ground truth，(c)是FPN的結果，(d)是FPN+FAMs，(e)是FPN+PPM，（f）是FPN+GGM（g）FPN+GGM+FAMs。
CVPR 2019|PoolNet:基於池化技術的顯著性檢測論文解讀

總結

該paper提出了兩種基於池化技術的模組GGM（全域性引導模組）和FAM（特徵整合模組），改進FPN在顯著性檢測的應用，而且這兩個模組也能應用在其他金字塔模型中，具有普遍性，但是FAM的整合過程我認為有點像是用平均中和了上取樣帶來的混疊效應，但是不夠優雅，先下采樣池化再上取樣帶來的損失可能代價太大。

參考文獻

[1]. Hengshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, and Jiaya Jia. Pyramid scene parsing network. In CVPR, 2017. 1, 3
[2]. Tiantian Wang, Ali Borji, Lihe Zhang, Pingping Zhang, and Huchuan Lu. A stagewise refinement model for detecting salient objects in images. In ICCV, pages 4019–4028, 2017. 1, 3, 6, 7, 8
[3].Nian Liu and Junwei Han. Dhsnet: Deep hierarchical saliency network for salient object detection. In CVPR, 2016.1, 2, 3, 7, 8
[4]. Qibin Hou, Ming-Ming Cheng, Xiaowei Hu, Ali Borji, Zhuowen Tu, and Philip Torr. Deeply supervised salient object detection with short connections. IEEE TPAMI, 41(4):815–828, 2019. 1, 2, 3, 5, 6, 7, 8
[5]. Tiantian Wang, Ali Borji, Lihe Zhang, Pingping Zhang, and Huchuan Lu. A stagewise refinement model for detecting salient objects in images. In ICCV, pages 4019–4028, 2017. 1, 3, 6, 7, 8
[6]. Tiantian Wang, Lihe Zhang, Shuo Wang, Huchuan Lu, Gang Yang, Xiang Ruan, and Ali Borji. Detect globally, refine locally: A novel approach to saliency detection. In CVPR, pages 3127–3135, 2018. 1, 3, 6, 7, 8
[7]. Hengshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, and Jiaya Jia. Pyramid scene parsing network. In CVPR, 2017. 1, 3
[8]. Qiong Yan, Li Xu, Jianping Shi, and Jiaya Jia. Hierarchical saliency detection. In CVPR, pages 1155–1162, 2013. 1, 5, 8
[9]. Yin Li, Xiaodi Hou, Christof Koch, James M Rehg, and Alan L Yuille. The secrets of salient object segmentation. In CVPR, pages 280–287, 2014. 5, 7, 8
[10]. Chuan Yang, Lihe Zhang, Huchuan Lu, Xiang Ruan, and Ming-Hsuan Yang. Saliency detection via graph-based manifold ranking. In CVPR, pages 3166–3173, 2013. 5, 6, 7, 8
[11]. Guanbin Li and Yizhou Yu. Visual saliency based on multiscale deep features. In CVPR, pages 5455–5463, 2015. 2, 5, 6, 7, 8
[12]. Vida Movahedi and James H Elder. Design and perceptual validation of performance measures for salient object segmentation. In CVPR, pages 49–56, 2010. 5, 6, 7, 8
[13]. Lijun Wang, Huchuan Lu, Yifan Wang, Mengyang Feng, Dong Wang, Baocai Yin, and Xiang Ruan. Learning to detect salient objects with image-level supervision. In CVPR, pages 136–145, 2017. 5, 7, 8
[14]. Saining Xie and Zhuowen Tu. Holistically-nested edge detection. In ICCV, pages 1395–1403, 2015. 6

CVPR 2019 | PoolNet：基於池化技術的顯著性目標檢測
2019-05-27
AAAI 2019 論文解讀 | 基於區域分解整合的目標檢測
2019-03-04
AI
CVPR 2022 | 美團技術團隊精選論文解讀
2022-06-24
基於GAN的字型風格遷移 | CVPR 2018論文解讀
2018-04-03
輪廓檢測論文解讀 | Richer Convolutional Features for Edge Detection | CVPR | 2017
2020-12-15
輪廓檢測論文解讀 | 整體巢狀邊緣檢測HED | CVPR | 2015
2020-12-08
巢狀
帶你讀AI論文：基於Transformer的直線段檢測
2021-09-11
AIORM
SysML 2019論文解讀：推理優化
2019-04-11
優化
SysML 2019論文解讀：推理最佳化
2019-04-11
KDD 2019論文解讀：多分類下的模型可解釋性
2019-08-28
模型
【小白寫論文】技術性論文結構剖析
2020-08-23
AAAI/CVPR論文詳解 | 萬字長文了解可解釋AI工具及技術的最新進展
2022-09-15
AI
CVPR 2018最佳論文作者親筆解讀：研究視覺任務關聯性的Taskonomy
2018-06-27
視覺
CVPR 2019 | 基於級聯生成式與判別式學習的乳腺鉬靶微鈣化檢測
2019-05-07
DeepVS：基於深度學習的影片顯著性方法
2018-09-26
深度學習
RMI：2019年全球電池技術發展報告解讀
2019-11-12
論文解讀 | 基於神經網路的知識推理
2018-03-08
神經網路
帶你讀AI論文丨LaneNet基於實體分割的端到端車道線檢測
2021-09-11
AI
Nature論文解讀 | 基於深度學習和心臟影像預測生存概率
2019-02-26
深度學習
基於全流量許可權漏洞檢測技術
2020-07-08
CIKM 2024 | 美團技術團隊精選論文解讀
2024-11-04
2-2. 線性池技術優化
2019-07-23
優化
《基於深度學習的目標檢測綜述》論文獲發表
2023-01-30
深度學習
不容錯過！ACL 2019論文解讀合集！
2019-08-23
【論文閱讀】CVPR2022: Learning from all vehicles
2022-03-23
SysML 2019論文解讀：影片分析系統的提升
2019-04-07
跟我讀CVPR 2022論文：基於場景文字知識挖掘的細粒度影像識別演算法
2022-04-24
演算法
ECCV 2018最佳論文解讀：基於解剖結構的面部表情生成
2018-09-14
基於RFID技術紡織樣品檢測系統
2020-11-24
騰訊AI Lab深度解讀文字生成技術相關論文
2018-10-29
AI
基於雜湊的影象檢索技術
2018-07-05
『論文精讀』Vision Transformer(VIT)論文解讀
2024-04-25
ORM
商湯ICCV論文解讀：自然場景下文字檢測的幾何歸一化網路（GNNets）
2019-12-17
GNN
一文讀懂目標檢測模型（附論文資源）
2018-05-27
模型
ACL 2019開源論文 | 基於Attention的知識圖譜關係預測
2019-11-15
SysML 2019論文解讀：視訊分析系統的提升
2019-04-07
解讀NeurIPS2019最好的機器學習論文
2020-01-09
機器學習
經典影象顯著性檢測演算法 AC/HC/LC/FT
2018-12-25
演算法

CVPR 2019|PoolNet:基於池化技術的顯著性檢測 論文解讀

研究動機

模型架構

兩個模組：

實驗結果

總結

參考文獻

相關文章

CVPR 2019|PoolNet:基於池化技術的顯著性檢測論文解讀