DeepVS：基於深度學習的影片顯著性方法

PaperWeekly發表於2018-09-26

原文網址 : https://www.jiqizhixin.com/articles/2018-09-26-9

深度學習

本文概述了來自北京航空航天大學徐邁老師組 ECCV 2018 的工作 DeepVS: A Deep Learning Based Video Saliency Prediction Approach。全文主要貢獻點有三：

建立了大規模普適影片的眼動資料庫，包含了 158 子類的 538 個影片，以及詳盡的資料分析；
構造了基於運動物體的靜態結構 OM-CNN 用於檢測幀內顯著性；
構造了動態結構 SS-ConvLSTM 用於預測影片顯著性的幀間轉移，同時考慮到了顯著性的稀疏先驗和中心先驗。

■ 論文 | DeepVS: A Deep Learning Based Video Saliency Prediction Approach

■ 連結 | https://www.paperweekly.site/papers/2329

■ 原始碼 | https://github.com/remega/OMCNN_2CLSTM

DeepVS：基於深度學習的影片顯著性方法

▲ 圖1. 本文海報

背景

和圖片顯著性檢測不同，現在很少有基於深度學習的影片顯著性檢測方法。這其中有很大一部分原因是由於缺乏眼動資料，而採集人眼在影片中的視覺關注點是一件開銷很大的事情。

如圖 2 所示，已有的資料普遍規模較小，且存在一些如解析度不高，關注點取樣率低的問題。而大規模眼動資料庫如 Hollywood（Mathe and Sminchisescu, 2015）中的影片是任務驅使的（task-driven），均是用於動作識別任務的電影片段，而不是普適性影片（general videos）。相比於任務驅使的顯著性檢測，普適性影片的顯著性檢測有更多應用場景，然而此類顯著性檢測方法和資料庫都十分匱乏。

DeepVS：基於深度學習的影片顯著性方法

▲ 圖2. 已有眼動資料庫總結

資料庫與分析

為了保證影片內容的豐富性，我們粗糙構造了基於影片內容關鍵字的動態樹，並基於此在 Youtube 上下載影片，並基於實際情況修改動態樹。最終動態樹結構見圖 3，共計 158 個影片子類，538 個影片片段（部分例項見圖 4）。

DeepVS：基於深度學習的影片顯著性方法

▲ 圖3. 動態樹

DeepVS：基於深度學習的影片顯著性方法

▲ 圖4. LEDOV影片庫樣例

之後，使用 Tobii TX300 眼動儀採集 32 個被試者在這些影片上的人眼視覺關注點，共計採集 5,058,178 個關注點。

基於採集到的眼動資料，我們進行了資料分析，得到了 3 個非常直觀的發現：1）顯著性與物體相關性較高；2）顯著性與運動的物體以及物體中的運動部位相關性高；3）顯著性在幀間會存在平滑的轉移。資料分析見圖 5。

DeepVS：基於深度學習的影片顯著性方法

▲ 圖5. 資料庫分析

方法

為此，我們根據第一二點發現提出了 CNN 結構，OM-CNN（結構見圖 6）。

DeepVS：基於深度學習的影片顯著性方法

▲ 圖6. OM-CNN結構

此網路由 Objectness subnet 與 Motion subnet 構成，其中 Objectness subnet 使用了 YOLO 的結構和預訓練引數，用於提取帶有物體資訊的空間特徵。Motion subnet 使用 FlowNet 的結構和預訓練引數，用於提取帶有運動資訊的空間特徵。

為了讓網路在提取運動特徵的時候更加關注在物體區域上（發現 2），我們利用 Objectness subnet 的輸出特徵作為輸入，生成了一個 cross-net mask 作用在 Motion subnet 的卷積層上。我們認為，在訓練過程中 cross-net mask 可以很好的表示物體區域。

DeepVS：基於深度學習的影片顯著性方法

▲ 圖7. Cross-net mask視覺化

圖 7 是對 cross-net mask 的一些視覺化結果，第一行是輸入幀，第二行是真實人眼關注點（Ground truth），第三行使我們演算法的最終輸出，最後四行是在訓練過程中 cross-net mask 的變化。我們可以看到，cross-net mask 能逐漸定位到物體區域，且在之後訓練的過程中變化不大，與預期結果相似。

最終我們提取了兩個子網路的多尺度特徵，拼接在一起，來預測幀內的顯著性。值得注意的是，OM-CNN 與之後的動態結構是分開訓練的，此時的顯著圖僅用於訓練 OM-CNN，而 OM-CNN 的輸出特徵將被用於動態結構的輸入。

根據第三點發現，我們設計的動態結構 SS-ConvLSTM（見圖 8）。

DeepVS：基於深度學習的影片顯著性方法

▲ 圖8. SS-ConvLSTM結構

其主體結構是一個雙層的卷積 LSTM，用於產生畫素級的輸出。和傳統卷積 LSTM 不同的是，SS-ConvLSTM 考慮到了基於顯著性的先驗知識：中心先驗和稀疏先驗。中心先驗指的是人們在看影片或者圖片的時候往往容易關注到中心的位置。

為此，我們提出了 Center-bias Dropout（圖 9，詳細見原文）。

DeepVS：基於深度學習的影片顯著性方法

▲ 圖9. Center-bias Dropout

和普通 Dropout 不同，Center-bias Dropout 中所有畫素的 dropout rate 並不是相同的，而是基於一個 Center-bias map。簡單來說，中心區域畫素的 dropout rate 可以比邊界區域的 dropout rate 低很多。

稀疏先驗指的是人眼關注點會存在一定的稀疏性（見圖 11 第二行），而大部分已有演算法忽視了這個稀疏性（見圖 11 的 4-13 行），產生過於稠密的顯著圖。為此，我們設計了基於稀疏性的損失函式（圖 10，詳細見原文）。

DeepVS：基於深度學習的影片顯著性方法

▲ 圖10. 基於稀疏性的損失函式

在這個損失函式中，不僅計算了顯著圖和人眼關注點圖的差異，同時計算了這兩張圖的灰度直方圖分佈的差異，使得訓練過程中，輸出顯著圖的稀疏度趨於真實情況。

結果

圖 11 與圖 12 分別展示 DeepVS 和 10 種對比演算法在 LEDOV 上的主觀和客觀實驗結果。可以看到，DeepVS 生成的顯著圖更加接近人眼關注點。同時，在 AUC, NSS, CC, KL 這四種評價指標上，DeepVS 也優於對比演算法。

DeepVS：基於深度學習的影片顯著性方法

▲ 圖11. 主觀實驗結果

DeepVS：基於深度學習的影片顯著性方法

▲ 圖12. 客觀實驗結果

原文也羅列了 DeepVS 和對比演算法在另外兩個常用眼動資料庫 DIEM 和 SFU 上的實驗結果。DeepVS 仍超過所有對比演算法，有不錯的泛化能力。圖 13 展示了 DeepVS 的溶解實驗，可以看出，DeepVS 中提出的網路結構或者元件均對最終的結果有所增益。

DeepVS：基於深度學習的影片顯著性方法

▲ 圖13. 溶解實驗

基於pytorch的深度學習實戰
2018-10-12
PyTorch深度學習
基於TensorFlow的深度學習實戰
2018-04-25
深度學習
【機器學習基礎】關於深度學習的Tips
2021-11-12
機器學習深度學習
基於深度對抗學習的智慧模糊資料生成方法
2020-11-22
深度學習和神經網路的七大顯著趨勢
2018-10-09
深度學習神經網路
基於圖深度學習的自然語言處理方法和應用
2022-05-01
深度學習自然語言處理
深度學習|基於MobileNet的多目標跟蹤深度學習演算法
2022-11-09
深度學習演算法
使用深度學習進行基於AI的面部識別的不同方法
2019-01-18
深度學習AI
《深度學習案例精粹：基於TensorFlow與Keras》案例集用於深度學習訓練
2022-02-15
深度學習Keras
CVPR 2019 | PoolNet：基於池化技術的顯著性目標檢測
2019-05-27
HC(Histogram-based Contrast) 基於直方圖對比度的顯著性
2021-10-13
HistogramAST直方圖
基於深度學習的醫學影像配準學習筆記2
2020-10-06
深度學習筆記
基於深度學習模型Wide&Deep的推薦
2018-11-16
深度學習模型IDE
基於TensorFlow Serving的深度學習線上預估
2018-10-18
深度學習
基於深度學習的影像超解析度重建
2018-09-27
深度學習
基於深度學習的影象超解析度重建
2018-09-27
深度學習
基於深度學習的單通道語音增強
2020-12-25
深度學習
CVPR 2019|PoolNet:基於池化技術的顯著性檢測論文解讀
2019-05-27
什麼是深度學習的影片標註？
2023-01-12
深度學習
基於CPU的深度學習推理部署優化實踐
2018-12-24
深度學習優化
[OpenCV實戰]1 基於深度學習識別人臉性別和年齡
2019-03-04
OpenCV深度學習
深度學習基礎
2024-08-24
深度學習
基於深度學習的影像分割在高德的實踐
2019-12-16
深度學習
拯救深度學習：標註資料不足下的深度學習方法
2020-10-16
深度學習
遷移學習系列---基於例項方法的遷移學習
2022-03-09
遷移學習
基於 GitHub 的敏捷學習方法之道與術
2019-02-28
Github敏捷
基於策略搜尋的強化學習方法
2020-10-02
強化學習
深度學習——性別識別
2022-01-11
深度學習
基於深度學習的人臉性別識別系統（含UI介面，Python程式碼）
2022-04-18
深度學習UIPython
【深度學習基礎-13】非線性迴歸 logistic regression
2019-01-14
深度學習
【深度學習基礎-10】簡單線性迴歸（上）
2019-01-11
深度學習
【深度學習-基於Tensorflow的實戰】公開課實況
2018-12-21
深度學習
Action Recognition——基於深度學習的動作識別綜述
2018-12-12
深度學習
美團如何基於深度學習實現影像的智慧稽核？
2018-07-13
深度學習
faced：基於深度學習的CPU實時人臉檢測
2018-09-28
深度學習
基於深度學習的時間序列分類[含程式碼]
2019-03-12
深度學習
基於深度學習的建築能耗預測03——能耗建模
2021-11-27
深度學習
基於 10 大程式語言的 30 個深度學習庫
2021-09-09
深度學習

DeepVS：基於深度學習的影片顯著性方法

背景

資料庫與分析

方法

結果

相關文章