CVPR 2019 | 驚豔的SiamMask:開源快速同時進行目標跟蹤與分割演算法

AI科技大本營發表於2019-03-09

640?wx_fmt=gif


作者 | 周強(CV君)

來源 | 我愛計算機視覺(公眾號id:aicvml)

責編 | Jane


上面這張Gif圖演示了 SiamMask 的效果,只需要滑鼠滑動選擇目標的包圍框,即可同時實現目標跟蹤與分割。


這種視訊裡目標的畫素級標註,很有用,比如給視訊疊加特效可以不覆蓋目標人物,或者視訊編輯中扣掉特定目標。想想前段時間浙江衛視和北京衛視如果有了這套軟體,讓某吳姓演員從節目中消失就簡單多了,是不是?



640?wx_fmt=other


近日,CVPR 2019 的接收論文《Fast Online Object Tracking and Segmentation: A Unifying Approach》作者Qiang Wang開源了這套SiamMask程式碼,引起了極大關注。我們一起來看看吧。


論文作者資訊:


640?wx_fmt=jpeg


論文作者團隊來自中科院自動化所、牛津大學、Five AI公司。

感謝~


研究目的


以往大多數目標跟蹤得到的結果是目標的包圍框,而作者希望將跟蹤與分割結合起來,演算法“實時“給出目標的畫素級標註。


640?wx_fmt=jpeg


上圖中,左側是初始化的操作,在視訊第一幀給出目標的包圍框,右側的多張影像為普通的跟蹤演算法計算得到估計的包圍框和SiamMask估計的目標的分割mask。

演算法原理


作者是在近年出現的 SiamFC 跟蹤演算法基礎上做的改進。


下圖展示了其整天演算法流程。左側上面影像為框出來的目標影像,左側下面影像為要搜尋目標位置的視訊中的一幀,經過卷積網路,生成Row(response of a candidate window,候選視窗響應),網路後面有三個head,除了在SiamFC法中已經存在的預測box(目標位置)的head和預測響應score(目標出現概率)的head,作者增加了預測目標mask(目標二值掩碼)的head。


640?wx_fmt=jpeg


另外也可以直接去掉預測box的head,提高計算速度,包圍框也可以通過mask計算得到。網路結構如下:


640?wx_fmt=jpeg


下圖展示了使用SiamMask演算法計算得到的影像中不同位置的score值。


640?wx_fmt=jpeg

實驗結果


作者在VOT-2016、VOT-2018資料集上測試跟蹤精度,在DAVIS-2016、DAVIS-2017資料集上測試了目標分割的精度。


下圖是與普通的跟蹤演算法的結果比較:


640?wx_fmt=jpeg


640?wx_fmt=jpeg


SiamMask 相比之前的跟蹤演算法的 state-of-the-art 精度又改進不少。


下圖是與現有的視訊目標分割演算法的精度的比較:


640?wx_fmt=jpeg


雖然SiamMask精度並不是最高的,但速度卻比其他演算法快1到2個數量級!在真實應用中更有價值。


下圖為mIoU-速度的散點圖:


640?wx_fmt=jpeg


一些視訊目標分割示例(請點選檢視大圖):


640?wx_fmt=jpeg

640?wx_fmt=jpeg


重點來了!程式碼地址:

https://github.com/foolwood/SiamMask


(本文為AI科技大本營轉載文章,轉載請微信作者)



近期 CVPR 2019 論文解讀推薦:


如果你也想分享自己的論文,歡迎投稿,可掃描下方二維碼與營長聯絡:


640?wx_fmt=png

推薦閱讀:

                         640?wx_fmt=png

點選“閱讀原文”,檢視歷史精彩文章。

相關文章