在此文章中,阿里巴巴資深演算法專家為我們介紹了影片物體分割的三個研究方向,然後結合阿里文娛摩酷實驗室的探索,分享了他們在影片領域的最新應用。
影片物體分割(Video Object Segmentation,簡稱 VOS),顧名思義就是從影片所有影像中把感興趣的物體區域完整的分割出來。
影片物體分割結果是進行內容二次創作的重要素材。例如目前火爆的「裸眼 3D 影片」,基於影片中主要物體與觀眾之間的距離,利用蒙皮遮擋的變化產生 3D 效果。其核心點是將前景物體從影片中分割出來,這部分會花費創作者 99% 以上的時間。
因此,對於優酷這樣的影片類網站,影片物體分割是非常有價值的演算法,能夠賦能內容生產者,提升內容生產效率。特別是互動式影片物體分割演算法,能利用使用者少量互動,逐步提高影片物體分割正確率,提升使用者觀感體驗。這是任何無監督影片物體分割演算法所不能達到的。
目前,CV 學術界在影片物體分割方面的研究主要分為三個方向:
半監督影片物體分割 (Semi-supervised video object segmentation)
互動式影片物體分割 (Interactive video object segmentation)
無監督影片物體分割(Un-supervised video object segmentation)
這三個研究方向對應於 Davis Challenge 2019 on Video Object Segmentation[1] 中的三個賽道。其中,學術界更傾向於研究半監督影片物體分割,因為這是影片物體分割的最基礎演算法,也是比較純粹的一個研究點。接下來,我首選介紹影片物體分割的三個研究方向,然後結合阿里文娛摩酷實驗室的探索,分享在影片領域的最新應用。
一、半監督影片物體分割
半監督影片物體分割,又稱為單一樣本影片物體分割 (one-shot video object segmentation, 簡稱 OSVOS)。在半監督影片物體分割中,給定使用者感興趣物體在影片第一幀圖片上的分割區域,演算法來獲取在後續幀上的物體分割區域。物體可以是一個,也可以是多個。在影片中,存在物體和背景運動變化、光照變化、物體旋轉變化、遮擋等,因此半監督影片物體分割演算法研究的重點是演算法如何自適應獲取變化的物體表觀資訊。一個示例如下圖所示:
圖 1. 半監督影片物體分割示例。
在圖 1 中,第一行為序列的 RGB 圖片,第二行為感興趣物體區域。其中(a)為影片第一幀影像,駱駝區域是給定物體的 ground-truth。(b)(c) 和 (d) 是後續的第 20、40 和 60 幀,後續的影像只有 RGB 圖片,需要演算法去估計物體的區域。該示例的難點是:(1) 前景背景顏色非常相似;(2)隨著目標駱駝的運動,背景中出現一個新的駱駝,需要分割出這兩個不同的駱駝區域。
目前半監督影片物體分割演算法分為兩大類:有線上學習、無線上學習。
基於線上學習的演算法根據第一幀物體的 ground-truth,利用 one-shot learning 的策略來 fine-tune 分割模型。經典的線上學習演算法包括 Lucid data dreaming[2],OSVOS[3],PreMVOS[4] 等。線上學習演算法針對每個物體單獨訓練模型,可以達到很高的分割正確率。但是線上學習本身是深度學習模型的 fine-tuning,需要耗費大量的計算時間。在 2019 年之前,線上學習演算法是主流。今年出現了不少無線上學習的演算法,它的模型是事先訓練好的,不需要針對樣本進行 fine-tune,具有更好的時效性,例如 CVPR2019 的 FEELVOS[5],Space-time memory network[6] 等。
半監督影片物體分割的最主要的結果評估標準是平均 Jaccard 和 F-measurement. 平均 Jaccard 值是所有物體在所有幀上分割精度 Jaccard 的均值。F-measurement 為分割區域邊緣的準確度。半監督影片物體分割由於其需要第一幀物體區域的 ground-truth,因此無法直接應用於實際應用。但它是互動式和無監督影片物體分割演算法的核心組成部分。
二、互動式影片物體分割
互動式影片物體分割是從去年開始興起的、更貼近實用的影片物體分割方法。在互動式影片物體分割中,輸入不是第一幀物體的 ground-truth,而是影片任意一幀中物體的使用者互動資訊。互動資訊可以是物體 bounding box、物體區域的劃線(scribble)、外邊緣的極值點等。
基本流程如下圖所示:
圖 2. 互動式影片物體分割流程。
互動式影片物體分割通常包括以下 5 個步驟:
使用者輸入互動資訊,標記感興趣物體,例如物體的 bounding box,scribble 資訊、邊緣點等;
根據使用者輸入的互動資訊,利用互動式影像物體分割演算法分割出物體在該幀影像上的物體區域;
根據前一幀物體區域,利用半監督影片物體分割演算法向影片其他幀影像逐幀傳遞,進行物體分割,得到所有幀影像上物體區域。然後,使用者檢查分割結果,在分割較差幀上,給出新的互動資訊;
演算法根據新的互動資訊,修改該幀影像上的分割結果;
重複步驟 3 和 4,直到影片物體分割結果讓使用者滿意。
互動式影片物體分割不是一個單一演算法,而且多種演算法有機融合的解決方案,包括互動式影像物體分割、半監督影片物體分割、互動式影片物體區域傳遞演算法等。其主要評估方法為 Davis Challenge on Video Object Segmentation 中提出的 Jaccard&F-measurement@60s(簡稱 J&F@60s) 和 Area Under Curve(簡稱 AUC)。Davis 競賽提出限定 8 次使用者互動,建立準確度隨時間的變化曲線圖,曲線下方區域的面積就是 AUC,t=60s 時刻曲線插值就是 J&F@60s。下圖為一個 J&F 隨時間變化曲線圖。
圖 3. 互動式分割結果 J&F 曲線示例。
從評估指標可以看出,互動式影片物體分割強調分割演算法的時效性,不能讓使用者長時間等待。所以,在互動式影片物體分割中一般不採用基於線上學習方法的半監督影片物體分割演算法。目前還沒有互動式影片物體分割的開原始碼。但是互動式影片物體分割演算法對工業界有非常重要的意義,其原因是:
半監督影片物體分割需要物體第一幀的 ground-truth,實用中獲取比較麻煩。而互動式影片物體分割只需要使用者的簡單互動,非常容易達到;
互動式影片物體分割可以透過多次互動,達到非常高的分割正確率。高精度的分割結果能夠提供更好的使用者體驗,才是使用者需要的結果。
三、無監督影片物體分割
無監督影片物體分割是全自動的影片物體,除了 RGB 影片,沒有其他任何輸入。其目的是分割出影片中顯著性的物體區域。在上述三個方向中,無監督影片物體分割是最新的研究方向。
Davis 和 Youtube VOS 競賽今年第一次出現無監督賽道。從演算法層面上說,無監督影片物體分割需要增加顯著性物體檢測模組,其他核心演算法沒有變化。
半監督和互動式影片物體分割中,物體是事先指定的,不存在任何歧義。而在無監督影片物體分割中,物體顯著性是主觀概念,不同人之間存在一定的歧義。因此,在 Davis VOS 中,要求參賽者總共提供 N 個物體的影片分割結果(在 Davis Unsupervised VOS 2019 中,N=20),與資料集 ground-truth 標記的 L 個顯著物體序列計算對應關係。對應上的物體和遺漏的物體參與計算 J&F 的均值。N 個物體中多餘的物體不做懲罰。
四、阿里文娛摩酷實驗室的研究現狀
目前很多半監督影片物體分割演算法在學術上有很好的創新,但是實用中效果不佳。我們統計了今年 CVPR 的論文,在 Davis 2017 val 資料集上,沒有一篇正會論文 J&F>0.76。FEELVOS[5]、siamMask[7] 等演算法理論上有很好,實用中卻存在多種問題。互動式影片物體分割更是沒有開原始碼。
所以,阿里文娛摩酷實驗室從 2019 年 3 月底開始從事半監督和互動式影片物體分割演算法的研究。
2019 年 5 月,我們完成一版基礎的半監督影片物體分割演算法和互動式影片物體分割解決方案,並以此參加了 DAVIS Challenge on Video Object Segmentation 2019,在互動式影片物體分割賽道獲得第四名。
我們提出的 VOS with robust tracking 策略 [8],可以較大幅度的提高基礎演算法的魯棒性。在 Davis 2017 驗證集上,我們互動式影片物體分割演算法 J&F@60s 準確率從 3 月底的 0.353 提高到 5 月初的 0.761。現在,我們的半監督影片物體分割演算法也達到了 J&F=0.763。可以說,在這個集合上我們的結果已經接近業界一流水準。
五、阿里文娛摩酷實驗室的後續計劃
目前,我們在繼續探索複雜場景下的演算法應用,這些複雜場景包括小物體、前景背景高度相似、物體運動速度很快或表觀變化很快、物體遮擋嚴重等。後續,我們計劃在 online learning、space-time network、region proposal and verification 等策略上發力,以提高影片物體分割演算法在複雜場景下的分割精度。
另外,影像物體分割演算法、多目標物體跟蹤演算法也是影片物體分割演算法的重要基礎,我們也將在這些方面持續提升精度。
Reference
[1] The 2019 DAVIS Challenge on VOS: Unsupervised Multi-Object Segmentation. S. Caelles, J. Pont-Tuset, F. Perazzi, A. Montes, K.-K. Maninis, and L. Van Gool .arXiv:1905.00737, 2019
[2] A. Khoreva, R. Benenson, E. Ilg, T. Brox, and B. Schiele. Lucid data dreaming for object tracking. In arXiv preprint arXiv: 1703.09554, 2017. 2
[3] S. Caelles, K.-K. Maninis, J. Pont-Tuset, L. Leal-Taix´e,D. Cremers, and L. Van Gool. One-shot video object segmentation. CVPR, 2017
[4] J. Luiten, P. Voigtlaender, and B. Leibe. PReMVOS: Proposal-generation, refinement and merging for video object segmentation. arXiv preprint arXiv:1807.09190, 2018.
[5] Paul Voigtlaender, Yuning Chai, Florian Schroff, Hartwig Adam, Bastian Leibe, Liang-Chieh Chen. FEELVOS: Fast End-to-End Embedding Learning for Video Object Segmentation. CVPR 2019
[6]. Seoung Wug Oh, Joon-Young Lee, Ning Xu, Seon Joo Kim.Fast User-Guided Video Object Segmentation by Interaction-and-Propagation Networks. CVPR2019
[7]. Wang, Qiang,Zhang, Li,Luca Bertinetto, Weiming Hu, Philip H.S. Torr.Fast Online Object Tracking and Segmentation: A Unifying Approach. CVPR2019
[8] H. Ren, Y. Yang, X. Liu. Robust Multiple Object Mask Propagation with Efficient Object Tracking. The 2019 DAVIS Challenge on Video Object Segmentation - CVPR Workshops, 2019