曠視南京研究院魏秀參:細粒度影象分析綜述

曠視科技發表於2019-02-25

本期 R Talk 主題是細粒度級別影象分析領域的現狀與展望,講述者是曠視科技南京研究院負責人魏秀參博士,主要內容包含 5 個方面:

1)簡單介紹細粒度影象分析領域;

2)細粒度影象檢索現狀;

3)細粒度影象識別現狀;

4)細粒度影象分析相關的其他計算機視覺任務;

5)細粒度影象分析發展展望。


介紹

在傳統計算機視覺研究中,影象分析通常是針對諸如“狗”“車”和“鳥”等傳統意義類別上的分類、檢索。而在許多實際應用中,影象物件往往來自某一傳統類別下較細粒度級別的不同子類類別,如不同種類的“狗”——哈士奇、阿拉斯加、比熊等;或不同種類的“車”——奧迪、寶馬、賓士等。

細粒度級別影象分析是針對此類問題的一項計算機視覺領域熱門研究課題,其目標是對上述細粒度級別影象中的物體子類進行定位、識別及檢索等若干視覺分析任務的研究,具有真實場景下廣泛的應用價值。然而因細粒度級別子類別間較小的類間差異和較大的類內差異,使其區別於傳統影象分析問題成為更具挑戰的研究課題。

現實世界中有非常普遍的細粒度影象分析任務。比如美國大自然保護協會曾在kaggle舉辦的、針對捕魚業中海船上若干種魚類的細粒度分類,甚至還有根據鯨魚尾部進行個體級別的更加細粒度的識別任務。此外,還有針對植物樹葉的細粒度識別, 城市管理場景中對過往車輛的細粒度分析, 新零售場景中商品識別的細粒度識別和檢索等等。

解決細粒度影象分析的一個關鍵是找到細粒度物體的Keypoints,利用這些關鍵部位的不同,進行鍼對性的細粒度分析,如檢索、識別等。目前,細粒度影象分析領域的經典基準資料集包括:

  • 鳥類資料集CUB200-2011,11788張影象,200個細粒度分類

  • 狗類資料集Stanford Dogs,20580張影象,120個細粒度分類

  • 花類資料集Oxford Flowers,8189張影象,102個細粒度分類

  • 飛機資料集Aircrafts,10200張影象,100個細粒度分類

  • 汽車資料集Stanford Cars,16185張影象,196個細粒度分類

細粒度影象分析一直是一個火熱的計算機視覺研究方向。每年計算機視覺頂級會議如CVPR、ICCV、ECCV、IJCAI以及頂級期刊如TPAMI、IJCV、TIP等都有大量相關論文出現。此外,圍繞這一方向還頻繁舉辦相關Workshop和挑戰賽,比如Workshop on Fine-Grained Visual Categorization、The Nature Conservancy Fisheries Monitoring、iFood Classification Challenge等。在細粒度影象分析領域,一些國際頂尖的研究機構,如史丹佛大學、加州伯克利、牛津大學皆是細粒度研究的科研重鎮。

細粒度影象分析一般有兩個核心任務,一是細粒度影象檢索,二是細粒度影象識別。下面將分別進行重點介紹。

相關文章