點選檢視本次VALSE Webinar活動詳情以及討論嘉賓和主持人的簡介等資訊:VALSE Webinar 20-20期 「見微知著」(2) - 細粒度視覺檢索特輯也歡迎您關注VALSE的B站號ValseWebinar觀看VALSE webinar歷次活動的錄影。
01
細粒度影像識別和檢索的差異?
王正:首先很直觀的是識別和檢索,它的實現形式不一樣。檢索呈現形式是一種排序,識別返回一個是與非的問題。但是這兩個問題也是可以聯絡起來的,比如我有一個排序結果,設定一個閾值,那麼排在閾值前的就可以認為它是我要識別的目標。對於細粒度的問題要考慮到底多細叫細,我認為檢索這個層面會更細一點。假如識別把貓和狗分開,再細一點是把拉布拉多和牧羊犬分開以及不同種類的拉布拉多。但是實際上很多時候檢索是一種例項級別的,把我家的拉布拉多和魏老師的拉布拉多得分開,它的粒度會更細,所以我認為檢索這個層面的粒度會更細一點,謝謝。
02
細粒度視覺有哪些重要實際應用?有哪些重要場景?
劉武:我先簡單說一下,剛才我給了一些場景,比較典型的像商品的細粒度檢索,透過細粒度檢索來做商品的結算。我也有接觸過其他的一些場景,細粒度最先提出來的資料集是做鳥類的細粒度識別,中國有很多的溼地公園包括保護區,裡面有很多不同的鳥類的,在做這種鳥類保護的時候,也要對應到細粒度識別的方法,來識別出具體是哪一類鳥,總結鳥類的數量是增加了還是減少了,對鳥類保護有很大的作用。另外,京東有一個拍照購的功能,就是可以拍一張影像,在京東商城上搜這個商品,這裡邊也會用到細粒度搜尋的技術。
王正:我結合周圍的例子說一下可能的應用,我有一個同事在日本做漫畫搜尋,他提出了一個資料集叫Manga109,漫畫這個細粒度檢索還是一個比較難的問題,因為我們發現,日本人畫的漫畫,大部分情況下都是髮型和衣服不一樣,把某個漫畫人物檢索出來還是有一定難度的,另外實際上有可能同一個人的髮型會變,比如孫悟空超級賽亞人3的狀態,他的頭髮會變長。所以我覺得漫畫檢索也算是細粒度檢索的一個部分。另外我們有跟本田合作,他做了一款導航機器人,因為導航機器人實際上有兩類攝像頭,一類是對著前方,有點類似於自動駕駛車,會分割前景,判斷前面的目標,躲避遮擋。後方實際上也有一個攝像頭,因為跟隨者的速度和機器人走的速度不一樣,在一般情況下,現在的設計都是用後方的攝像頭是對著人臉,人臉如果離開了再重新進來,他會重新註冊這個臉,再用機器人導航這個人。可能有種情況,現在大家都戴了口罩或者距離比較遠,有些遮擋,人臉不是太可靠。現在我們試著用ReID的技術來解決這個問題。當然這種細粒度也會有一些類似於監控場景的ReID的同樣的問題,還會有一些其他的問題,比如在機場多買了一些東西,或是戴了一個帽子,或者把外套脫下來,這樣的一些變化。這是我想向大家介紹的細粒度視覺的應用,一個就是漫畫檢索方面,另一個是機器人視覺的應用,謝謝。
王旗龍:在我看來視覺的應用可能多多少少都會涉及到一些細粒度的識別,只是大家現在不會特意去叫細粒度視覺。剛才王正老師也提到了個體識別的問題,包括人臉大家覺得應用很多,但是人臉也是一個很明確的個體識別的案例。劃分來看,它也完全是細粒度識別的問題,包括劉武老師也介紹了關於人的識別,車輛的識別,商品的識別,這些都是細粒度的問題。我們現在來做視覺應用的時候,可能是多粒度或者是跨粒度的問題,可能有粗粒度,但是當某些具體任務的時候,都會多多少少涉及到細粒度的問題,所以這是一個很常見的,只要涉及到視覺識別、檢索類的東西,一般情況避免不了細粒度的事情。大家對這個的認可度不是特別高,實際上會遇到,但是並不會把細粒度這個概念提的特別明確。
明悅:關於實際應用方面的問題,對於細粒度來講,應用領域還是特別多的,剛才宋老師劉老師講了很多的工作,給我的感覺都是一些很新穎的思路,實際上非常有需要也有需求,又和我們的研究密切相關。因為平時我做關於影片、行為或者人臉面部分析的工作,所以這裡面,我覺得當前的細粒度的處理可能更多面向了圖片方面的研究,我們現在有的工作,包括行為識別方面的細粒度的研究,比如要做一些司機或駕駛員他的行為、面部表情、精神狀態的分析。比如都是一樣的表情,或者是同樣的一個動作,對於不同的人、不同的目標來講,就有可能有很多很多的差異,這個我覺得也是和細粒度非常相關的工作。
還有車輛、零部件的檢測,這些零部件裡面會有很多不同的傷痕,因為要讓這個零部件有比較好執行的進展,我們對它傷痕的檢測或者是細小的瑕疵,都需要對他有一些關注。但是對於不同的部件來講,可能也有很多細粒度需要我們去進一步分析的部分,這個就是在這方面研究當中遇到的一些問題,希望和各位老師共同探討。
宋一晢:剛才幾個老師說的都非常好,這個討論的話題也非常有意義,fine-grained確實是vision的一個core problem,希望大家首先不要被fine-grained classification思想束縛,剛才幾個老師也說過了還有很多應用場景可以去慢慢地孵化。我們做的很多應該是retrieval這方面,當然發現應用場景是很重要的。我還發現一些使用者習慣的養成可能是一個突破口。使用者習慣在哪養成?比如很多人說,我不會畫,我認為文字比較好,或者我認為照片比較好,是不是在有一些environment裡,沒辦法照相,也很難打字,比如在AR和VR領域,就是一個大家考慮的方向。在retrieval來講,這個input很重要,首先這個input就得有細粒度的資訊,它沒有細粒度資訊的注入,這個retrieval也沒有辦法去做,所以我剛剛想到補充一下,使用者行為的養成很重要。第二個,就是一些場景,沒有辦法用到比較傳統的input的時候,其他的input例如手繪這種,是不是就會有用武之地。但是我還是很高興,看到劉老師在京東做了很多工作,這些方面已經有一些idea落地了。我認為再往前想一想,可能還有更好的應用場景,謝謝。
03
細粒度視覺資料庫有哪些?標註困難的問題如何解決?當前自監督和半監督學習對細粒度視覺研究有何益處?
王正:首先我說一下成像的過程,有一個目標在一個環境裡,透過攝像機的拍攝形成一張圖片。我覺得細粒度有這樣一些問題,這個目標的細節怎麼樣被捕捉?這個目標和環境有什麼樣的關係?成像的視角會不會對這個目標有影響?以及剛才宋老師說的人的熟練程度,或者人看待這個目標有什麼樣的主觀想法。
除了剛才說到一些資料集之外,我想提幾個資料集,一個是Google Landmark Retrieval資料集。它就是有一個問題,拍攝的目標。比如拍攝東京鐵塔,它的背景會有很多的干擾,比如這個東京鐵塔特別小,或者是從下往上拍,這個目標隨背景變化,以及背景噪聲對它造成的影響會有很多問題,這是一類資料集。
第二個是新出來的University1652資料集,悉尼科技大學楊毅老師組做的。他在這個基礎上會考慮拍攝的裝置的變化,比如拍了1652個學校的建築物圖片,包括幾種視角,一種是用手機拍攝的這種站在地上的視角,還有一種就是用無人機環繞拍的。另外一個是從衛星拍的。這種大的視角變化會帶來目標特徵的強烈變化,一些細節在不同的視角下它就會有一些缺失。
第三個,因為我以前一直做ReID,宋老師之前在北大出過一個sketch ReID的資料集,它是照著監控裡的人的圖片畫的資料集。但是這個資料集它是有一個統一的風格,我們考慮未來在sketch引入了以後,有沒有可能在這個領域不同人畫,因為當一個真實案件發生了以後,不可能把畫這個資料集的人來畫一個影像,他有可能是不同的人畫的。所以我覺得不同的人對人的認知和畫圖的方式,都會對這個檢索的效果產生一些影響。
這是關於資料集方面的,關於標註方面,我覺得標註類別的還好,但是如果更細了,比如畫sketch這種就比較難。另外,當在實際應用中沒有那麼多標註的時候,還是要藉助模型或者是聚類的方式先找到一些聚類,然後把這些hard example拿出來給使用者來標,那種easy example可以附一些偽標籤。中文大學的李鴻升老師之前在VALSE上也講過他們的MMT和SPCL的工作,怎麼樣用現有的模型,來幫助大家去標註,謝謝。
明悅:我做的時候覺得資料標註還是一個挺困難的問題,尤其是做一個實際專案的時候。有的時候就會想到,是不是能夠藉助比如腦認知科學,或者人類的視覺感知的偏向性的方面來輔助做一些標註性的工作。我們也在做一些相關的探索,看看是不是能夠幫助我們完成這樣的一個標註的工作。另外有一些資料時空上面的相關資訊,能不能幫我們解決一些標註上面的問題。但是這個問題,尤其是對於細粒度來講,可能和我們其他的問題還有一定的差異。有的問題,比如某一個人的身份,或者說某一個粗粒度的行為、表情,可能標註會留意一些,對於細粒度來講,可能包含姿態的變化、行為習慣上面的變化,還有一些比較細節上的資訊,這些我們怎麼樣去探索一個更好的方式方法,包括借鑑其他領域的知識去幫我們完成這樣的工作,我認為還是需要去進一步去深入探討的比較大的問題。
劉武:首先我也覺得從細粒度分類到檢索,把這個問題推向了從一個封閉域有限類別的標註變成了一個開放域的無限類別的標註,一旦是一個檢索問題,類別可能會發生很多變化,包括以後也可能會有一些變化,給標註帶來了很大的難度。以ReID為例,如果去人標的話,需要看好多的攝像頭,看好多的資料,才能挑出一兩個相關的可以標註的,困難還是非常大的,所以我們也提了data hangther這種自動標註的方法,有了這些自動標註的方法,我們可以大大節省標註的時間,同時也可以做半監督的學習。我們能夠透過這些出標註的資料,能不能做到模型提升,而模型的提升反過來做提高標註的預標註的效果,兩者是不是可以做到左右互補的正向反饋提高標註的效果。當然它可能會有一個bar在那,到達bar之後再需要人幫助,像教孩子學習一樣,再教他一些新的知識,再來提升這個效果,這是從本身來解決資料標註的問題。現在一個目前在發展的方向是做資料的生成,很多3D引擎都已經有一種非常逼真的效果,可以透過這些3D的引擎去生成一些資料,比如現在已有工作來生成ReID的資料。生成的這類資料我們既不需要去採集也不需要去標記,生成之後就可以用了,可以用來提高ReID的效果,以後我們也可以透過3D的引擎來生成細粒度商品的資料或者是動作的資料,透過生成這些資料,我們也同樣可以來訓練提升模型效果。
另外還有做一些資料的增強,或者是用self-learning的方法,來提高模型的效果,也可以繞過很多標註困難的情況。
王旗龍:現在細粒度資料庫還是挺多的,但是有些資料庫的定義是沒有具體定義到這個層次上的,有些是定義的比較明確,有些定義的不太明確,包括一些場景類,SUN和Indoor這種比較早期的場景資料庫,可以看成是一種細粒度,而且有些學者也把它當成有細粒度的任務去研究,因為它都是場景的資料集。包括一些交通標識的識別,也可以認為是一種細粒度。還有fashion、衣服之類的,有一些並沒有明確提出來是細粒度,有些明確提出來了。還有一些現在做識別來說,這些資料集可能大家都用的比較多,就像Birds, Aircraft, Cars這些比較早期的,現在大家做research的時候經常用。還有iNaturalist這些影像類的。影片類的像是商湯,CVPR 2020,提出來一個關於FineGym,是一個專門做影片的,明確強調細粒度的資料庫。這種資料庫現在挺多的,而且類別數也逐漸地增多,也更多的偏向實用性,還有包括秀參老師本身也在做關於商品的資料庫。這些資料庫還是挺多,而且慢慢地推動這個community一直往前走。其實這個領域在不斷的發展,這個dataset還是很重要的。資料庫的標註我認為是細粒度比較重要、比較難的一個問題。很多的情況需要一些專家的知識,這可能是比較麻煩的事情。如果一些常見的物體,所有人都可以去標註,甚至一些不具備專家知識的也會標註,但是對於細粒度的問題來說,包括剛剛說的狗的種類,物種的種類,確實是非常難標註的一個問題。但是這個事情是可以嘗試解決的,用自監督的方式去做細粒度是一個非常好的方式,也是非常值得去做的方式。我們現在的資料是有,但是標註是個問題,自監督可以一定程度上解決標註的問題。解決標註的問題,可以嘗試定義下游不需要重新用label去確立的一些問題,比如宋老師提到的retrieval的問題,是非常好的方式,用自監督的方式去發掘細粒度視覺資料中common的structure,然後利用這樣的特徵,去做一些無監督下游的任務,我覺得可能是一個非常好的嘗試。但如果是用這樣的方式再做Classification的話,可能還會有一些問題,因為其需要訓練Classifier,所以還會遇到標註label的問題。半監督的方式,最近也一直在提,包括一些few short的方式去做細粒度,比如樣本很少去做的話都有一個幫助。
最後一方面,如果模型本身對抗噪能力比較好的話,其實是一個不錯的方向。因為也許我們預標註困難的話,如果我們允許在一定程度上給他標註資訊是不太對的。如果對這個的label noise或者對於這樣的錯誤標註有一個自糾錯能力的話,這可能對細粒度來說更為重要。我見到一篇論文也說到了,我們現有的這些標註的細粒度資料集還是存在一些標註錯誤的。當把這些標註錯誤的資料去掉的時候,我們很多模型,還是可以得到進一步的提升,所以暗示著我們現有的這個模型,對於錯誤標註還是一個蠻大的影響。如果說能在這方面解決,標註困難,避免不了有很多標註錯誤,如果說對這方面比較魯棒,或者說有自糾錯能力的話,我們可能對於細粒度的問題更為重要,因為標註是一個很大的問題。
04
從近幾年國際相關頂級會議或可發現傳統細粒度影像識別工作有漸趨減少的端倪,未來細粒度影像分析領域會如何發展、趨勢為何?
王正:我主要說三個方向,第一類是怎麼處理這種複雜場景下的細粒度的識別或是檢索,像Google Landmark Retrieval,它的背景噪聲很大,但是在細粒度檢索的時候,我們需要關注的是目標的比較細節的資訊。當我們用這種區域性特徵,像是shift或者是deep local feature的時候,這個點有可能提在背景上。這類問題怎麼處理?因為現在大部分原來做細粒度的問題,背景還是比較乾淨的,整個畫面中大部分還是一個目標。
第二類趨勢是關注多視角或者是多模態的問題,上週在華爾茲的報告中,北大彭宇新老師介紹了他們的工作,因為他也是做細粒度的,他的關注點就是在這種跨模態的工作,包括文字、影像、影片等資訊的融合。然後在check instance search這樣的評測中,他也是開始關注到的是人物或者是地點,人物或者是相關行為結合的檢索任務。我們現在關注的這種行人檢索問題,現在也開始研究像是跨紅外和可見光,跨sketch和photo以及跨real和virtual的這種data,還有包括現在宋老師做的這個,我覺得也算是跨模態的一些工作。另外,剛才提及的university的資料集,它的不同視角也是一種比較大的影像目標資訊的變化。這類變化需要關注到是怎麼樣去做這種alignment。
第三類問題是關於風格的不同。因為人對客觀事物的認知不同,畫出來的畫,或者拍攝出來的東西,或者是描述出來的語言,就會有一些差距。怎麼樣去解決這樣的一些style的bias也是可以關注的問題。當然這是主要的三個可以關注的,還有攻擊和對抗,資料的隱私保護,以及無監督這樣的問題在細粒度識別中也是可以去關注的。
王旗龍:我簡單說一下我對這個問題的看法和理解,我先說一下關於我個人審稿經驗的一個bias。包括CVPR 2020、ECCV 2020和 NeruIPS 2020一共是7篇關於細粒度識別的文章。當然這7篇細粒度識別的文章,給我的看法更多的還是關注在傳統問題上,比如attention、一些表達的問題或者是一些loss的問題。他們其實都有一個共同的問題,就是資料集比較老。當然這肯定是根據我經驗的一個bias,Birds、Aircraft、Car基本上是從這三個資料集上去做。所謂效能來說,在這幾個資料集上達到一定的飽和程度了,可能有一些資料集有同樣的問題,比如都是有一個浮動的問題。另外一個看起來更像是現有工作的補充,所以我覺得這也是一個限制。從個人經驗來看,我反而覺得大家對細粒度的問題的認可度受到某種東西的限制。我總覺得現在大家對細粒度的概念並不是特別的清楚,而且對細粒度的概念又比較受制於一些傳統的問題,或者說傳統資料集的限制,大家一提到fine-gained的時候,往往會想到一些相關的資料集,相關的任務。可能將來,對於細粒度發展一個相對抽象一點的東西,就是我們能否對細粒度有一個具體化或者是抽象化的嚴格定義。剛才有老師也提到了對抗攻擊,對抗攻擊也是有一個抽象出來的formulation:在對影像干擾非常小的情況,最大的影響classification結果,但是細粒度只有一個非常一般化的描述:類內變化明顯,類間的差別比較細微。這是在寫影像分類論文,或者是做細粒度相關的論文,或者做細粒度相關工作的時候,大家往往都會用到的一句話。這樣一句話可能也導致大家對細粒度問題這樣的認可,也是一個問題。
第二個,我覺得從方法論上,或者從技術上來說,因為細粒度識別也分成幾個不同的平行化的方法論,比如早期的Part-based方法和High-order Pooling,宋老師基於attention或是基於loss,大家對於這些方法,在做的過程中並沒有分析這些方法起效的本質原因。比如有些方法,在不同的任務上,不同的dataset上肯定是不一致的,這個不一致是由什麼原因導致的?再比如細粒度識別任務中存在哪些問題?哪些方法對於解決哪些問題比較好?有沒有哪些問題是所有現在的方法都解決不了的?這樣的一個工作可能對於細粒度影像識別在技術上的發展是一個比較好的東西,也比較重要。有哪些方法適合解決哪些問題,他們的combine會解決哪些問題,或者這些方法都不能解決哪些問題。這件事情也有類似的工作出現,只不過可能因為一些原因沒有錄用,但是我覺得這個工作還是蠻好的,這個資訊也是對於技術上起著一個推進的作用。
另外一個,現在更多的關注是classification 、檢索這些問題,有些問題可能也是在這種Fine-grained背景下會有一些影響,比如剛才提到的開放集的識別,對於新類和舊類、已知類和未知類這樣一個檢測的問題,傳統的問題上是否有同樣的一個性質。包括現有的這種細粒度識別模型的安全性怎麼樣,它對於造成的影響抗干擾能力怎麼樣,這個都是可以探討的,可以把這個問題給擴大化,把這個任務擴大化,這是我的一個看法。
劉武:近年來細粒度影像識別工作逐漸減少,剛才王老師說的原因非常到位,目前的資料集大小太受限。今年也有審稿人在審稿細粒度影像識別時提出了資料集太小的問題,儘管論文已經用了現有的三大細粒度識別的資料集。我覺得這個領域要再出一個熱點的話,特別需要一個非常大規模的、通用化的、有助於落地應用的資料集出現,可能會帶來一波新的浪潮。剛才王老師也都分析了很多發展和趨勢,我也都非常認可,就不再贅述了,大家可以再多去思考一下。