【導讀】本文提出視覺相關的物件關係在語義理解上有更高的價值。在視覺關係學習表達中,我們需要關注於視覺相關關係,而避免對於視覺無關的資訊學習。由於現有資料中存在大量的非視覺的先驗資訊,方法上很容易學到簡單的位置關係或單一固定關係,而不具備進一步推測學習語義資訊的能力。從而導致現有關係資料的表徵並不能明顯提升語義相關任務效能。來 新智元AI朋友圈 和AI大咖們一起討論吧。
本文提出視覺相關的物件關係在語義理解上有更高的價值。在視覺關係學習表達中,我們需要關注於視覺相關關係,而避免對於視覺無關的資訊學習。由於現有資料中存在大量的非視覺的先驗資訊,方法上很容易學到簡單的位置關係或單一固定關係,而不具備進一步推測學習語義資訊的能力。從而導致現有關係資料的表徵並不能明顯提升語義相關任務效能。而本文提出明確了視覺關係學習中什麼是值得學習的,什麼是需要學習的。並且透過實驗,也驗證了所提出的視覺相關關係資料可以有效的提升特徵的語義理解能力。
資料及專案網站:
論文:
引文:
在計算機視覺的研究中,感知任務(如分類、檢測、分割等)旨在準確表示單個物體物件資訊;認知任務(如看圖說話、問答系統等)旨在深入理解整體場景的語義資訊。而從單個物體物件到整體場景,視覺關係表徵兩個物體之間的互動,連線多個物體構成整體場景。關係資料可以作為物體感知任務和語義認知任務之間的橋樑和紐帶,具有很高的研究價值。
考慮到關係資料在語義上的這種紐帶的作用,物件關係資料應當有效的推進計算機視覺方法對於場景語義理解上的能力。構建從單物體感知,到關係語義理解,到整體場景認知,由微觀到宏觀,由區域性到整體的層次化的視覺理解能力。
但現有關係資料中,由於大量先驗偏置資訊的存在,導致關係資料的特徵並不能有效的利用在語義理解中。其中,位置關係如``on'', ``at''等將關係的推理退化為物件檢測任務,而單一固定的關係,如``wear'',``has''等,由於資料中主體客體組合搭配固定,此類關係將關係推理退化為簡單演繹推理。因此這些關係資料的大量存在,導致關係特徵的學習更多傾向於對單物體感知,而非真正的對場景語義的理解,從而無法使關係資料發揮的作用。同時,這種語義上的、學習上的先驗偏置,無法透過常規的基於頻率或規則的方法篩選剔除,這導致上述資料端的問題阻礙了關係語義理解上的發展與研究,使得視覺物件關係的研究與語義理解的目標漸行漸遠。
本文首先提出視覺相關假設和視覺相關關係判別網路來構建具有更高語義價值的資料集。我們認為,許多關係資料不需要理解影像,僅僅透過單物體感知上的標籤資訊(如bounding box, class)就可以推斷的是關係學習中應避免的,即非視覺相關關係。而在關係資料中,對於視覺相關關係的學習與理解,將逼迫網路透過影像上的視覺資訊,推理得到關係語義資訊,而不是依賴基於單物體感知的能力,擬合先驗偏置的標籤。
在我們的方法中,我們設計了一個視覺相關判別網路,透過網路自主的學習,分辨那些僅透過一些標籤資訊即可推斷的非視覺相關關係,從而保證資料中留存的都是具有高語義價值的視覺相關關係。此外,我們設計了一個考慮關係的聯合訓練方法,有效的學習關係標籤的資訊。在實驗中,我們從兩個方面驗證了我們的想法。關係表徵學習中,在場景圖生成任務上,我們的視覺相關關係有效的拉大了學習型方法與非學習型方法之間的效能差距,由此證明了非視覺關係是關係資料中的先驗偏置且透過簡單方法即可推斷。另一方面,透過學習視覺相關關係,我們得到的特徵具有更好的語義表達與理解能力。該特徵也在問答系統、看圖說話中展現出更好的效能,由此證明了視覺相關關係是真正需要被學習,且更有利於提升語義理解能力。
方法:
1. 視覺相關判別網路(VD-Net)
提出的VD-Net用於分辨物件關係是否視覺相關。網路僅需要物體物件的位置資訊bounding box和類別資訊class,並將兩種資訊做編碼輸入,而不考慮影像資訊。具體輸入如下:
位置編碼:
其中含有物體中心點、寬高、位置關係資訊、尺寸資訊等。
針對類別資訊,我們使用類別標籤的glove 特徵向量作為輸入。
網路設定如下:
為了避免過擬合,網路設計需要儘可能的小。網路包含4個全連線層,其中,,分別是主體、客體的位置編碼及二者聯合位置編碼。,分別是主體、客體物件的類別詞向量。
透過VD-Net的學習,可以發現現有的資料集中,關係預測具有很高的準確率,在VG150中,37%的標籤在VD-Net中有至少50%的準確率。
2. 考慮關係資訊的聯合特徵學習:
我們提出的方法如下:
其中,我們使用Faster-RCNN用於特徵提取,取自於RPN部分。網路綜合的學習位置、類別、屬性和關係資訊。透過物件關係的資訊,進一步擴充特徵的語義表徵能力。
實驗:
1. 場景圖生成實驗:
Freqency-Baseline是非學習型方法,基於對資料的統計。在我們的實驗中,VrR-VG明顯的拉開了非學習方法與可學習方法之間的效能差距。更加凸顯出場景圖生成任務中,各個方法的真實效能。同時,實驗也說明非視覺相關的關係比較容易。相對來說,在含有大量非視覺關係的情況下,網路學習到的內容和基於統計的非學習型方法直接推斷的內容差距有限。
2.
在問答系統實驗中,透過學習視覺相關關係,特徵具有更好的效能,在指標上有明顯的提升。
在具體的案例分析上,透過學習視覺相關關係,特徵能夠提供更多的語義資訊。一些透過單物體資訊無法正確回答的問題,在我們的方法下有明顯的效果。
3.
在看圖說話的任務中,透過學習視覺相關關係,任務的效能也有提升。
透過對生成的句子案例分析,我們可以發現,我們的方法給出了一些具有鮮明語義關係的句子。有時句子整體會有更加鮮活的表達,內涵更加豐富的互動資訊。
結論:
在物件關係的學習與應用中,我們需要關注視覺相關關係的學習。現有關係資料不能有效的利用在語義相關的任務中,其主要問題是在資料側而非方法側。為了使物件關係應該在語義理解上有更廣泛深入的引用,需要首先明晰那些關係需要學習。在解決什麼需要學的前提下,才能在如何學習的方法側走的更遠。