Learning Semantic Concepts and Order for Image and Sentence Matching筆記

L_xj發表於2020-10-04

SCO模型閱讀筆記

論文:Learning Semantic Concepts and Order for Image and Sentence Matching
發表會議:CVPR2018
作者:在這裡插入圖片描述

一、為什麼看?

好多關於影像-文字檢索的文章,但是大多數都忽略了影像的語義順序,當語義順序被忽略時,會造成檢索不準確,影像和文字的語義完全相反。
看點影像的語義順序如何構建
應用於跨模態影像-文字檢索

二、論文思路

影像語義之間存在差距,特別是畫素級影像缺乏語義資訊。本文提出語義增強影像和句子匹配模型,來通過學習語義概念和用一個正確的順序語義順序提高影像表示。
在這裡插入圖片描述

給定一張影像,用多區域多標籤CNN預測語義概念,包括物件、屬性、動作;
由於區域沒有順序,如何給這些語義概念排序,將全域性上下文和語義概念融合;
對應的句子用LSTM生成,並且對融合後的句子進行監督,對比相似度。
在這裡插入圖片描述

疑問?

為什麼要提取語義概念?
語義概念是影像與句子匹配的基本內容,畫素級無法完成;

為什麼不直接用影像描述?
影像描述和匹配是有區別的,影像匹配重點實在細粒度上找最相似的。影像描述體現在語義上,它不一定能夠捕獲到影像的細節。

為什麼不從語義概念上直接學習語義順序?
不同的順序就有不同的意義,語義上有意義但可能是錯誤的順序。

三、具體工作

句子表示學習:
一個完整的句子包括名詞、動詞和形容詞,分別對應語義概念中的物件、動作和屬性。對於一個句子,語義相關詞的概念本質上表現為句子的順序性。
採用傳統的LSTM來捕獲語義相關的詞和構建語義順序。
在這裡插入圖片描述

影像的語義概念提取:
目前存在的資料集中,只有影像和匹配的句子。資料集不能提供物件、屬性和動作的資訊。所以必須用多區域 多標籤的CNN進行預測。(被faster R-CNN取代) 預測語義概念等價於多標籤分類問題。
在這裡插入圖片描述

只挑選句子中的名詞、形容詞、動詞和數字,刪除同一語義相關的詞,忽略頻率低的詞。

影像語義順序學習
使用影像全域性上下文為參考和句子生成為監督。
影像全域性上下文
將全域性上下文和語義概念全部疊加在一起,不可取。因為語義概念和全域性是的重要性是不相同的。
在這裡插入圖片描述
生成的句子為監督
在這裡插入圖片描述
損失函式:
在這裡插入圖片描述
在這裡插入圖片描述
在這裡插入圖片描述

相關文章