CVPR 2019審稿滿分論文:中國博士提出融合CV與NLP的視覺語言導航新方法
整理 | 劉暢、Jane
責編 | Jane
出品 | AI科技大本營(公眾號id:rgznai100)
如何挑戰百萬年薪的人工智慧!
https://edu.csdn.net/topic/ai30?utm_source=csdn_bw
CVPR 2019 接收論文編號公佈以來,AI科技大本營開始陸續為大家介紹一些優秀論文。今天推薦的論文,將與大家一起探討一種在視覺語言導航任務中提出的新方法,來探索未知環境。
作者
這篇論文是 UC Santa Barbara 大學(加州大學聖巴巴拉分校)與微軟研究院、Duke 大學合作完成,第一作者系 UC Santa Barbara 大學的王鑫。
據 UC Santa Barbara 電腦科學系助理教授王威廉在其個人微博上發表的喜訊,這篇論文的一作是其組內的成員,獲得了 3 個 Strong Accept,在 5165 篇投稿文章中審稿得分排名第一,並且這篇論文已經確定將在 6 月的 CVPR 會議上進行報告。
這篇論文解決的任務 vision-language navigation(VLN)我們之前介紹的並不多,所以,這次營長會先給大家簡單介紹 VLN,然後從這項任務存在的難點到解決方法、實驗效果等方面為大家介紹,感興趣的小夥伴們可以從文末的地址下載論文,詳細閱讀。
什麼是 VLN?
視覺語言導航(vision-language navigation, VLN)任務指的是引導智慧體或機器人在真實三維場景中能理解自然語言命令並準確執行。結合下面這張圖再形象、通俗一點解釋:假如智慧體接收到“向右轉,徑直走向廚房,然後左轉,經過一張桌子後進入走廊...”等一系列語言命令,它需要分析指令中的物體和動作指令,在只能看到一部分場景內容的情況下,腦補整個全域性圖,並正確執行命令。所以這是一個結合 NLP 和 CV 兩大領域,一項非常有挑戰性的任務。
難點
雖然我們理解這項任務好像不是很難,但是放到 AI 智慧體上並不像我們理解起來那麼容易。對 AI 智慧體來說,這項任務通常存在三大難點:
難點一:跨模態的基標對準(cross-modal grounding);簡單解釋就是將NLP 的指令與 CV 場景相對應。
難點二:不適定反饋(ill-posed feedback);就是通常一句話裡面包含多個指令,但並不是每個指令都會進行反饋,只有最終完成任務才有反饋,所以難以判斷智慧體是否完全按照指令完成任務。
難點三:泛化能力問題;由於環境差異大,VLN 的模型難以泛化。
那這篇論文中,作者又做了哪些工作,獲得了評委們的一致青睞,獲得了 3 個 Strong Accept 呢?方法來了~
方法
1、RCM(Reinforced Cross-Modal Matching)模型
針對第一和第二難點,論文提出了一種全新的強化型跨模態匹配(RCM)方法,用強化學習方法將區域性和全域性的場景聯絡起來。
RCM 模型主要由兩個模組構成:推理導航器和匹配度評估器。如圖所示,通過訓練其中綠色的導航器,讓它學會理解區域性的跨模態場景,推斷潛在的指令,並生成一系列動作序列。另外,論文還設定了匹配度評估器(Matching Critic)和迴圈重建獎勵機制,用於評價原始指令與導航器生成的軌跡之間的對齊情況,幫助智慧體理解語言輸入,並且懲罰不符合語言指令的軌跡。
以上的方法僅僅是解決了第一個難點,所以論文還提出了一個由環境驅動的外部獎勵函式,用於度量每個動作成功的信合和導航器之間的誤差。
2、SIL(Self-supervised Imitation Learning)方法
為了解決第三個難點,論文提出了一種自監督模仿學習(Self-supervised Imitation Learning, SIL),其目的是讓智慧體能夠自主的探索未知的環境。其具體做法是,對於一個從未見過的語言指令和目標位置,導航器會得到一組可能的軌跡並將其中最優的軌跡(採用匹配度評估器)儲存到緩衝區中,然後匹配度評估器會使用之前介紹的迴圈重建獎勵機制來評估軌跡,SIL方法可以與多種學習方法想結合,通過模仿自己之前的最佳表現來得到更優的策略。
測試結果
1、測試集:R2R(Room-to-Room)Dataset;視覺語言導航任務中一個真實 3D環境的資料集,包含 7189 條路徑,捕捉了大部分的視覺多樣性,21567 條人工註釋指令,其平均長度為 29 個單詞。
2、評價指標
-
PL:路徑長度(Path Length)
-
NE:導航誤差(Navigation Error)
-
OSR:Oracle 成功率(Oracle Success Rate)
-
SR:成功率( Success Rate)
-
SPL:反向路徑長度的加權成功率(Success rate weighted by inverse Path Length)
3、實驗對比:與 SOTA 進行對比,此前在 R2R 資料集上效果最優的方法。
Baseline:Random、seq2seq、RPA 和 Speaker-Follower。
測試結果顯示,RCM 模型的效果在 SPL 指標上明顯優於當前的最優結果。
並且在 SIL 方法學習後,學習效率也有明顯的提高,在見過和未見過的場景驗證集上,並視覺化了其內部獎勵指標。
論文地址:
https://arxiv.org/pdf/1811.10092.pdf
近期值得讀的好論文:
新論文:
CVPR2019 | 微軟、中科大開源基於深度高分辨表示學習的姿態估計演算法
開源論文:
ICLR 2019 | 脫掉圖片人物的褲子,就是這麼任性
效能優秀的演算法:
PFLD:簡單、快速、超高精度人臉特徵點檢測演算法
如果你也想推薦你覺得值得一讀的論文,或者解讀了哪篇優秀論文都可以投稿給營長,上面是我們的投稿方式,投稿時請按照要求備註哦~
(本文為AI科技大本營整理文章,轉載請微信聯絡 1092722531)
人工智慧如何學?
https://edu.csdn.net/topic/ai30?utm_source=csdn_bw
群招募
掃碼新增小助手微信,回覆:公司+研究方向(學校+研究方向),邀你加入技術交流群。技術群稽核較嚴,敬請諒解。
推薦閱讀:
❤點選“閱讀原文”,檢視歷史精彩文章。
相關文章
- CVPR 2024滿分論文:浙大提出基於可變形三維高斯的高質量單目動態重建新方法
- 視覺語言兩開花!谷歌提出全新視覺語言橋樑視覺谷歌
- 自然語言處理(nlp)比計算機視覺(cv)發展緩慢,而且更難!自然語言處理計算機視覺
- 視覺語言模型導論:這篇論文能成為你進軍VLM的第一步視覺模型
- 全球計算機視覺頂會CVPR 2019論文出爐:騰訊優圖25篇論文入選計算機視覺
- 阿里巴巴論文提出針對影視作品的語音情感識別資訊融合框架阿里框架
- ICCV中國團隊入選論文:首個提出視覺相關關係構建更高語義價值視覺
- nlp中的傳統語言模型與神經語言模型模型
- ICML:2019論文接收結果視覺化視覺化
- 盤點曠視14篇CVPR 2019論文,都有哪些亮點?
- 首發 | 曠視14篇CVPR 2019論文,都有哪些亮點?
- 膠囊網路與計算機視覺教程 @CVPR 2019計算機視覺
- NLP自然語言處理中的hanlp分詞例項自然語言處理HanLP分詞
- $\Beta$分佈推導與視覺化視覺化
- 「每章都能當做一篇博士論文」:閆令琪獲SIGGRAPH 2019最佳博士論文獎
- CVPR 2019「準滿分」論文:英偉達推出首個跨攝像頭汽車跟蹤資料集
- 論文相關參考導航
- NLP論文解讀:無需模板且高效的語言微調模型(上)模型
- 2024年6月計算機視覺論文推薦:擴散模型、視覺語言模型、影片生成等計算機視覺模型
- CVPR2017部分論文簡介
- NLP需要回歸語言本質,走向語義和計算的融合
- 何愷明組又出神作!最新論文提出全景分割新方法
- CVPR 2020 | 京東AI研究院對視覺與語言的思考:從自洽、互動到共生AI視覺
- R語言分詞及視覺化協助快速瞭解導師研究方向R語言分詞視覺化
- 僅用40張圖片就能訓練視覺模型:CVPR 2019伯克利新論文說了什麼?視覺模型
- 大腦、視覺與語言有趣關係視覺
- NLP 與 NLU:從語言理解到語言處理
- CVPR 2018最佳論文作者親筆解讀:研究視覺任務關聯性的Taskonomy視覺
- 大模型時代的計算機視覺!CVPR 2024線上論文分享會啟動大模型計算機視覺
- 查詢CV頂會ICCV,CVPR,ECCV論文方法以及sota實現程式碼
- 微軟亞洲研究院NLP與語音領域2019-2020推薦論文列表微軟
- 圖學習論文快訊 | 很多新方法提出,研究活躍度高!
- 不戴眼鏡聽不清?Google用視覺訊號分離語音 | 附論文Go視覺
- CVPR 2024 | 位元組提出視覺基礎模型:ViTamin,實現多項SOTA!視覺模型
- ArXiv Weekly Radiostation:本週NLP、CV、ML精選論文30篇(1.13-1.19)iOS
- ArXiv Weekly Radiostation:本週NLP、CV、ML精選論文30篇(1.5-1.12)iOS
- ArXiv Weekly Radiostation:本週NLP、CV、ML精選論文30篇(3.1-3.7)iOS
- ArXiv Weekly Radiostation:本週NLP、CV、ML精選論文30篇(2.9-2.15)iOS