這麼多人，AI怎麼知道你說的是哪個？ | 李飛飛團隊CVPR論文+程式碼

640?wx_fmt=jpeg

保安，保安！抓住那個砸玻璃的人！

對於人類保安來說，理解這個指令是自然而然毫無難度的事。但機器就不一樣了：它們能從畫面中認出人人人人人，但究竟哪一個才是“砸玻璃的人”呢？

李飛飛領導的史丹佛視覺實驗室即將在CVPR 2018上發表的一篇論文Referring Relationships，研究的就是這個問題。

這篇論文提出的“指稱關係”任務，是給計算機一個“主-謂-賓”結構的“關係”描述和一張圖，讓它能將主體（主語對應的那個東西）和客體（賓語對應的那個東西）定位出來。

比如說：

640?wx_fmt=png

他們要讓計算機在這樣一個場景中，根據“person - kicking - ball（人在踢球）”這個描述，定位出“踢球的人”和“球”，根據“person - guarding - goal（人在守門）”這個描述，定位出“守門的人”和“球門”。

要正確圈出主體和客體，計算機內心需要經歷這樣一個過程：

640?wx_fmt=jpeg

如上圖所示，整個過程的第一步是用CNN提取影像特徵，供演算法用來對主體和客體分別進行初步定位。

不過，不是所有的主體和客體都那麼容易找出來，比如說人很好識別，但球門就不一定了。幾位研究員所用的方法，是先找到主客體之間的關係，這樣只要定位出其中一個，就很容易找到另一個。

在這個過程中需要對謂語建模，也就是搞清楚對主客體關係的描述。他們把謂語看作主體和客體之間的注意力移動，藉此找出主客體之間的關係。

從上面的流程圖我們也可以看出，根據主體和構建出來的關係描述，可以推斷出來注意力轉移到的區域，找到客體應該在的位置，並據此修改影像特徵。也可以根據注意力轉移，從客體推斷出主體位置。這個過程，稱為predicate shift。

運用predicate shift過程在主體和客體之間反覆傳遞訊息，最終就能將這兩個實體定位出來。

640?wx_fmt=png

“某人在另一個某人的左邊”，這種描述中的兩個人，也可以用這種方法定位出來。

640?wx_fmt=png

“拿著杯子的人”、“站在滑板上的人”等等也都沒問題。

李飛飛團隊在CLEVR、VRD和Visual Genome三個視覺關係資料集上評估了自己的模型，成績如下：

640?wx_fmt=png

想要了解更多細節，請進入親自讀論文擼程式碼環節~

論文：https://arxiv.org/abs/1803.10362

Keras+TensorFlow實現：https://github.com/StanfordVL/ReferringRelationships

根據史丹佛視覺實驗室主頁介紹，他們在CVPR 2018上總共發表了三篇論文，除了量子位今天介紹的這一篇之外，還有：

What Makes a Video a Video: Analyzing Temporal Information in Video Understanding Models and Datasets
De-An Huang, Vignesh Ramanathan, Dhruv Mahajan, Lorenzo Torresani, Manohar Paluri, Li Fei-Fei, and Juan Carlos Niebles
CVPR 2018 (spotlight)
Finding “It”: Weakly-Supervised Reference-Aware Visual Grounding in Instructional Video
De-An Huang, Shyamal Buch, Lucio Dery, Animesh Garg, Li Fei-Fei, and Juan Carlos Niebles
CVPR 2018 (oral)

這兩篇論文的PDF版還未放出，量子位還會繼續關注噠。

— 完 —

活動推薦

△ 點選圖片或閱讀原文

即可獲取更多詳情

聯想高校AI精英挑戰賽，覆蓋全國28個省份、8大賽區和260所高校，經過在中科大、華中科技大學、清華大學、上海交通大學等8所AI領域具有頂尖優勢的理工科高校的半決賽路演，產生最終入圍總決賽的十支參賽隊伍，於3月29日在北京中國科學院計算技術研究所舉行全國總決賽。

加入社群

量子位AI社群15群開始招募啦，歡迎對AI感興趣的同學，加小助手微信qbitbot6入群；

此外，量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募，面向正在從事相關領域的工程師及研究人員。

進群請加小助手微訊號qbitbot6，並務必備註相應群的關鍵詞~通過稽核後我們將邀請進群。（專業群稽核較嚴，敬請諒解）

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號(QbitAI)對話介面，回覆“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態

相關文章