這麼多人,AI怎麼知道你說的是哪個? | 李飛飛團隊CVPR論文+程式碼
夏乙 發自 凹非寺
量子位 出品 | 公眾號 QbitAI
保安,保安!抓住那個砸玻璃的人!
對於人類保安來說,理解這個指令是自然而然毫無難度的事。但機器就不一樣了:它們能從畫面中認出人人人人人,但究竟哪一個才是“砸玻璃的人”呢?
李飛飛領導的史丹佛視覺實驗室即將在CVPR 2018上發表的一篇論文Referring Relationships,研究的就是這個問題。
這篇論文提出的“指稱關係”任務,是給計算機一個“主-謂-賓”結構的“關係”描述和一張圖,讓它能將主體(主語對應的那個東西)和客體(賓語對應的那個東西)定位出來。
比如說:
他們要讓計算機在這樣一個場景中,根據“person - kicking - ball(人在踢球)”這個描述,定位出“踢球的人”和“球”,根據“person - guarding - goal(人在守門)”這個描述,定位出“守門的人”和“球門”。
要正確圈出主體和客體,計算機內心需要經歷這樣一個過程:
如上圖所示,整個過程的第一步是用CNN提取影像特徵,供演算法用來對主體和客體分別進行初步定位。
不過,不是所有的主體和客體都那麼容易找出來,比如說人很好識別,但球門就不一定了。幾位研究員所用的方法,是先找到主客體之間的關係,這樣只要定位出其中一個,就很容易找到另一個。
在這個過程中需要對謂語建模,也就是搞清楚 對主客體關係的描述。他們把謂語看作主體和客體之間的注意力移動,藉此找出主客體之間的關係。
從上面的流程圖我們也可以看出,根據主體和構建出來的關係描述,可以推斷出來注意力轉移到的區域,找到客體應該在的位置,並據此修改影像特徵。也可以根據注意力轉移,從客體推斷出主體位置。這個過程,稱為predicate shift。
運用predicate shift過程在主體和客體之間反覆傳遞訊息,最終就能將這兩個實體定位出來。
“某人在另一個某人的左邊”,這種描述中的兩個人,也可以用這種方法定位出來。
“拿著杯子的人”、“站在滑板上的人”等等也都沒問題。
李飛飛團隊在CLEVR、VRD和Visual Genome三個視覺關係資料集上評估了自己的模型,成績如下:
想要了解更多細節,請進入親自讀論文擼程式碼環節~
論文:https://arxiv.org/abs/1803.10362
Keras+TensorFlow實現:https://github.com/StanfordVL/ReferringRelationships
根據史丹佛視覺實驗室主頁介紹,他們在CVPR 2018上總共發表了三篇論文,除了量子位今天介紹的這一篇之外,還有:
What Makes a Video a Video: Analyzing Temporal Information in Video Understanding Models and Datasets
De-An Huang, Vignesh Ramanathan, Dhruv Mahajan, Lorenzo Torresani, Manohar Paluri, Li Fei-Fei, and Juan Carlos Niebles
CVPR 2018 (spotlight)Finding “It”: Weakly-Supervised Reference-Aware Visual Grounding in Instructional Video
De-An Huang, Shyamal Buch, Lucio Dery, Animesh Garg, Li Fei-Fei, and Juan Carlos Niebles
CVPR 2018 (oral)
這兩篇論文的PDF版還未放出,量子位還會繼續關注噠。
作者系網易新聞·網易號“各有態度”簽約作者
— 完 —
活動推薦
△ 點選圖片或閱讀原文
即可獲取更多詳情
聯想高校AI精英挑戰賽,覆蓋全國28個省份、8大賽區和260所高校,經過在中科大、華中科技大學、清華大學、上海交通大學等8所AI領域具有頂尖優勢的理工科高校的半決賽路演,產生最終入圍總決賽的十支參賽隊伍,於3月29日在北京中國科學院計算技術研究所舉行全國總決賽。
加入社群
量子位AI社群15群開始招募啦,歡迎對AI感興趣的同學,加小助手微信qbitbot6入群;
此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。
進群請加小助手微訊號qbitbot6,並務必備註相應群的關鍵詞~通過稽核後我們將邀請進群。(專業群稽核較嚴,敬請諒解)
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。
量子位 QbitAI · 頭條號簽約作者
վ'ᴗ' ի 追蹤AI技術和產品新動態
相關文章
- 李飛飛團隊最新論文:如何對影像中的實體精準“配對”?
- 華人包攬CVPR 2019最佳論文,李飛飛ImageNet成就經典
- AI學會了視覺推理,“腦補”看不清的物體 | 李佳李飛飛等的CVPR論文AI視覺
- 李飛飛團隊新論文:新網路新策略,讓AI通過視覺觀察實現因果歸納AI視覺
- 李飛飛CVPR最新論文 | 「文字轉圖」效果優化可多一步:物體關係描述優化
- 李飛飛團隊最新研究成果:視覺AI讓醫院細菌無處可逃!視覺AI
- 技術團隊:當指責抱怨滿天飛時,你該怎麼辦?
- 李飛飛團隊年度報告揭底大模型訓練成本:Gemini Ultra是GPT-4的2.5倍大模型GPT
- 業界 | 李飛飛團隊最新研究成果:視覺AI讓醫院細菌無處可逃!視覺AI
- CVPR 2022 | 美團技術團隊精選論文解讀
- 想搞懂李飛飛的創業方向?這裡有一份機器人+3D的論文清單創業機器人3D
- 清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路3D
- 李飛飛團隊提出OpenTag模型:減少人工標註,自動提取產品屬性值模型
- 李飛飛:World Labs這樣實現「空間智慧」
- 李飛飛專訪:AI不屬於某些小眾群體,AI屬於每個人AI
- 浙大畢業,李飛飛高徒朱玉可加盟UT Austin,曾獲ICRA 2019最佳論文
- 史丹佛AI實驗室換帥!Christopher Manning接替李飛飛AI
- 李飛飛最新訪談:我每天都在對AI的擔憂中醒來AI
- 李飛飛團隊提出ReKep,讓機器人具備空間智慧,還能整合GPT-4o機器人GPT
- 飛騰cpu是什麼架構 飛騰cpu整體效能怎樣架構
- 說了這麼多次 I/O,但你知道它的原理麼
- 飛項:如何做團隊協同辦公?請看看這兩個方法
- CVPR 2020程式碼開源的論文最全合集
- 你知道Python基本資料型別是哪6個麼Python資料型別
- 出神入化:特斯拉AI主管、李飛飛高徒Karpathy的33個神經網路「煉丹」技巧AI神經網路
- 你說說RPC的一個請求的流程是怎麼樣的?RPC
- 你上家公司前端團隊有多少人?是怎麼分工的?前端
- 李飛飛團隊多模態模型統一動作與語言;OpenAI 推出電話服務,讓更多人與 Chatgpt 對話丨 RTE 開發者日報模型OpenAIChatGPT開發者日報
- 我們應該如何理解李飛飛價值十億美金的“人文AI”計劃?AI
- 如果給你接手團隊的管理,團隊內部的流程很亂你該怎麼辦?
- 說說你是怎麼安排你工作外的時間的?
- 這 7 個 Linux 命令,你是怎麼來使用的?Linux
- 投稿量激增56%,CVPR 2019接收論文的關鍵詞是什麼?
- 李飛飛「空間智慧」系列新進展,吳佳俊團隊新「BVS」套件評估計算機視覺模型套件計算機視覺模型
- 程式碼管理流程你們是怎麼做的
- 李飛飛解讀創業方向「空間智慧」,讓AI真正理解世界創業AI
- 福布斯評選 8 位 AI 風雲女性,李飛飛、Coursera 創始人在列AI
- 7個Python實戰專案程式碼,讓你感受下大神是如何起飛的!Python