AI學會了視覺推理,“腦補”看不清的物體 | 李佳李飛飛等的CVPR論文
李林 發自 凹非寺
量子位 出品 | 公眾號 QbitAI
人類有一種非常強大的能力:腦補。
這張照片在人類眼中,左下角的一小片棕黃黑灰就是一匹活生生的馬——這個姿勢和場景,當然是騎馬啦!
但對於大部分的演算法來說,圖上有兩個人,就是兩個人,誰知道左下角那團東西是什麼,誰知道他們倆在幹~什~麼~
一篇新鮮出爐的CVPR 2018論文Iterative Visual Reasoning Beyond Convolutions,就嘗試著將人類的“腦補”能力帶到演算法中。
會腦補的演算法
這項研究由卡耐基梅隆大學(CMU)和Google合作完成,作者有Facebook研究員陳鑫磊(論文是他博士畢業前完成的)、Google的李佳和李飛飛、以及陳鑫磊的導師Abhinav Gupta。
他們所研究的“腦補”能力,按論文中比較嚴謹學術正式的說法,是對空間和語義的視覺推理。有了這種能力,計算機就能在一張影像中準確識別更多的物體。
比如說面對這樣一個場景,沒有空間語義推理能力的演算法只能憑車的形狀輪廓來辨認它是小汽車還是大巴,在上面的窗戶中,也只能認出沒被遮擋的那些。
藉助空間推理,和三扇窗戶排成一排又被區域性遮擋住的那個物體,也會被認作是窗戶;藉助語義推理,通身黃色上面還帶燈牌的大巴,就會被識別成校車;空間和語義推理結合起來,演算法就能認出小汽車窗戶裡那個模模糊糊的影子,其實是個人。
我們來看一看比較具體的例子:
比如上圖,深藍色標註的“滑鼠”,就是普通神經網路識別不出來,而這種會腦補的新方法能識別出來的。它在圖上很模糊,解析度非常低,但是可以根據周圍的物體推斷出來。
根據圖中的洗衣機,也可以推斷出深藍色標出的洗滌劑槽。
同樣一張影像,會腦補的演算法從中認出的物體,就比普通神經網路更多。也就是說,它從影像上框出各個物體並識別出來的能力更好。
論文的極為作者用“框出物體並識別”的區域分類任務,給這種腦補演算法跑了個分:
與普通的卷積神經網路相比,這種模型在ADE資料集上,每類平均準確率提升了8.4%,而增加網路深度只能提升1%左右。在COCO資料集上,這種模型能將準確率提升3.7%。
怎麼做到的?
他們在普通的卷積神經網路上,加上了一個視覺推理框架,由兩個核心模組組成:一個是區域性模組,運用空間記憶來儲存之前的認識,用卷積神經網路來推理;一個是全域性模組,基於圖進行推理,將區域和類視為圖中的節點,通過在它們之間傳遞資訊來進行推理。
詳細來說,全域性模組有三個部件,一個以類別為節點的知識圖譜,一個以影像中的區域為節點、以區域間的空間關係為邊界的區域圖,和一個為區域分配類別的分配圖。
最終,所有模組每次迭代的預測和注意力機制結合起來,就得出了最終的預測結果。
失敗花絮
當然,也有失敗的時候。
比如說床頭櫃上可能會放個遙控器這件事,這個演算法就和普通的卷積神經網路一樣get不到。
學神(們)
這篇論文的四位作者中,二三作是你們非常熟悉的兩位女神李佳和李飛飛啦,現在都在Google的雲端計算部門。兩位的履歷和成就,大概也不需要量子位再講一遍了。
四作Abhinav Gupta是卡耐基梅隆大學計算機系副教授,目前主要在研究如何表徵視覺世界、語言和視覺之間、行為與物件之間如何聯絡等問題。
一作陳鑫磊,是眾多同學大概都會很崇拜的學神榜樣。
這位小哥哥今年2月在卡耐基梅隆大學(CMU)獲得了博士學位,現在是Facebook AI研究院的研究員。在浙江大學讀本科的時候,他就已經發表過AAAI、CVPR、CIKM等頂會論文了。
讀博期間,他先後在微軟研究院、Google VisCAM組和Google Cloud AI團隊實習過。
他的博士學位論文Visual Knowledge Learning,研究了影像的背景知識在計算機視覺系統理解影像過程中的重要性。這篇論文比較系統地論述了計算機如何自動化、可擴充套件地學習顯式和隱式視覺知識,以及如怎樣運用視覺知識來推理。
來這裡,可以系統地膜拜一下學神:http://xinleic.xyz/
最重要的是
論文地址,當然必不可少~https://www.arxiv-vanity.com/papers/1803.11189/
以及小哥哥的博士論文地址:http://xinleic.xyz/papers/thesis.pdf
— 完 —
加入社群
量子位AI社群15群開始招募啦,歡迎對AI感興趣的同學,加小助手微信qbitbot6入群;
此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。
進群請加小助手微訊號qbitbot6,並務必備註相應群的關鍵詞~通過稽核後我們將邀請進群。(專業群稽核較嚴,敬請諒解)
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。
量子位 QbitAI · 頭條號簽約作者
վ'ᴗ' ի 追蹤AI技術和產品新動態
相關文章
- 李飛飛等提出新的迭代視覺推理框架,在ADE上實現8.4 %的絕對提升視覺框架
- 李飛飛CVPR最新論文 | 「文字轉圖」效果優化可多一步:物體關係描述優化
- 華人包攬CVPR 2019最佳論文,李飛飛ImageNet成就經典
- 這麼多人,AI怎麼知道你說的是哪個? | 李飛飛團隊CVPR論文+程式碼AI
- 史丹佛大學李飛飛等人談AI醫療:病床邊的計算機視覺AI計算機視覺
- 李飛飛團隊新論文:新網路新策略,讓AI通過視覺觀察實現因果歸納AI視覺
- 李飛飛團隊最新論文:如何對影像中的實體精準“配對”?
- 神經符號系統、因果推理、跨學科互動,李飛飛、Judea Pearl等16名學者共同探討AI未來符號AI
- 李飛飛團隊最新研究成果:視覺AI讓醫院細菌無處可逃!視覺AI
- 業界 | 李飛飛團隊最新研究成果:視覺AI讓醫院細菌無處可逃!視覺AI
- 重磅!李飛飛入選美國國家醫學科學院,她用AI改變了醫療AI
- 論文資源: CVPR、ICCV、ECCV、IJCAI等計算機視覺、影像處理頂會頂刊歷年論文連結AI計算機視覺
- 李飛飛最新訪談:我每天都在對AI的擔憂中醒來AI
- 李飛飛專訪:AI不屬於某些小眾群體,AI屬於每個人AI
- 論文解讀|李國良等:Database Meets AIDatabaseAI
- 浙大畢業,李飛飛高徒朱玉可加盟UT Austin,曾獲ICRA 2019最佳論文
- 17篇論文入選視覺領域權威頂會CVPR 百度大腦AI實力享譽國際視覺AI
- 李飛飛 CS231n 最全學霸筆記精煉版來了筆記
- 想搞懂李飛飛的創業方向?這裡有一份機器人+3D的論文清單創業機器人3D
- 史丹佛AI實驗室換帥!Christopher Manning接替李飛飛AI
- 大模型時代的計算機視覺!CVPR 2024線上論文分享會啟動大模型計算機視覺
- 我們應該如何理解李飛飛價值十億美金的“人文AI”計劃?AI
- 李飛飛創業之後首個專訪:視覺空間智慧與語言一樣根本創業視覺
- 美史丹佛大學成立以人為本AI研究院,李飛飛將領導AI
- 全球計算機視覺頂會CVPR 2019論文出爐:騰訊優圖25篇論文入選計算機視覺
- 阿里雲李飛飛:PolarDB向雲原生一體化的演進和發展阿里
- 【CVPR2018】物體檢測中的結構推理網路
- 中國計算機學會大資料專家委員會增選,阿里李飛飛、李靜遠入選正式委員計算機大資料阿里
- 李飛飛解讀創業方向「空間智慧」,讓AI真正理解世界創業AI
- 福布斯評選 8 位 AI 風雲女性,李飛飛、Coursera 創始人在列AI
- 李飛飛「空間智慧」之後,上交、智源、北大等提出空間大模型SpatialBot大模型
- SB 1047塵埃落定!州長否決,李飛飛等人有了新使命
- 出神入化:特斯拉AI主管、李飛飛高徒Karpathy的33個神經網路「煉丹」技巧AI神經網路
- 深度 | 阿里雲李飛飛:中國資料庫的時與勢阿里資料庫
- 清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路3D
- 李飛飛「空間智慧」系列新進展,吳佳俊團隊新「BVS」套件評估計算機視覺模型套件計算機視覺模型
- 大模型是否有推理能力?DeepMind數月前的論文讓AI社群吵起來了大模型AI
- AI 女神李飛飛最新文章:發展人工智慧應該以人為本AI人工智慧