李林發自凹非寺
量子位出品 | 公眾號 QbitAI

人類有一種非常強大的能力：腦補。

640?wx_fmt=jpeg

這張照片在人類眼中，左下角的一小片棕黃黑灰就是一匹活生生的馬——這個姿勢和場景，當然是騎馬啦！

但對於大部分的演算法來說，圖上有兩個人，就是兩個人，誰知道左下角那團東西是什麼，誰知道他們倆在幹~什~麼~

一篇新鮮出爐的CVPR 2018論文Iterative Visual Reasoning Beyond Convolutions，就嘗試著將人類的“腦補”能力帶到演算法中。

會腦補的演算法

這項研究由卡耐基梅隆大學（CMU）和Google合作完成，作者有Facebook研究員陳鑫磊（論文是他博士畢業前完成的）、Google的李佳和李飛飛、以及陳鑫磊的導師Abhinav Gupta。

他們所研究的“腦補”能力，按論文中比較嚴謹學術正式的說法，是對空間和語義的視覺推理。有了這種能力，計算機就能在一張影像中準確識別更多的物體。

640?wx_fmt=png

比如說面對這樣一個場景，沒有空間語義推理能力的演算法只能憑車的形狀輪廓來辨認它是小汽車還是大巴，在上面的窗戶中，也只能認出沒被遮擋的那些。

藉助空間推理，和三扇窗戶排成一排又被區域性遮擋住的那個物體，也會被認作是窗戶；藉助語義推理，通身黃色上面還帶燈牌的大巴，就會被識別成校車；空間和語義推理結合起來，演算法就能認出小汽車窗戶裡那個模模糊糊的影子，其實是個人。

我們來看一看比較具體的例子：

640?wx_fmt=png

比如上圖，深藍色標註的“滑鼠”，就是普通神經網路識別不出來，而這種會腦補的新方法能識別出來的。它在圖上很模糊，解析度非常低，但是可以根據周圍的物體推斷出來。

640?wx_fmt=png

根據圖中的洗衣機，也可以推斷出深藍色標出的洗滌劑槽。

同樣一張影像，會腦補的演算法從中認出的物體，就比普通神經網路更多。也就是說，它從影像上框出各個物體並識別出來的能力更好。

論文的極為作者用“框出物體並識別”的區域分類任務，給這種腦補演算法跑了個分：

640?wx_fmt=png

與普通的卷積神經網路相比，這種模型在ADE資料集上，每類平均準確率提升了8.4%，而增加網路深度只能提升1%左右。在COCO資料集上，這種模型能將準確率提升3.7%。

怎麼做到的？

640?wx_fmt=png

他們在普通的卷積神經網路上，加上了一個視覺推理框架，由兩個核心模組組成：一個是區域性模組，運用空間記憶來儲存之前的認識，用卷積神經網路來推理；一個是全域性模組，基於圖進行推理，將區域和類視為圖中的節點，通過在它們之間傳遞資訊來進行推理。

詳細來說，全域性模組有三個部件，一個以類別為節點的知識圖譜，一個以影像中的區域為節點、以區域間的空間關係為邊界的區域圖，和一個為區域分配類別的分配圖。

最終，所有模組每次迭代的預測和注意力機制結合起來，就得出了最終的預測結果。

失敗花絮

當然，也有失敗的時候。

640?wx_fmt=png

比如說床頭櫃上可能會放個遙控器這件事，這個演算法就和普通的卷積神經網路一樣get不到。

學神（們）

這篇論文的四位作者中，二三作是你們非常熟悉的兩位女神李佳和李飛飛啦，現在都在Google的雲端計算部門。兩位的履歷和成就，大概也不需要量子位再講一遍了。

四作Abhinav Gupta是卡耐基梅隆大學計算機系副教授，目前主要在研究如何表徵視覺世界、語言和視覺之間、行為與物件之間如何聯絡等問題。

一作陳鑫磊，是眾多同學大概都會很崇拜的學神榜樣。

這位小哥哥今年2月在卡耐基梅隆大學（CMU）獲得了博士學位，現在是Facebook AI研究院的研究員。在浙江大學讀本科的時候，他就已經發表過AAAI、CVPR、CIKM等頂會論文了。

讀博期間，他先後在微軟研究院、Google VisCAM組和Google Cloud AI團隊實習過。

他的博士學位論文Visual Knowledge Learning，研究了影像的背景知識在計算機視覺系統理解影像過程中的重要性。這篇論文比較系統地論述了計算機如何自動化、可擴充套件地學習顯式和隱式視覺知識，以及如怎樣運用視覺知識來推理。

來這裡，可以系統地膜拜一下學神：http://xinleic.xyz/

最重要的是

論文地址，當然必不可少~https://www.arxiv-vanity.com/papers/1803.11189/

以及小哥哥的博士論文地址：http://xinleic.xyz/papers/thesis.pdf

— 完 —

加入社群

量子位AI社群15群開始招募啦，歡迎對AI感興趣的同學，加小助手微信qbitbot6入群；

此外，量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募，面向正在從事相關領域的工程師及研究人員。

進群請加小助手微訊號qbitbot6，並務必備註相應群的關鍵詞~通過稽核後我們將邀請進群。（專業群稽核較嚴，敬請諒解）

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號(QbitAI)對話介面，回覆“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態

AI學會了視覺推理，“腦補”看不清的物體 | 李佳李飛飛等的CVPR論文

李林發自凹非寺
量子位出品 | 公眾號 QbitAI

會腦補的演算法

怎麼做到的？

失敗花絮

學神（們）

最重要的是

相關文章

AI學會了視覺推理，“腦補”看不清的物體 | 李佳李飛飛等的CVPR論文

李林 發自 凹非寺量子位 出品 | 公眾號 QbitAI

會腦補的演算法

怎麼做到的？

失敗花絮

學神（們）

最重要的是

相關文章

李林發自凹非寺
量子位出品 | 公眾號 QbitAI