李飛飛團隊最新論文:如何對影像中的實體精準“配對”?
編譯 | 費棋
出品 | AI科技大本營(公眾號ID:rgznai100)
【導語】近日,李飛飛的史丹佛大學視覺實驗室釋出了一篇即將在 CVPR 2018上要介紹的論文 Referring Relationships(指稱關係),這篇論文主要研究的問題是給出一張影像中實體的關係網路,從而讓 AI 迅速定位出某一主體所對應的客體,或者某一客體所對應的主體。
以下內容來自 Referring Relationships 論文,AI科技大本營摘譯:
影像不僅僅是物件集合,每個影像都代表一個互相關聯的關係網路。實體之間的關係具有語義意義,並能幫助觀察者區分實體的例項。例如,在一張足球比賽的影像中,可能有多人在場,但每個人都參與著不同的關係:一個是踢球,另一個是守門。
在本文中,我們制定了利用這些“指稱關係”來消除同一類別實體之間的歧義的任務。我們引入了一種迭代模型,它將指稱關係中的兩個實體進行定位,並相互制約。我們通過建模謂語來建立關係中實體之間的迴圈條件,這些謂語將實體連線起來,將注意力從一個實體轉移到另一個實體。
我們證明了我們的模型不僅好於在三種資料集上實現的現有方法— CLEVR,VRD 和 Visual Genome —而且它還可以產生視覺上有意義的謂語變換,可以作為可解釋神經網路的一個例項。最後,我們展示了將謂語建模為注意力轉換,我們甚至可以在沒有其類別的情況下進行定位實體,從而使模型找到完全看不見的類別。
▌指稱關係任務
指稱表達可以幫助我們在日常交流中識別和定位實體。比如,我們能夠指出“踢球人”來區分“守門員”(圖 1)。在這些例子中,我們都可以根據他們與其它實體的關係來區分這兩人。 當一個人射門時,另一個人守門。 最終的目標是建立計算模型,以識別其他人所指的實體。
圖1:指稱關係通過使用實體間的相對關係來消除同一類別例項之間的歧義。給出這種關係之後,這項任務需要我們的模型通過理解謂語來正確識別影像中的踢球人。
指稱關係任務的結構化關係輸入允許我們評估如何明確地識別影像中同一類別的實體。我們在包含視覺關係的三個視覺資料集上評估我們的模型 2:CLEVR,VRD 和 Visual Genome 。這些資料集中 33%、60.3% 和 61% 的關係是指不明確的實體,也即指具有相同類別的多個例項的實體。我們擴充套件了模型,使用場景圖的關係來執行注意力掃視。最後,我們證明,在沒有主體或客體的情況下,我們的模型仍然可以在實體之間消除歧義,同時也可以定位以前從未見過的新類別。
▌指稱關係模型
我們的目標是通過對指稱關係的實體進行定位,從而使用輸入的指稱關係來消除影像中的實體歧義。 形式上而言,輸入是具有指稱關係的影像 I,R = ,它們分別是主體,謂語和物件類別。 預計這個模型可以定位主體和客體。
▌模型設計
我們設計了一個迭代模型,學習如何在視覺關係中使用謂語來操作注意力轉移,這受到了心理學中移動聚光理論的啟發。給出足球的初始估值後,它會學習踢球的人必須在哪裡。同樣,如果對人進行估值,它將會學習確定球的位置。通過在這些估值之間進行迭代,我們的模型能夠專注於正確例項,並排除其它例項。
圖 2:指稱關係的推理首先要提取影像特徵,這是用於生成主體和客體的基礎。接下來,這些估值可以用來執行轉換注意力,注意力使用了從主體到我們所期望客體位置的謂語。在對客體的新估值進行細化的同時,我們通過關注轉換區域來修改影像特徵。同時,我們研究了從初始客體到主體的反向移位。通過兩個預測移位模組迭代地在主體和物件之間傳遞訊息,可以最終定位這兩個實體。
▌實驗
我們在跨三個資料集的指稱關係中評估模型效能來進行實驗操作,其中每個資料集提供了一組獨特的特徵來補充我們的實驗。 接下來,我們評估在輸入指稱關係中缺少其中一個實體的情況下如何改進模型。 最後,通過展示模型如何模組化並用於場景圖注意力掃視來結束實驗。
以下是我們在 CLEVR、VRD 和 Visual Genome 上的評估結果。 我們分別標出了對主題和物件定位的 Mean IoU 和 KL 分歧:
圖 3:(a)相對於影像中的主體,當使用關係來查詢客體時,左邊的謂語會把注意力轉移到右邊。相反,當使用物體找到主體時,左側的逆謂語會將注意力轉移到左側。在輔助材料中,我們視覺化了 70 個 VRD、6 個 CLEVR 和 70 個 Visual Genome 的謂語和逆謂語轉化(b)我們還看到,在檢視用於瞭解它們的資料集時,這些轉換是直觀的。
圖 4:這是 CLEVR 和 Visual Genome 資料集的注意力轉移如何跨越多次迭代的示例。在第一次迭代時,模型僅接收試圖找到以及嘗試定位這些類別中所有例項的實體資訊。在後面的迭代中,我們看到謂語轉換注意力,這可以讓我們的模型消除相同類別的不同例項之間的歧義。
圖 5:我們可以將我們的模型分解成其注意力和轉換模組,並將它們堆疊起來作為場景圖的節點。 在這裡,我們演示瞭如何使用模型從一個節點(手機)開始,並使用指稱關係來通過場景圖連線節點,並在短語<拿電話的人旁邊有人身穿夾克>中定位實體。 第二個例子是關於<在戴帽子的人的右邊有個人一張桌子前>中的實體。
▌結論
我們介紹了指稱關係的目的,其中我們的模型利用視覺關係來消除了同一類別例項之間的歧義。我們的模型學習去迭代地使用謂語作為一種關係裡,兩個實體之間的注意力轉換。它通過分別對主體和客體的先前位置進行預測,來更新其關於主體和客體的位置資訊。我們展示了 CLEVR,VRD 和 Visual Genome 資料集的改進,證明了我們的模型產生了可解釋的謂語轉換,使我們能夠驗證模型實際上是在學習轉移注意力。通過依賴部分指稱關係以及如何將其擴充套件到場景圖上執行注意力掃視,我們甚至展示瞭如何使用我們的模型來定位完全看不見的類別。指稱關係的改進可能為視覺演算法探測未見的實體鋪路,並學習如何增強對視覺世界的理解。
作者:Ranjay Krishna , Ines Chami, Michael Bernstein, Li Fei-Fei
相關文章
- 這麼多人,AI怎麼知道你說的是哪個? | 李飛飛團隊CVPR論文+程式碼AI
- 李飛飛最新訪談:我每天都在對AI的擔憂中醒來AI
- 李飛飛團隊新論文:新網路新策略,讓AI通過視覺觀察實現因果歸納AI視覺
- 李飛飛CVPR最新論文 | 「文字轉圖」效果優化可多一步:物體關係描述優化
- 李飛飛團隊最新研究成果:視覺AI讓醫院細菌無處可逃!視覺AI
- 業界 | 李飛飛團隊最新研究成果:視覺AI讓醫院細菌無處可逃!視覺AI
- 飛行員配對方案問題
- 華人包攬CVPR 2019最佳論文,李飛飛ImageNet成就經典
- AI學會了視覺推理,“腦補”看不清的物體 | 李佳李飛飛等的CVPR論文AI視覺
- 李飛飛等提出新的迭代視覺推理框架,在ADE上實現8.4 %的絕對提升視覺框架
- 清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路3D
- 李飛飛團隊提出OpenTag模型:減少人工標註,自動提取產品屬性值模型
- 李飛飛團隊年度報告揭底大模型訓練成本:Gemini Ultra是GPT-4的2.5倍大模型GPT
- 浙大畢業,李飛飛高徒朱玉可加盟UT Austin,曾獲ICRA 2019最佳論文
- 朱松純將回國加入清華,曾對李飛飛建立ImageNet有啟示
- 獨家對話李飛飛:雲資料庫戰爭已經進入下半場資料庫
- 李飛飛團隊提出ReKep,讓機器人具備空間智慧,還能整合GPT-4o機器人GPT
- 李飛飛:World Labs這樣實現「空間智慧」
- CIKM 2024 | 美團技術團隊精選論文解讀
- CVPR 2022 | 美團技術團隊精選論文解讀
- 李飛飛 CS231n 最全學霸筆記精煉版來了筆記
- 深度 | 阿里雲李飛飛:中國資料庫的時與勢阿里資料庫
- 李飛飛等人提出Auto-DeepLab:自動搜尋影像語義分割架構架構
- 想搞懂李飛飛的創業方向?這裡有一份機器人+3D的論文清單創業機器人3D
- 李飛飛團隊多模態模型統一動作與語言;OpenAI 推出電話服務,讓更多人與 Chatgpt 對話丨 RTE 開發者日報模型OpenAIChatGPT開發者日報
- 李飛飛反對,馬斯克、Hinton、Bengio支援,加州AI監管法案即將塵埃落定馬斯克AI
- 對話李飛飛:下一代企業級資料庫6大技術方向資料庫
- 邂逅 CODING ,墨刀測試團隊實現「質」的飛躍
- 看圖聊天的騷操作,MIT開發精準到單詞的語音-影像配對系統MIT
- 史丹佛AI實驗室換帥!Christopher Manning接替李飛飛AI
- 李飛飛「空間智慧」系列新進展,吳佳俊團隊新「BVS」套件評估計算機視覺模型套件計算機視覺模型
- AI 女神李飛飛最新文章:發展人工智慧應該以人為本AI人工智慧
- 阿里巴巴副總裁李飛飛:如何看待資料庫的未來?阿里資料庫
- 李飛飛:語言之外,另一半的智慧還有待實現
- 基於準則匹配的影像對準
- 阿里雲李飛飛:PolarDB向雲原生一體化的演進和發展阿里
- 團隊協作軟體有哪些?用飛項實現高效協同辦公
- 我們應該如何理解李飛飛價值十億美金的“人文AI”計劃?AI