阿里妹導讀:視覺想象力是人與生俱來的, AI 能否擁有類似的能力呢?比如:給出一段故事情節,如何讓機器展開它的想象力,“腦補”出畫面呢?看看阿里AI Labs 感知實驗室的同學們如何解決這個問題。
1. 背景 —— 視覺想象力(Visual Imagination)
1.1 什麼是視覺想象力?

1.2 AI擁有視覺想象力後的影響?


2. 選題 —— 站在巨人的肩膀上
2.1 領域的痛點在哪?



2.2 如何解決?—— 我們眼中的大框架

2.3 論文的關注點
3. 論文的動機及貢獻
3.1 當前的問題
★ 3.1.1 最接近的工作與組合爆炸問題

★ 3.1.2 語義構圖評價指標的缺失
3.2 Seq-SG2SL的動機


3.3 SLEU的動機
1)要想完成自動化評估,必須需要真值。 2)SLEU的設計目的就是要度量一個生成的語義構圖與真值之間的差異。
3.4 論文的貢獻
4. 方法要點簡述
4.1 Seq-SG2SL框架

框架的主要思想就講完了,細節的話感興趣的讀者可以去看論文。
4.2 SLEU指標
5. 實驗結果預覽

https://arxiv.org/abs/1908.06592
參考文獻:
[1] Qiao et al., MirrorGAN: Learning Text-To-Image Generation by Redescription, CVPR 2019.
[3] https://github.com/SummitKwan/transparent_latent_gan
[4] Zhang et al., StackGan: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks, ICCV 2017.
[5] Johnson et al., Image Generation from Scene Graphs, CVPR 2018.
[6] Krishna et al., Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations, IJCV 2017.