關於生成對抗網路的七個開放性問題,個個都是靈魂追問。
生成對抗網路在過去一年仍是研究重點,我們不僅看到可以生成高解析度(1024×1024)影像的模型,還可以看到那些以假亂真的生成影像。此外,我們還很興奮能看到一些新的生成模型,它們能生成與 GAN 相媲美的影像,其主要代表就是流模型 Glow。
從 DeepMind 提出的 BigGAN,到英偉達的 Style-based Generator,它們生成的影像質量都令人驚歎。儘管還有很多問題沒有解決,但影像生成已經能騙過一般人類了。不信的話,你可以試試區分生成的影像與真實影像。
看了上面 Style-based Generator 的生成效果,很明顯感覺生成對抗網路在過去 2 年中已經取得了顯著的進展。其實,從 16 年到 18 年影像合成的質量越來越高,看論文的速度都快趕不上 GAN 的發展了:
但是在另一些方面,GAN 的提升並不是那麼顯著。例如,關於如何評估 GAN 的效果,現在仍有很多分歧。因為目前影像合成基準已經非常多了,所以反思子領域的研究目標顯得更有意義。
在這篇文章中,谷歌大腦團隊的 Augustus Odena 就針對 GAN 的七大開放性問題作出了介紹。
問題 1:如何在 GAN 和其它生成模型之間進行挑選?
問題 2:GAN 能建模哪些分佈?
問題 3:除了影像合成外,GAN 還能用於哪些地方?
問題 4:GAN 的全域性收斂性如何?訓練動態過程又是怎樣的?
問題 5:我們該如何評估 GAN 的好壞,什麼時候又該使用 GAN 這種生成模型?
問題 6:如何擴充套件訓練 GAN 的批次大小?
問題 7:GAN 和對抗樣本之間有什麼關係?
Augustus 對每一個問題都做了很詳細的討論,包括問題背景、問題內容以及如何解決等等。這篇文章釋出在 Distill 上,機器之心簡要對六大問題做了介紹,更詳細的內容與相關引用文獻可閱讀原文。
谷歌大腦和其他很多研究者都在致力於解決這些 GAN 的開放性研究問題。這篇文章也引用了近來非常多的生成對抗網路研究,因此並不能面面俱到地描述細節,所以讀者有一定的基礎、對這些問題有一定的直觀瞭解就最好了。