英偉達新研究:“狗生貓,貓生萬物”的多模態無監督影像轉換

量子位發表於2018-04-18
林鱗 編譯整理
量子位 出品 | 公眾號 QbitAI

英偉達最近的一項研究看起來有點神奇。

一張普通的貓咪影像,可以被轉換成一隻老虎、一頭獅子或一隻美洲豹。

640?wx_fmt=png&wxfrom=5&wx_lazy=1
還是一張普通的貓咪圖,還能被轉換成不同品種的狗。

640?wx_fmt=png&wxfrom=5&wx_lazy=1
這種實時轉換技術不僅能用於影像,還能用於視訊——


這是英偉達最新創造的一項技術。在最近釋出的論文Multimodal Unsupervised Image-to-Image Translation中,研究人員提出了一種多模態無監督的影像到影像(image to image)轉換框架。

這個框架的神奇之處在於,一張貓的影像可以同時轉換成多種動物,能夠進行一對多的影像轉換,打破了原來一對一轉換的限制。

640?wx_fmt=png “狗生貓,貓生萬物”

640?wx_fmt=png 冬夏場景轉換

此外,這個框架還支援使用者通過提供示例樣式的影像控制轉換輸出的風格。
640?wx_fmt=png
這是一項有趣的技術,不僅能夠幫助遊戲開發者和電影製作者減少工作量和花費,還能讓自動駕駛領域更快、更容易地產生多樣化的訓練資料。

640?wx_fmt=png 道路的冬夏轉換

論文介紹

在論文Multimodal Unsupervised Image-to-Image Translation中,奈爾大學的Xun Huang、Serge Belongie聯合英偉達的Ming-Yu Liu與Jan Kautz提出了一種多模態無監督的影像到影像轉換問題的標準框架。

研究人員首先假設影像的潛在空間能夠分解為內容空間和樣式空間,之後再進一步假設,不同領域的影像內容空間相同,但樣式空間不同。

640?wx_fmt=png

為了將一張影像轉換為指定領域的影像,研究人員在目標樣式空間中將影像的內容程式碼和隨機的樣式程式碼重新組合。這樣,內容程式碼編碼的資訊在轉換過程中將被保留,而樣式程式碼代表了與輸入影像無關的剩餘的變體。

640?wx_fmt=png

通過抽取不同風格的程式碼,這個模型可以輸出風格多樣且多模態的影像。

實驗表明,這個模型在建立多模態輸出分佈時非常高效,並且和目前最先進的方法相比影像質量更高。

640?wx_fmt=png 與現有的樣式轉換模型的對比

這並不是英偉達在影像轉換領域的首次探索,這篇論文是在去年英偉達的NIPS論文Unsupervised Image-to-Image Translation Networks中提出的模型基礎上改進的。

相關資料

論文地址:

https://arxiv.org/abs/1804.04732

程式碼和預訓練模型獲取地址:

https://github.com/nvlabs/MUNIt

作者系網易新聞·網易號“各有態度”簽約作者


誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。

640?wx_fmt=jpeg

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態



相關文章