利用AI進行高精度影像編輯︰EditGAN

大資料文摘發表於2022-03-30

利用AI進行高精度影像編輯︰EditGAN

大資料文摘轉載自資料派THU

作者︰Nathan Horrocks

翻譯︰Gabriel Ng

校對:張睿毅


本文為大家介紹瞭如何利用AI進行高精度影像編輯。


處理貓咪、汽車、甚至是古董畫的照片,對於這項工作的需求,在以前從未能像現在一樣容易被滿足,這歸功於一個生成對抗網路 (GAN) 模型,叫做EditGAN。


這項工作出自NVIDIA、多倫多大學和麻省理工學院的研究員們,部署自 DatasetGAN (一個人工智慧視覺模型,訓練只須用少如 16張人工註釋的影像,效能雖然和其他方法一樣高效,但其他方法需要100倍更多的影像。EditGAN 有先前模型提供的強大功能,並賦能使用者去處理或操控想要的影像,例如繪圖,所用的命令很簡單,且原始影像質量不降低。



什麼是EditGAN?



根據這篇論文:




EditGAN 是第一個 GAN 驅動,影像編輯的框架,這個框架同時提供如下功能:


  • 非常高精度的編輯;
  • 僅需要非常低註釋的訓練資料(並且不需要外界的分類器);
  • 可以實時執行並互動;
  • 允許直接組合多次編輯;
  • 可處理實時嵌入影像、GAN生成影像、甚至超出設定範圍的影像。

本模型學習一個定量的編輯向量,這個向量可以在一個圖片上多次帶反饋地施加。本質上,它形成了一個針對影像集和它們的內容的直觀理解,這個直觀理解可以被使用者權衡使用,在各種特定的修改和編輯中。本模型的學習來源是相似的影像集,它能夠識別不同組成部分以及影像內物體的特定部分。一個使用者能利用這點,去定向修改不同分塊,或者在特定區域內進行編輯。本模型的精確度使得影像不會被使用者所設引數之外的因素導致失真。

利用AI進行高精度影像編輯︰EditGAN
Fig 1 EditGAN在工作中,模型中訓練的人工智慧允許使用者對原始影像進行改變,有時很戲劇性

“該框架允許我們學習編輯向量時,向量的數量能隨意設定,這使得之後這個編輯向量能在其他影像上用互相反饋的方式直接適配。”研究人員在他們的研究中解釋道。“我們用例項展示了EditGAN 可能會以之前達不到的程度操控影像的細節和自由度,同時還能保持影像質量完整。我們還可以輕鬆地合併多個編輯,並做出在 EditGAN 的訓練資料中沒有的合理編輯操作。我們在多變的影像型別上展示了 EditGAN的優勢,並量化分析了它在標準編輯裡面的參考線任務中,比之前的幾種編輯方法的超水平發揮程度。”

從新增各種微笑、改變某人注視的方向、創造一種新發型,到給汽車一套更好的輪子,研究員展示了究竟一個模型用最少的資料標註量可以逼出多少內在要素。使用者可以繪製一個簡圖,或把想要編輯的部分做一一對映,引導 AI 模型理解修改任務,例如貓耳朵增大或汽車前照燈更酷。這個AI之後渲染影像,同時維持高準確性並保持原始影像的質量。之後,同樣的編輯可以應用到其他實時影像上。

利用AI進行高精度影像編輯︰EditGAN
Fig 2 一個例子,畫素分配到影像的不同部分。AI發現該不同部分並根據人工輸入作出編輯

這個GAN的運作原理是?

EditGAN 給影像的每個畫素賦值一個類別,例如輪胎、擋風玻璃或車架。這些畫素要控制在 AI 當前的空間內,並且這些畫素要基於使用者輸入調整,讓使用者有輕鬆,靈活地編輯這些類別的空間。EditGAN 處理僅和所需更改相關的畫素。AI瞭解每個畫素的表意是通過模型訓練中的其他影像,因此你試不出來這種情況:把貓耳朵加到汽車的影像上,之後AI準確識別出結果。但是當模型正確的情況下,EditGAN 表現非常棒,提供出色的影像編輯結果。

利用AI進行高精度影像編輯︰EditGAN
Fig 3 EditGAN能夠訓練一系列類別的影像集,從動物系列到環境系列的廣泛範圍,可以使得它形成對內容的細節性理解

EditGAN的潛力

人工智慧驅動的編輯照片和影像有可能使得攝影師和內容創作者的工作流更加清晰,將創新和數字藝術賦能到新高度。EditGAN 也賦能入門的攝影師和編輯師,產出高質量內容,或少見的瘋傳模因(爆款)。

“本人工智慧可能會改變我們編輯的方式,不僅關於圖片,可能最終也關乎視訊。它允許一個人獲取影像,並使用簡單的文字命令對其更改。如果你有包含一輛汽車的一張照片,並且你想讓車輪更大,只需輸入“讓車輪更大”,噗!—— 一張圖片,完全像照片,裡面還是那輛車,輪子更大。”– 財富雜誌

EditGAN 可能也會未來被用於其他重要的應用上。比如,EditGAN 的編輯能力可以用作:生成大型資料集,包含一些既定特徵。此類定製資料集能起到很大作用,比如訓練低層次機器學習模型處理不同的計算機視覺任務。

此外,EditGAN 框架可能會影響未來幾代 GAN 的發展。雖然當前版本的 EditGAN 專注於影像編輯,但類似的方法也可潛在地被用於編輯 3D 形狀和物體,該能力將會高可用地建立虛擬 3D 內容,在遊戲、電影或元宇宙領域。

想深入瞭解有關這種神奇方法的更多資訊,請檢視論文:

英偉達始終站在技術的最前沿,請檢視英偉達研究院:

原文連結:
https://developer.nvidia.com/blog/high-precision-image-editing-with-ai-editgan/
原文標題︰
High-precision Image Editing with AI: EditGAN


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562039/viewspace-2885013/,如需轉載,請註明出處,否則將追究法律責任。

相關文章