谷歌「虛擬攝影師」利用深度學習生成專業級攝影作品

黃小天發表於2017-07-14

機器學習在目標清晰的客觀領域取得了超乎想象的效果,比如影像識別和機器翻譯;但在主觀領域有時並不靈光,比如谷歌在本文中所探討的攝影審美問題。對此,谷歌通過一個實驗性深度學習系統,即其所謂的虛擬攝影師,瀏覽專業品質的圖片集,生成了可與專業攝影師相媲美的「攝影作品」。機器之心對該文及其論文摘要進行了編譯。


在很多領域,機器學習目標清晰,成效顯著。機器學習訓練受益於帶有正確答案的任務,演算法得以實現其既定目標,比如正確識別影像中的物體,或者兩種語言之間的互譯。然而,存在一些客觀評估不適用的領域,比如,一張影像是否美觀取決於其美學價值,這是一個高度主觀的概念。

谷歌「虛擬攝影師」利用深度學習生成專業級攝影作品

加拿大賈斯玻國家公園(Jasper National Park)的一張專業圖片

為了對機器學習如何學習主觀性概念進行探索,我們採用了一個用於藝術內容創作的實驗性深度學習系統。它模仿一個專業攝影師的工作流程,從 Google Street View 中瀏覽全景圖,搜尋最佳圖片,並進行多種後期處理,從而創作一張具有美學價值的影像。我們的「虛擬攝影師」瀏覽了~40,000 張全景圖(多是在阿爾卑斯山、班芙、賈斯玻國家公園、大蘇爾、黃石國家公園),並因此生成了令人印象深刻的創作,一些甚至達到了專業攝影師的水準。

訓練模型

儘管可以使用 AVA 等資料集對美學進行建模,但是如果天真地使用它來提升照片品質也許會漏掉美學中的一些方面,比如造成影像過飽和。然而,如果通過有監督學習來恰當地學習美學的多個方面,也許需要一個標註的卻難以收集的資料集。

我們的方法只依賴於專業品質的圖片集,無需前後的圖片對或者任何額外的標籤。它自動地把美學分解為多個方面,每一個方面藉助由成對的影像操作生成的消極例項(negative example)被單獨習得。通過使這些影像操作保持「半正交」,我們可以利用快速、可分離的優化步驟來提升影像的構成、飽和度/HDR 水平以及高光。

谷歌「虛擬攝影師」利用深度學習生成專業級攝影作品

一個全景圖(a)被剪裁成(b),飽和度和 HDR 強度在(c)中得到提升,(d)中應用了戲劇蒙版(dramatic mask)。每一步都由美學一個被習得的方面來指導。

傳統影像濾鏡用於生成飽和度、HDR 細節和構圖的消極訓練例項。我們也採用了一種稱作戲劇蒙版(dramatic mask)的特殊操作,它在學習戲劇性光線時聯合建立而得。消極例項的生成是通過把影像濾鏡的結合(可隨機調節明暗度)應用於專業圖片,降低其外觀而實現的。

我們使用生成對抗網路來進行訓練,生成模型建立了一個蒙版來對亮度進行修復,判別模型設法對增強型結果和真實結果進行區分。不同於形態固定的過濾器,比如 vignette,戲劇蒙版為照片新增了內容感知型的亮度調節(content-aware brightness adjustment)。GAN 的競爭本質導致了積極變化的產生。訓練細節詳見論文(http://arxiv.org/abs/1707.03491)。

結果

我們來自 Google Street View 的系統的創作被展示在下面。如你所見,已訓練的美學濾鏡的應用帶來了一些戲劇性的結果(包括本文所使用的影像!)

谷歌「虛擬攝影師」利用深度學習生成專業級攝影作品

加拿大賈斯玻國家公園

谷歌「虛擬攝影師」利用深度學習生成專業級攝影作品

瑞士茵特拉肯

谷歌「虛擬攝影師」利用深度學習生成專業級攝影作品

義大利 Parco delle Orobie Bergamasche 公園

谷歌「虛擬攝影師」利用深度學習生成專業級攝影作品

加拿大賈斯玻國家公園

專業評估

為了判斷我們的演算法有多麼成功,我們設計了一種像「圖靈測試」的實驗:即將我們生成的圖片和其他不同質量的圖片混合在一起,然後展示給其他幾位專業攝影師。他們需要為每張圖片的質量評分,其評分等級或依據主要如下:

1. 按下快門時沒有考慮構圖和光照等。

2. 大眾圖片中的好作品,但沒有很好的背景和特別突出的藝術風格。

3. 半專業級,好照片展示了清晰的藝術風格。攝影師也正在摸索自己的風格。

4. 專業級。

在下圖中,每一條曲線展示了專業攝影師在一定範圍內對圖片所做的評估分。我們生成的作品約有 40% 被評為半專業級到專業級之間。

谷歌「虛擬攝影師」利用深度學習生成專業級攝影作品

專業攝影師對相片所做的不同評分和系統預測分。


未來研究方向

Google Street View 全景圖可以作為我們專案的測試平臺。也許以後這一技術甚至會幫助我們拍出更好的圖片。我們編譯了一個圖片創造的展示平臺,如果我們看到喜歡的圖片,那麼就可以點選它並檢視附近的街景圖片。那麼我們就有可能在拍照的時候根據系統輔助做出相似的判斷,並拍下好圖片。

Creatism:一個可創作專業攝影作品的深度學習「攝影師」(Creatism: A deep-learning photographer capable of creating professional work)

谷歌「虛擬攝影師」利用深度學習生成專業級攝影作品

https://arxiv.org/abs/1707.03491

摘要:機器學習善於在很多目標定義明確的領域進行工作。然而,通常情況下,在像攝影這樣的藝術形式中,明確目標是不可用的。攝影的質量是由它的美學價值來衡量的,這是一個非常主觀的概念。這就增加了機器學習方法的挑戰性。

我們引入了創造論(Creatism)方法,一個用於藝術概念創作的深度學習系統。在我們的系統中,我們把美學分解成了多個層面,每一個層面都可以在一個專有例項共享資料集中進行單獨學習。每一個層面都對應一個可以被有效優化的影像運算。一個全新的編輯工具,dramatic mask,作為增強照片亮度的運算步驟被引入到系統當中。我們的訓練在影像對(image pair)的前後並不需要一個資料集,也不需要其它額外的標註來對美學的不同層面進行指示。

我們使用我們的系統模仿了風光攝影師(landscape photographer)的工作流程,包括從給最佳成分進行取景構圖到實施各種不同的後期處理工作。我們的虛擬攝影環境是由谷歌街景檢視(Google Street View)採集的一批全景影像完成的。我們設計了一個類似於「圖靈測試」的實驗,來客觀地衡量系統所創作作品的質量,而專業攝影師往往只能盲目地對來自不同來源的照片的混合體進行評估。實驗表明,我們的機器所創作的作品中的一部分可與專業級作品相媲美。谷歌「虛擬攝影師」利用深度學習生成專業級攝影作品

原文連結:https://research.googleblog.com/2017/07/using-deep-learning-to-create.html

相關文章