這種兩階段深度著色模型,為黑白照披上了綵衣

機器之心發表於2018-09-18

影象著色一直是比較困難的任務,近日港科大、中科大和微軟研究提出了一種結合了影象檢索與影象著色的模型。該模型首先會從大量參照影象中檢索和灰度圖相似的影象,然後再將該參照影象的配色方案遷移到灰度圖中。這種深度模型實現了非常好的著色效果,感興趣的讀者也可以檢視原論文與 GitHub 專案。

影象著色的目的是為灰度影象增添色彩,使影象更具視覺感知力和吸引力。由於影象的灰度畫素可以被輸入許多種顏色(例如樹葉可能是綠色、黃色或棕色),所以這個問題難以解決,它本質都是模稜兩可的。因此目前沒有唯一正確的解決方案,人工介入往往在著色過程中起著重要的作用。

引導著色的手動標註資訊通常有兩種形式:使用者引導的塗鴉或樣本參照圖。在第一種形式中,為了得到可信的結果,必須仔細選擇塗鴉或調色盤的顏色。這需要豐富的經驗和良好的審美,因此對於未經訓練的使用者來說是一個挑戰;在第二種形式中,為了便於處理,我們需要給出了與灰度圖同類的彩色圖作為色彩基準。為了抽取這種色彩基準,首先需要建立對應關係,然後在最可靠的對應關係上傳播色彩。然而,結果的質量很大程度上取決於參照圖片的選擇。光照、視角、內容不一致等因素會導致參照和目標間有巨大差異,進而誤導著色演算法。

利用巨大的參考影象資料庫搜尋最相似的影象塊或畫素進行著色不失為一種可靠的方法。最近,深度學習技術在大型資料建模方面多有建樹。影象著色問題可以被看作迴歸問題,並利用深度神經網路直接求解。目前很多方法都可以全自動地給新照片附色,無需任何參考,但是這些方法都無法實現多模態著色 [Charpiat et al. 2008]。他們的模型主要利用從資料中學到的主色調,阻礙了使用者對其它色調的選擇與使用。另一個缺點是,這些模型必須在一個涵蓋所有可能參考影象的巨大資料庫中進行訓練。

最近的研究都試圖在互動的可控性和學習的魯棒性兩方面都做到最好。Zhang 和 Sangkloy 等人在深度神經網路中以色點和筆畫的形式新增人工資訊,以便為使用者推薦繪製時最可能需要的顏色。這極大促進了傳統基於塗鴉的互動,並實現了通過大規模資料學習到更自然的顏色。然而,塗鴉對於獲得高質量的結果仍然必不可少,所以還需要一定的試錯。

本文中採取了另一種型別的混合解決方案。研究者提出了第一種基於樣本的區域性著色方法。與現有的著色網路相比,該網路可以通過選擇不同的參照圖來控制著色的輸出。如圖 1 所示,參考影象可能與目標相似也可能不同,但最後總能得到差不多的色彩結果,這些顏色在視覺上忠於參照圖,並且色彩也非常有意義。

這種兩階段深度著色模型,為黑白照披上了綵衣

圖 1:黑白照片著色結果。研究人員通過提供不同的參照圖片,能為目標影象生成多個貼近真實的著色效果。

為了實現這一目標,研究者提出了一個卷積神經網路(CNN),它可以從對齊的參照影象中直接選擇、傳播和預測灰度影象顏色。此方法在質量上優於已有基於樣本的方法,它的成功之處在於使用基於樣本著色框架中的兩個新型子網路。

首先,相似性子網路(Similarity sub-net)是著一種預處理步驟,它為端到端著色網路提供了輸入。相似性網路度量的是在灰度影象目標識別任務中,利用 VGG-19 網路預訓練的參照圖和目標圖間的語義相似性。與之前基於低階特徵的度量比,它為不同的語義影象提供了更具魯棒性和可靠性的相似性度量。

然後著色子網路(Colorization sub-net)為相似或不同的塊/畫素對提供更一般的著色方案。它利用多工學習訓練兩個不同的分支,兩個分支共享相同的網路和權重,但損失函式不同:1)色度損失(Chrominance loss),激勵網路選擇性傳播滿足色彩一致性的相關塊/畫素;2)感知損失(Perceptual loss),使著色結果和真色彩影象在高階特徵表示空間上緊密匹配。即使在參照圖中沒有合適匹配區域的情況下(參見圖 2),也能確保從大規模資料中學習到適當的著色。因此,該方法與其它基於樣本的方法不同,它可以大大放寬需要選擇良好參照圖的限制。

這種兩階段深度著色模型,為黑白照披上了綵衣

圖 2:目標是有選擇地向相關影象塊/畫素傳播正確參照圖顏色(紅點表示),並在參照圖中沒有合適匹配區域(紅色輪廓線表示)時,從大規模資料中預測自然的顏色。

為引導使用者進行有效的參照圖選擇,系統會根據本文所提出的影象檢索演算法推薦最可能的參照圖。它利用高階語義資訊和低階亮度統計資訊來搜尋 ImageNet 資料集中最相似的影象 [Russakovsky et al. 2015]。在這個檢索演算法的幫助下,研究者提出的方法可以看作一個全自動著色系統。實驗表明,該自動著色系統在數量和質量上都優於現有的著色方法,甚至可以和當前最先進的互動方法 [Zhang et al. 2017; Sangkloy et al. 2016] 產生的高質量結果相媲美,此方法也可以擴充套件到視訊著色。

研究成果如下:(1)提出第一個基於樣本著色的深度學習方法,它具備可控性並對參照圖的選擇有魯棒性。(2)提出一種全新的端到端雙支路網路架構,當無法獲取優秀的參照圖時,模型會聯合學習有意義的參照圖區域性著色和近似合理的色彩預測。(3)提出用於推薦的參照影象檢索演算法,也可用於實現全自動著色。(4)提出一種能遷移到非自然影象的方法,即使網路只在自然影象訓練集上訓練。(5)可以擴充套件到視訊著色。

論文:Deep Exemplar-based Colorization

這種兩階段深度著色模型,為黑白照披上了綵衣

摘要:我們提出了第一個基於樣本的區域性著色深度學習方法。當給定一個參照彩色影象時,我們的卷積網路將直接將灰度影象對映到輸出的彩色影象中。與傳統基於樣本方法的手動標註規則不同,我們的端到端著色網路會學習如何從大規模資料中選擇、傳播和預測顏色。即使參照影象與輸入灰度影象無關,該方法仍然有較強的魯棒性和泛化能力。更重要的是,與其他基於學習的著色方法不同,我們的網路允許使用者簡單地輸入不同參照圖片,就可實現對應的結果。為了進一步減少人工選擇參照影象的工作量,系統採用我們提出的影象檢索演算法自動推薦參照影象,該檢索演算法同時兼顧到語義資訊和亮度資訊。通過簡單地選取推薦參照影象,即可實現全自動著色。通過使用者調查和與目前最優方法定量比較,我們對該方法進行了驗證。此外,我們的方法可以自然地擴充到視訊著色。程式碼和模型都會開源給大家。

這種兩階段深度著色模型,為黑白照披上了綵衣

圖 3:系統結構圖(推斷階段)。該系統由兩個子網路構成。相似性子網路作為預處理步驟使用 Input 1,Input 1 包含兩個分別來自目標圖和參照圖的亮度通道 T_L 和 R_L、雙向對映函式Φ_(T↔R) 和兩個來自參照影象的亮度通道 R_ab。相似性子網路計算了雙向相似對映 sim_(T↔R) 和與參照對應的色度通道 R'_ab,兩者連同 T_L 作為 Input 2 輸入到著色子網當中。著色子網是一個用來預測目標色度通道的端到端 CNN,結合 TL 生成最終的著色結果 P_Lab。

這種兩階段深度著色模型,為黑白照披上了綵衣

圖 10:我們的方法在不同參照圖中的著色表現:手動選擇、自動推薦、在同等目標中隨機選擇、在同類中隨機選擇、在同類之外隨機選擇。輸入影象基本都選自 ImageNet 資料集,除了 Andreas Mortonus/flickr 和 Indi Samarajiva/flickr 的兩張參照圖片。

這種兩階段深度著色模型,為黑白照披上了綵衣

圖 12:在 ImageNet 上訓練的著色網路的遷移能力比較。輸入影象(從左到右,從上到下):Charpiat et al. [2008], Snow64/wikimedia 和 Ryo Taka/pixabay。

這種兩階段深度著色模型,為黑白照披上了綵衣

圖 14:與基於學習的方法進行比較。輸入影象:ImageNet 資料集。

這種兩階段深度著色模型,為黑白照披上了綵衣

圖 9:包含手動閾值選擇顏色樣本和交叉匹配的端到端網路與 Zhang 等人著色方法對比。輸入影象:ImageNet 資料集。

相關文章