極端影象壓縮的生成對抗網路,可生成低位元速率的高質量影象

機器之心發表於2018-04-17

本文提出了一個基於生成對抗網路的極端學習影象壓縮框架,能生成位元速率更低但視覺效果更好的影象。此外,該框架可以根據原始影象的語義標籤對映,在解碼影象中完全合成非主要的區域。使用者調查研究證實,對於低位元速率,本文提出的方法明顯優於最先進的方法 BPG。

極端影象壓縮的生成對抗網路,可生成低位元速率的高質量影象

圖 1:以對抗損失訓練得到的全域性生成壓縮網路產生的影象,以及相應的 BPG 結果對比 [1]。

引言

基於深度神經網路(DNN)的影象壓縮系統,簡稱深度壓縮系統,近來已成為熱門研究領域。

極端影象壓縮的生成對抗網路,可生成低位元速率的高質量影象

圖 2:本文提出的壓縮網路的結構。E 是影象 x 和可選的語義標籤對映 s 的編碼器。q 將潛在程式碼 w 量化為 w hat。G 是生成器,產生解壓縮的影象 x hat,D 是用於對抗訓練的判別器。對於選擇生成壓縮(SC),F 從 s 中提取特徵,並且二次取樣的熱圖乘以 z hat(逐點)以進行空間位分配。

這些系統在感知度量 [4-8] 上通常優於當前最佳的工程編解碼器,例如 BPG [1]、WebP [2] 和 JPEG2000 [3]。除了在自然影象上可達到更高的壓縮率,它們也很容易適用於特定的目標領域,如立體影象或醫學影象,以從壓縮表徵 [9] 中直接實現高效處理和索引。但是,對於每畫素低於 0.1 位(bpp)的位元速率,這些演算法仍然會導致質量嚴重下降。一般來說,當位元速率趨向於零時,保留全部影象內容變得愈發困難,並且諸如峰值訊雜比(PSNR)或多尺度結構相似性(MS-SSIM)[10] 等常用的失真度量也會失去意義,因為這些度量更關心區域性(高熵)結構即紋理的保持。為了進一步改善深度影象壓縮,有必要開發超越 PSNR 和 MS-SSIM 的訓練目標。對抗性損失 [11] 有望實現這一目標。最近這一方法被證明可以捕獲全域性語義資訊和區域性紋理,訓練出強大的生成器,從語義標籤對映產生有視覺吸引力的高解析度影象 [12,13]。

在本文中,研究者提出並研究了基於生成對抗網路(GAN)的極端影象壓縮框架,其中影象的位元速率低於 0.1 bpp。他們提出了一個基本的 GAN 公式,用於深度影象壓縮,從而生成不同程度的內容。與先前的深度影象壓縮技術相比,該技術將對抗損失應用於影象補丁的偽像抑制 [6,14] 和紋理細節生成 [15] 或縮圖表徵學習 [16],該框架的生成器/解碼器由多尺度判別器訓練,適用於全解析度影象 [13]。

我們研究兩種操作模式(對應於無條件和有條件的生成對抗網路 [11,17]),即

  • 全域性性生成壓縮(GC),保留整體影象內容,同時生成不同尺度的結構,例如建築立面上的樹葉或窗戶的樹葉;

  • 選擇性生成壓縮(SC),保留語義標籤對映中完全生成影象的某些部分,同時高度保留使用者定義區域的細節。

GC 的典型用例是在頻寬受限的場景,其中我們需要儘可能地保留完整影象,卻沒有足夠的空間儲存原始畫素,而 GC 在這裡可以合成內容而不是塊狀/模糊斑點。SC 可以應用於視訊通話場景,人們希望完全保留視訊流中的人像,但視覺上令人愉悅的合成背景也能和真實背景達到同樣的效果。在 GC 操作模式下,影象被轉換成位元流並使用算術編碼進行編碼。SC 可以使用現成的語義/例項分割網路(例如 PSPNet [18] 和 Mask R-CNN [19])獲得原始影象的語義/例項標籤對映,並將其儲存為向量圖形。就編碼成本而言,該框架實現了更小的獨立於影象維度的計算代價;另一方面,壓縮影象的大小和從語義標籤對映生成的區域成比例地減小,在多數情況下也能明顯降低儲存成本。

一項關於 GC 的使用者綜合研究表明,本文提出的壓縮系統在視覺上產生了比 BPG [1](當前最先進的工程壓縮演算法)和最近提出的基於自編碼器的深度壓縮(AEDC)系統更好的結果 [8]。特別是對於 Cityscapes 資料集中的街景場景影象,即使 BPG 使用的位數超過兩倍,使用者也更喜歡本文提出系統生成的影象。據作者所知,在使用者調查中,這是首次深度壓縮方法勝過 BPG 影象的案例。在 SC 操作模式下,該系統可以將儲存的影象內容與合成的內容無縫結合,即使在跨越多個目標邊界的區域也是如此。通過部分生成影象內容,該系統可以實現超過 50%的位元速率縮減,而影象質量不會明顯降低。在這兩種情況下,通過原始影象和重建影象的語義標籤對映之間的平均交併比(mIoU)度量的語義資訊與兩個基線 [1,8] 相比,儲存得更完好。

極端影象壓縮的生成對抗網路,可生成低位元速率的高質量影象

圖 3:由 C = 8 的 GC 網路產生的影象,以及 BPG 和 AEDC 的相應結果。

極端影象壓縮的生成對抗網路,可生成低位元速率的高質量影象

圖 4:由 GC 網路(左:C = 4;右:C = 8)產生的影象示例以及 BPG 的相應結果。

極端影象壓縮的生成對抗網路,可生成低位元速率的高質量影象

圖 6:原始柯達影象 13 以及使用者調查中使用的解壓縮版本(本文提出的),使用 C = 4 的 GC 網路生成。此外還提供了影象的解壓縮 BPG、JPEG、JPEG2000 和 WebP 版本。如果編解碼器無法輸出低至 0.036bpp 的影象,則選擇該編解碼器的最低解析度。

論文:Generative Adversarial Networks for Extreme Learned Image Compression(用於極端學習影象壓縮的生成對抗網路)

極端影象壓縮的生成對抗網路,可生成低位元速率的高質量影象

論文地址:https://arxiv.org/abs/1804.02958


摘要:我們提出了一個基於生成對抗網路(GANs)的極端學習影象壓縮框架,與以前的壓縮方式相比,其生成的影象位元速率更低但視覺效果更令人滿意。藉助學習壓縮的 GAN 公式和一個在全解析度影象上執行的生成器/解碼器,並與多尺度判別器一起訓練,就可以達到這種效果。此外,我們的方法可以根據從原始影象中提取的語義標籤對映,在解碼影象中完全合成非主要的區域(例如街道和樹),因此僅需要儲存保留區域和語義標籤對映。使用者調查研究證實,對於低位元速率,我們的方法明顯優於最先進的方法,與次佳方案 BPG 相比,位元速率節約高達 67%。

相關文章