本文提出了一個基於生成對抗網路的極端學習影像壓縮框架,能生成位元速率更低但視覺效果更好的影像。此外,該框架可以根據原始影像的語義標籤對映,在解碼影像中完全合成非主要的區域。使用者調查研究證實,對於低位元速率,本文提出的方法明顯優於最先進的方法 BPG。
圖 1:以對抗損失訓練得到的全域性生成壓縮網路產生的影像,以及相應的 BPG 結果對比 [1]。
引言
基於深度神經網路(DNN)的影像壓縮系統,簡稱深度壓縮系統,近來已成為熱門研究領域。
圖 2:本文提出的壓縮網路的結構。E 是影像 x 和可選的語義標籤對映 s 的編碼器。q 將潛在程式碼 w 量化為 w hat。G 是生成器,產生解壓縮的影像 x hat,D 是用於對抗訓練的判別器。對於選擇生成壓縮(SC),F 從 s 中提取特徵,並且二次取樣的熱圖乘以 z hat(逐點)以進行空間位分配。
這些系統在感知度量 [4-8] 上通常優於當前最佳的工程編解碼器,例如 BPG [1]、WebP [2] 和 JPEG2000 [3]。除了在自然影像上可達到更高的壓縮率,它們也很容易適用於特定的目標領域,如立體影像或醫學影像,以從壓縮表徵 [9] 中直接實現高效處理和索引。但是,對於每畫素低於 0.1 位(bpp)的位元速率,這些演算法仍然會導致質量嚴重下降。一般來說,當位元速率趨向於零時,保留全部影像內容變得愈發困難,並且諸如峰值訊雜比(PSNR)或多尺度結構相似性(MS-SSIM)[10] 等常用的失真度量也會失去意義,因為這些度量更關心區域性(高熵)結構即紋理的保持。為了進一步改善深度影像壓縮,有必要開發超越 PSNR 和 MS-SSIM 的訓練目標。對抗性損失 [11] 有望實現這一目標。最近這一方法被證明可以捕獲全域性語義資訊和區域性紋理,訓練出強大的生成器,從語義標籤對映產生有視覺吸引力的高解析度影像 [12,13]。
在本文中,研究者提出並研究了基於生成對抗網路(GAN)的極端影像壓縮框架,其中影像的位元速率低於 0.1 bpp。他們提出了一個基本的 GAN 公式,用於深度影像壓縮,從而生成不同程度的內容。與先前的深度影像壓縮技術相比,該技術將對抗損失應用於影像補丁的偽像抑制 [6,14] 和紋理細節生成 [15] 或縮圖表徵學習 [16],該框架的生成器/解碼器由多尺度判別器訓練,適用於全解析度影像 [13]。
我們研究兩種操作模式(對應於無條件和有條件的生成對抗網路 [11,17]),即
全域性性生成壓縮(GC),保留整體影像內容,同時生成不同尺度的結構,例如建築立面上的樹葉或窗戶的樹葉;
選擇性生成壓縮(SC),保留語義標籤對映中完全生成影像的某些部分,同時高度保留使用者定義區域的細節。
GC 的典型用例是在頻寬受限的場景,其中我們需要儘可能地保留完整影像,卻沒有足夠的空間儲存原始畫素,而 GC 在這裡可以合成內容而不是塊狀/模糊斑點。SC 可以應用於視訊通話場景,人們希望完全保留影片流中的人像,但視覺上令人愉悅的合成背景也能和真實背景達到同樣的效果。在 GC 操作模式下,影像被轉換成位元流並使用算術編碼進行編碼。SC 可以使用現成的語義/例項分割網路(例如 PSPNet [18] 和 Mask R-CNN [19])獲得原始影像的語義/例項標籤對映,並將其儲存為向量圖形。就編碼成本而言,該框架實現了更小的獨立於影像維度的計算代價;另一方面,壓縮影像的大小和從語義標籤對映生成的區域成比例地減小,在多數情況下也能明顯降低儲存成本。
一項關於 GC 的使用者綜合研究表明,本文提出的壓縮系統在視覺上產生了比 BPG [1](當前最先進的工程壓縮演算法)和最近提出的基於自編碼器的深度壓縮(AEDC)系統更好的結果 [8]。特別是對於 Cityscapes 資料集中的街景場景影像,即使 BPG 使用的位數超過兩倍,使用者也更喜歡本文提出系統生成的影像。據作者所知,在使用者調查中,這是首次深度壓縮方法勝過 BPG 影像的案例。在 SC 操作模式下,該系統可以將儲存的影像內容與合成的內容無縫結合,即使在跨越多個目標邊界的區域也是如此。透過部分生成影像內容,該系統可以實現超過 50%的位元速率縮減,而影像質量不會明顯降低。在這兩種情況下,透過原始影像和重建影像的語義標籤對映之間的平均交併比(mIoU)度量的語義資訊與兩個基線 [1,8] 相比,儲存得更完好。
圖 3:由 C = 8 的 GC 網路產生的影像,以及 BPG 和 AEDC 的相應結果。
圖 4:由 GC 網路(左:C = 4;右:C = 8)產生的影像示例以及 BPG 的相應結果。
圖 6:原始柯達影像 13 以及使用者調查中使用的解壓縮版本(本文提出的),使用 C = 4 的 GC 網路生成。此外還提供了影像的解壓縮 BPG、JPEG、JPEG2000 和 WebP 版本。如果編解碼器無法輸出低至 0.036bpp 的影像,則選擇該編解碼器的最低解析度。
論文:Generative Adversarial Networks for Extreme Learned Image Compression(用於極端學習影像壓縮的生成對抗網路)
論文地址:https://arxiv.org/abs/1804.02958
摘要:我們提出了一個基於生成對抗網路(GANs)的極端學習影像壓縮框架,與以前的壓縮方式相比,其生成的影像位元速率更低但視覺效果更令人滿意。藉助學習壓縮的 GAN 公式和一個在全解析度影像上執行的生成器/解碼器,並與多尺度判別器一起訓練,就可以達到這種效果。此外,我們的方法可以根據從原始影像中提取的語義標籤對映,在解碼影像中完全合成非主要的區域(例如街道和樹),因此僅需要儲存保留區域和語義標籤對映。使用者調查研究證實,對於低位元速率,我們的方法明顯優於最先進的方法,與次佳方案 BPG 相比,位元速率節約高達 67%。