本期推薦的論文筆記來自 PaperWeekly 社群使用者 @TwistedW。本文來自早稻田大學,論文用精煉的語言對比了幾類影象生成模型,將卷積自編碼器(CAE)、生成對抗網路(GAN)和超解析度(SR)在生成影象效能上做了比較。通過提取影象緊湊的特徵,文章得出 CAE 比 JPEG 具有更好的編碼效率,GAN 顯示出在大壓縮比和高主觀質量重建方面的潛在優勢,超解析度在其中實現了最佳的速率失真(RD)效能,與 BPG 相當。
關於作者:武廣,合肥工業大學碩士生,研究方向為影象生成。
■ 論文 | Performance Comparison of Convolutional AutoEncoders, Generative Adversarial Networks and Super-Resolution for Image Compression
■ 連結 | https://www.paperweekly.site/papers/2085
■ 作者 | Zhengxue Cheng / Heming Sun / Masaru Takeuchi / Jiro Katto
影象壓縮在計算機視覺領域佔據著比較重要的位置,隨著 GAN,VAE 和超解析度影象讓生成模型得到了很大的進步。不同的模型有著不同的效能優勢,本文用精煉的語言加上較為嚴謹的實驗對比了 GAN,CAE 和 super-resolution 在影象壓縮效能上的優勢。
論文引入
影象壓縮一直是影象處理領域的一個基礎和重要的研究課題。傳統的影象壓縮演算法,如 JPEG,JPEG2000 和 BPG,依賴於手工製作的編碼器。深度學習方法的發展提高了影象壓縮的效能,其中比較有突破的影象壓縮是在 Autoencoder,GAN 和超解析度方面。
這篇論文提出了三種架構,分別使用卷積自動編碼器(CAE),GAN 和超解析度(SR)進行有損影象壓縮。此外,還對它們的編碼效能並進行了全面的比較。
實驗結果表明,由於 Autoencoder 可以緊湊表示特性,CAE 可以實現比 JPEG 更高的編碼效率;GAN 顯示出在大壓縮比和高主觀質量重建方面的潛在優勢;超解析度在三種方法中實現了最佳的速率失真(RD)效能。
總結一下論文的貢獻:
基於 CAE,GAN,SR 提出了三種整體壓縮體系結構
對這三種框架做了全面的效能比較
CAE用於影象壓縮
文中將影象壓縮中的 DCT 和小波變換換成了 CAE(卷積自編碼器),整體架構如下圖所示:
上圖比較符合傳統的影象壓縮的流程,不過主要的框架是在 CAE 的基礎上建立的。連續的下采樣操作會破壞重建影象的質量,所以 Autoencoder 採用卷積濾波器執行上下采樣,CAE 的內部結構如下圖:
內部卷積層之後的啟用函式採用的是引數整流線性單元(PReLU)函式,而不是相關工作中常用的 ReLU,因為我們發現 PReLU 可以與 ReLU 相比時,提高了重建影象的質量,尤其是在高位元率。整體的損失函式定義為:
其中為 MSE 損失,x 是原始影象 x̂ 是重構影象,μ 是均值噪聲,fθ(x) 是 x 經過 encoder 得到的編碼函式,gϕ(y) 為解碼得到的解碼函式。
GAN用於影象壓縮
我們都知道 GAN 多用於影象的生成,影象的壓縮也需要在 GAN 的基礎上做一些小小的改變,那就是在生成器前面加上一個編碼器,這樣就可以把影象 encode 到適合 G 生成即可,這個編碼器的結構和判別器類似,GAN 做影象壓縮的整體框架如下:
這個模型框架結構很清晰,不需要太多的解釋,判別器可以提高輸出影象的真實性,損失函式為:
這裡只寫非對抗損失函式部分,對抗損失函式和原始 GAN 是一致的。JG(x) 包含兩部分,前半部分是 MSE 損失,後半部分是減小特徵層的損失可有利於影象的高質量重建。
基於 GAN 的體系結構與基於 CAE 的體系結構在影象壓縮中有三個不同之處。首先,直接輸入 RGB 分量,因此不應用從 RGB 到 YCbCr 的色彩空間轉換;其次,不在訓練過程中新增統一的噪音,因為 GAN 會從噪音中繼承重建影象。第三,使用範圍編碼器,而不是 JPEG2000 熵編碼器。
SR用於影象壓縮
超解析度壓縮結構如下圖所示:
對於具有複雜紋理或小解析度的影象,SR 將成為高質量重建的瓶頸。因此,在編碼器中構建重建迴圈且為自適應策略,該迴圈計算僅由 SR 引起的失真,即上圖中的 Pre PSNR。
當 Pre PSNR 大於預定閾值時,影象被下采樣到(0.5W,0.5H)並且在解碼之後進行 SRCNN 濾波。否則,將影象下采樣到(0.7W,0.7H),自適應策略的效果如下表。實驗中閾值設定為 33.0 dB,並且選擇約 30% 的影象以使用 SRCNN 濾波器。
效能比較
為了測量編碼效率,通過每畫素位元(bpp)來測量速率。PSNR(dB)和 MS-SSIM 分別用於測量客觀和主觀質量。
CAE
由於 CAE 生成的特徵圖不是能量緊湊的,所以還要用 PCA 進一步去相關特徵圖。PCA 生成的特徵對映和旋轉特徵對映的示例如下圖所示。
可以看到,在右下角生成了更多的零,在旋轉的特徵對映中,大值居中於左上角,這有利於熵編碼器降低速率。與 JPEG2000 相比,基於 CAE 的方法優於 JPEG,並且在 Kodak 資料集影象上實現了 13.7% 的 BD 率減少。
GAN
GAN 的影象壓縮在 CLIC 驗證資料集上進行了效能比較實驗:
其中 bpp 越小越好,PSNR 越大越好,MS-SSIM 越大越好!可以看出 GAN 的一定優勢。
對比結果
實驗在 CLIC 驗證資料集進行公平評估。具有 MS-SSIM 和 PSNR 的 RD 曲線如下圖。超解析度的 RD 曲線很短,因為它是通過用 BPG 編解碼器中的固定量化引數(QP) 值改變自適應策略中的閾值來進行的。通過改變 QP,超解析度還可以實現廣泛的 RD 曲線。
從 RD 曲線總結了幾個觀察結果:
1. 由於自動編碼器的固有特性,在有失真壓縮的情況下,CAE 優於 JPEG。自動編碼器可以減少尺寸以從影象中提取壓縮的簡報,因此 CAE 優於 JPEG 和 JPEG2000。
2. GAN 在低位元率下比在高位元率下表現更好,因此 GAN 傾向於實現大的壓縮比。同時,GAN 在 MS-SSIM 上的效能優於 PSNR,因為 GAN 的重建是基於影象資料的分佈,肉眼更加認同。特別是對於 MS-SSIM,GAN 具有從 0.2bpp 到 0.8bpp 的穩定效能。
3. SR 在這三種方法中實現了最佳效能,因為它具有新興演算法 BPG 和基於機器學習的超解析度濾波器的優點。如果可以提供更多的計算資源,那麼通過新增更好的超解析度濾波器,可以預期有希望的結果將超過 BPG。
下表是在速率約為 0.15bpp 的三種方法的比較:
可以看出基於 SR 的方法與 BPG 非常接近,基於 GAN 和 CAE 的體系結構優於 JPEG,特別是 GAN 和 CAE 具有相似的 PSNR,但就相對主觀的 MS-SSIM 而言,GAN 比 CAE 更好。
總結
論文提出了三種使用 CAE,GAN 和 SR 進行壓縮的體系結構,並討論了它們的效能。結果表明:
CAE 比傳統的有限壓縮變換更好,並且有望用作特徵提取器;
GAN 顯示出對大壓縮比和主觀質量重建的潛在優勢;
基於 SR 的壓縮實現了其中最佳的編碼效能。