圖鴨科技獲CVPR 2018影像壓縮挑戰賽單項冠軍,技術解讀端到端影像壓縮框架

機器之心發表於2018-06-21

CHALLENGE ON LEARNED IMAGE COMPRESSION 挑戰賽由 Google、Twitter、Amazon 等公司聯合贊助,是第一個由計算機視覺領域的會議發起的影像壓縮挑戰賽,旨在將神經網路深度學習等一些新的方式引入到影像壓縮領域。據 CVPR 大會官方介紹,此次挑戰賽分別從 PSNR 和主觀評價兩個方面去評估參賽團隊的表現。

不久之前,CLIC 挑戰賽比賽結果公佈:在不同基準下,來自國內創業公司圖鴨科技的團隊 TucodecTNGcnn4p 在 MOS 和 MS-SSIMM 得分上獲得第一名,騰訊音影片實驗室和武漢大學陳震中教授聯合團隊 iipTiramisu 在 PSNR(Peak Signal-to-Noise Ratio,峰值訊雜比)指標上佔據領先優勢,位列第一。xvc,評分較高的團隊中,xvc 的解碼速度最快。

圖鴨科技獲CVPR 2018影像壓縮挑戰賽單項冠軍,技術解讀端到端影像壓縮框架

比賽結果:http://www.compression.cc/results/

在這篇文章中,我們對第一名圖鴨科技的解決方案進行了編譯介紹,內容採自論文《Variational Autoencoder for Low Bit-rate Image Compression》。

論文:Variational Autoencoder for Low Bit-rate Image Compression 

圖鴨科技獲CVPR 2018影像壓縮挑戰賽單項冠軍,技術解讀端到端影像壓縮框架

地址:http://openaccess.thecvf.com/CVPR2018_workshops/CVPR2018_W50.py#

摘要:我們展示了一種用於低位元速率影像壓縮的端到端可訓練影像壓縮框架。我們的方法基於變分自編碼器,包含一個非線性編碼器變換、均勻量化器、非線性解碼器變換和後處理模組。壓縮表徵的先驗機率透過使用超先驗自編碼器的拉普拉斯分佈來建模,並與變換自編碼器進行聯合訓練。為了去除低位元速率影像的壓縮失真和模糊,我們提出了一種基於卷積的高效後處理模組。最終,考慮到 CLIC 挑戰賽對位元速率的限制,我們使用一個位元速率控制演算法來對每一個影像自適應性地分配位元速率。在驗證集和測試集上的實驗結果證明,使用感知損失訓練出的該最佳化框架能夠實現最優的 MS-SSIM 效能。結果還表明該後處理模組可以提高基於深度學習的方法和傳統方法的壓縮效能,在位元速率為 0.15 時最高 PSNR 達到 32.09。

1. 引言

近期,機器學習方法被應用於有損影像壓縮,並利用自編碼器取得了很有潛力的結果。基於典型神經網路影像壓縮框架由多個模組構成,例如自編碼器、量化器(quantization)、先驗分佈模型、位元速率評估和率失真最佳化。自編碼器用於將影像畫素 x 轉換為編碼空間 y 中的資料,編碼空間由編碼器 圖鴨科技獲CVPR 2018影像壓縮挑戰賽單項冠軍,技術解讀端到端影像壓縮框架和解碼器 圖鴨科技獲CVPR 2018影像壓縮挑戰賽單項冠軍,技術解讀端到端影像壓縮框架構成。影像的畫素值圖鴨科技獲CVPR 2018影像壓縮挑戰賽單項冠軍,技術解讀端到端影像壓縮框架透過編碼器 圖鴨科技獲CVPR 2018影像壓縮挑戰賽單項冠軍,技術解讀端到端影像壓縮框架轉換到編碼空間。之後,利用量化函式 圖鴨科技獲CVPR 2018影像壓縮挑戰賽單項冠軍,技術解讀端到端影像壓縮框架處理表徵 y,得到離散值向量圖鴨科技獲CVPR 2018影像壓縮挑戰賽單項冠軍,技術解讀端到端影像壓縮框架。然後使用諸如算術編碼 [8] 這樣的熵編碼方法來無失真壓縮圖鴨科技獲CVPR 2018影像壓縮挑戰賽單項冠軍,技術解讀端到端影像壓縮框架,並生成用於傳輸的碼流。在接收到碼流之後,經過熵解碼的量化後的表徵使用解碼器圖鴨科技獲CVPR 2018影像壓縮挑戰賽單項冠軍,技術解讀端到端影像壓縮框架被轉換回影像空間圖鴨科技獲CVPR 2018影像壓縮挑戰賽單項冠軍,技術解讀端到端影像壓縮框架

很明顯,表徵圖鴨科技獲CVPR 2018影像壓縮挑戰賽單項冠軍,技術解讀端到端影像壓縮框架先驗機率模型圖鴨科技獲CVPR 2018影像壓縮挑戰賽單項冠軍,技術解讀端到端影像壓縮框架(也稱為熵模型)對於算術編碼很關鍵。圖鴨科技獲CVPR 2018影像壓縮挑戰賽單項冠軍,技術解讀端到端影像壓縮框架的真實邊際機率(依賴於影像分佈)是未知的。因此我們透過先驗分佈對它進行估計。先驗機率可以透過引數化模型形式化,並透過引數學習來擬合資料。給定熵模型,位元速率的下界由圖鴨科技獲CVPR 2018影像壓縮挑戰賽單項冠軍,技術解讀端到端影像壓縮框架的離散先驗分佈的熵決定。由恰當設計的熵編碼得到的真實率僅稍微大於熵:圖鴨科技獲CVPR 2018影像壓縮挑戰賽單項冠軍,技術解讀端到端影像壓縮框架

率失真最佳化的作用是在編碼長度 R 和原始影像 x、重構影像 圖鴨科技獲CVPR 2018影像壓縮挑戰賽單項冠軍,技術解讀端到端影像壓縮框架之間的失真 D 進行權衡。D 可以用均方誤差(MSE)建模:D= 圖鴨科技獲CVPR 2018影像壓縮挑戰賽單項冠軍,技術解讀端到端影像壓縮框架,或感知失真的度量例如 MS-SSIM [13]。很明顯,如果 圖鴨科技獲CVPR 2018影像壓縮挑戰賽單項冠軍,技術解讀端到端影像壓縮框架更加集中,則熵 R 更小,但網路的表徵能力將退化,並且 D 可能會增加。因此我們以端到端的方式最佳化率和失真的加權和 R+λD。我們可以斷定先驗模型圖鴨科技獲CVPR 2018影像壓縮挑戰賽單項冠軍,技術解讀端到端影像壓縮框架和量化的聯合最佳化在高效的壓縮系統中是最重要的技術。一方面,對量化後的表徵 圖鴨科技獲CVPR 2018影像壓縮挑戰賽單項冠軍,技術解讀端到端影像壓縮框架的先驗分佈的準確估計有利於約束 圖鴨科技獲CVPR 2018影像壓縮挑戰賽單項冠軍,技術解讀端到端影像壓縮框架和 R 的真實邊際分佈。另一方面,準確的先驗模型可以使適應性算術編碼在編碼和解碼過程中更加高效。

本論文提出的影像壓縮框架基於之前的方法 。與這些方法不同,我們設計了一個金字塔自編碼器和更高效的卷積結構,來提升壓縮效能。此外,我們使用引數化零均值拉普拉斯分佈對壓縮表徵的先驗機率進行準確建模,該分佈的引數透過超先驗自編碼器學習得到。考慮到如果該網路只透過保持低位元速率的畫素相似度來學習,那麼影像重建會遇到模糊的情況,對人眼的吸引力也會下降。因此我們使用一種基於 MS−SSIM 的高效損失函式來衡量感知損失,訓練提高感知質量的壓縮編碼解碼器。最後,我們使用基於卷積的後處理模組來提高影像重建質量。考慮到該挑戰賽中對壓縮測試影像和驗證影像的限制是 0.15 bpp,因此我們設計位元速率控制演算法來為每個影像選出最好的壓縮引數

2. 本論文提出的影像壓縮框架

圖鴨科技獲CVPR 2018影像壓縮挑戰賽單項冠軍,技術解讀端到端影像壓縮框架

圖 1:本論文使用的變分自編碼器架構圖示。卷積引數表示為:濾波器數量 × 卷積核高度 × 卷積核寬度/上(下)取樣步幅,其中 ↓ 表示下采樣,↑表示上取樣。AE、AD 分別表示算術編碼器和算術解碼器。

圖鴨科技獲CVPR 2018影像壓縮挑戰賽單項冠軍,技術解讀端到端影像壓縮框架

圖 2:超先驗自編碼器的架構展示。

圖鴨科技獲CVPR 2018影像壓縮挑戰賽單項冠軍,技術解讀端到端影像壓縮框架

圖 3:(a)殘差塊。(b)兩個卷積層和 6 個殘差塊組成了後處理架構。

3. 實驗結果

圖鴨科技獲CVPR 2018影像壓縮挑戰賽單項冠軍,技術解讀端到端影像壓縮框架

表 1:在 CLIC 2018 驗證集上的評估結果。

圖鴨科技獲CVPR 2018影像壓縮挑戰賽單項冠軍,技術解讀端到端影像壓縮框架

表 2:在 CLIC 2018 測試集上的評估結果。

相關文章