圖鴨科技獲CVPR 2018影像壓縮挑戰賽單項冠軍，技術解讀端到端影像壓縮框架

机器之心發表於2018-06-21

原文網址 : https://www.jiqizhixin.com/articles/2018-06-21-4

CHALLENGE ON LEARNED IMAGE COMPRESSION 挑戰賽由 Google、Twitter、Amazon 等公司聯合贊助，是第一個由計算機視覺領域的會議發起的影像壓縮挑戰賽，旨在將神經網路、深度學習等一些新的方式引入到影像壓縮領域。據 CVPR 大會官方介紹，此次挑戰賽分別從 PSNR 和主觀評價兩個方面去評估參賽團隊的表現。

不久之前，CLIC 挑戰賽比賽結果公佈：在不同基準下，來自國內創業公司圖鴨科技的團隊 TucodecTNGcnn4p 在 MOS 和 MS-SSIMM 得分上獲得第一名，騰訊音視訊實驗室和武漢大學陳震中教授聯合團隊 iipTiramisu 在 PSNR（Peak Signal-to-Noise Ratio，峰值訊雜比）指標上佔據領先優勢，位列第一。xvc，評分較高的團隊中，xvc 的解碼速度最快。

比賽結果：http://www.compression.cc/results/

在這篇文章中，我們對第一名圖鴨科技的解決方案進行了編譯介紹，內容採自論文《Variational Autoencoder for Low Bit-rate Image Compression》。

論文：Variational Autoencoder for Low Bit-rate Image Compression

圖鴨科技獲CVPR 2018影像壓縮挑戰賽單項冠軍，技術解讀端到端影像壓縮框架

地址：http://openaccess.thecvf.com/CVPR2018_workshops/CVPR2018_W50.py#

摘要：我們展示了一種用於低位元速率影像壓縮的端到端可訓練影像壓縮框架。我們的方法基於變分自編碼器，包含一個非線性編碼器變換、均勻量化器、非線性解碼器變換和後處理模組。壓縮表徵的先驗概率通過使用超先驗自編碼器的拉普拉斯分佈來建模，並與變換自編碼器進行聯合訓練。為了去除低位元速率影像的壓縮失真和模糊，我們提出了一種基於卷積的高效後處理模組。最終，考慮到 CLIC 挑戰賽對位元速率的限制，我們使用一個位元速率控制演算法來對每一個影像自適應性地分配位元速率。在驗證集和測試集上的實驗結果證明，使用感知損失訓練出的該優化框架能夠實現最優的 MS-SSIM 效能。結果還表明該後處理模組可以提高基於深度學習的方法和傳統方法的壓縮效能，在位元速率為 0.15 時最高 PSNR 達到 32.09。

1. 引言

近期，機器學習方法被應用於有損影像壓縮，並利用自編碼器取得了很有潛力的結果。基於典型神經網路的影像壓縮框架由多個模組構成，例如自編碼器、量化器（quantization）、先驗分佈模型、位元速率評估和率失真優化。自編碼器用於將影像畫素 x 轉換為編碼空間 y 中的資料，編碼空間由編碼器圖鴨科技獲CVPR 2018影像壓縮挑戰賽單項冠軍，技術解讀端到端影像壓縮框架和解碼器構成。影像的畫素值通過編碼器轉換到編碼空間。之後，利用量化函式處理表徵 y，得到離散值向量。然後使用諸如算術編碼 [8] 這樣的熵編碼方法來無失真壓縮圖鴨科技獲CVPR 2018影像壓縮挑戰賽單項冠軍，技術解讀端到端影像壓縮框架，並生成用於傳輸的碼流。在接收到碼流之後，經過熵解碼的量化後的表徵使用解碼器被轉換回影像空間。

很明顯，表徵圖鴨科技獲CVPR 2018影像壓縮挑戰賽單項冠軍，技術解讀端到端影像壓縮框架的先驗概率模型（也稱為熵模型）對於算術編碼很關鍵。的真實邊際概率（依賴於影像分佈）是未知的。因此我們通過先驗分佈對它進行估計。先驗概率可以通過引數化模型形式化，並通過引數學習來擬合資料。給定熵模型，位元速率的下界由圖鴨科技獲CVPR 2018影像壓縮挑戰賽單項冠軍，技術解讀端到端影像壓縮框架的離散先驗分佈的熵決定。由恰當設計的熵編碼得到的真實率僅稍微大於熵：。

率失真優化的作用是在編碼長度 R 和原始影像 x、重構影像圖鴨科技獲CVPR 2018影像壓縮挑戰賽單項冠軍，技術解讀端到端影像壓縮框架之間的失真 D 進行權衡。D 可以用均方誤差（MSE）建模：D= ，或感知失真的度量例如 MS-SSIM [13]。很明顯，如果更加集中，則熵 R 更小，但網路的表徵能力將退化，並且 D 可能會增加。因此我們以端到端的方式優化率和失真的加權和 R+λD。我們可以斷定先驗模型圖鴨科技獲CVPR 2018影像壓縮挑戰賽單項冠軍，技術解讀端到端影像壓縮框架和量化的聯合優化在高效的壓縮系統中是最重要的技術。一方面，對量化後的表徵的先驗分佈的準確估計有利於約束和 R 的真實邊際分佈。另一方面，準確的先驗模型可以使適應性算術編碼在編碼和解碼過程中更加高效。

本論文提出的影像壓縮框架基於之前的方法。與這些方法不同，我們設計了一個金字塔自編碼器和更高效的卷積結構，來提升壓縮效能。此外，我們使用引數化零均值拉普拉斯分佈對壓縮表徵的先驗概率進行準確建模，該分佈的引數通過超先驗自編碼器學習得到。考慮到如果該網路只通過保持低位元速率的畫素相似度來學習，那麼影像重建會遇到模糊的情況，對人眼的吸引力也會下降。因此我們使用一種基於 MS−SSIM 的高效損失函式來衡量感知損失，訓練提高感知質量的壓縮編碼解碼器。最後，我們使用基於卷積的後處理模組來提高影像重建質量。考慮到該挑戰賽中對壓縮測試影像和驗證影像的限制是 0.15 bpp，因此我們設計位元速率控制演算法來為每個影像選出最好的壓縮引數。

2. 本論文提出的影像壓縮框架

圖鴨科技獲CVPR 2018影像壓縮挑戰賽單項冠軍，技術解讀端到端影像壓縮框架