在剛剛過去的 CVPR 2018 機器學習影像壓縮挑戰賽,MOS 值、ms-ssim 第一被圖鴨科技的 Tucodec TNGcnn4p 摘獲。
今天和大家介紹一下 MOS 與 MS-SSIM 第一獲得者 Tucodec TNGcnn4p,Tucodec TNGcnn4p 是一個基於深度學習的影像壓縮演算法,其主要採用了自編碼網路演算法,並採用了端到端優化的影像壓縮框架。
更多幹貨內容請關注微信公眾號“AI 前線”,(ID:ai-front)
本文中提出了一種可用於低位元速率影像壓縮,並可進行端到端優化的影像壓縮框架。在驗證集和測試集上的實驗結果均表明,當使用主觀測評標準作為損失函式,在 MS-SSIM 和 MOS 等主觀效能指標上能取得最優的效能。
設計好網路模型後,需要使用影像進行訓練。由於影像壓縮屬於無監督學習,無需人工標註,因此資料集是比較容易蒐集的。無論是從網上爬取,還是自行使用相機拍攝,都不難得到大量高清圖片。
常用的測試集有:
• Kodak PhotoCD 資料集,影像解析度 768×512,約 40 萬畫素;
• Tecnick 資料集,約一百四十萬畫素;
• CVPR 2018 CLIC 資料集,影像類別廣泛,解析度不等(512 至 2048),檔案尺寸不等(幾百 K 到幾 M)。
視訊是由一幀一幀的圖片組成,其壓縮方法與影像壓縮有一些相似之處,主要區別是,深度學習視訊壓縮相比影像壓縮增加了幀間預測 / 差值。
基於卷積網路進行幀間預測
幀間預測可以極大的減少視訊幀間冗餘。如 1 個參考幀,預測 N-1 幀為例,那麼幀間預測的約束為參考幀和預測碼字遠小於每幀單獨壓縮的碼字:
目前通用的深度學習壓縮主要採用 CNN 做學習預測編碼單元模式分類,在 2016 年 Liu Z、Yu X、Chen S 等發表的 CNN oriented fast HEVC intra CU mode decision 比較詳細的介紹了用 CNN 學習預測編碼單元模式的分類(2N x 2N 或 N x N)。
O2N、ON 輸出為位元速率失真代價
視訊幀內的下采樣,主要採用了分塊處理的方法,區別塊是否適合進行下采樣,之後對適合進行下采樣的塊進行下采樣操作,對於不適合進行下采樣的塊不執行下采樣操作。再完成這以步驟後,根據下采樣塊的情況分別用 CNN 或 DCTIF 進行上取樣,來重建影像,當然為了更好的效果,亮度和色度通道也會根據需要採用不同的網路架構。在這給大家推薦 Jiahao Li 等在 2018 年發表的 Fully Connected Network-Based Intra Prediction for Image Coding 的論文,論文裡有對下采樣方法更加詳細的介紹。
隨著傳統壓縮的瓶頸到來,深度學習影像壓縮的優勢被越來越多的企業和研究員看到。深度學習在視訊壓縮領域潛力更大。深度學習在視訊壓縮領域的主要優勢在於:
-
能夠更好的實現變換學習,取得更優效果。
-
端對端的深度學習演算法能夠自行學習,不需要手工設計,相比傳統視訊壓縮工作可以節省很多人力。
-
深度學習針對幀間預測採用的是光流法,相比傳統的視訊壓縮使用的啟發式方法,其更加的精確,在壓縮中可以大大降低幀間冗餘資訊。
另一方面,基於深度學習進行視訊壓縮也會遇到很多挑戰。比如控制實現幀間預測佔用的位元。
在 CVPR 2018 學習影像壓縮挑戰上,圖鴨科技的 Tucodec TNGcnn4p 獲得了 MOS 與 MS-SSIM 兩項冠軍,綜合排名第一。
TucodecTNGcnn4p 是基於端到端的深度學習演算法,其中使用了層次特徵融合的網路結構,以及新的量化方式、碼字估計技術,主要針對低位元速率影像壓縮。Tucodec TNGcnn4p 網路使用了卷積模組和殘差模組,將損失函式納入 MS-SSIM。
基於深度學習超解析度重建影像
在圖片壓縮領域,圖鴨科技重點關注低位元速率圖片的超解析度重建(SR)。相比高位元速率圖片,低位元速率圖片的失真較多,應用 SR 技術可以緩解這些影像上的瑕疵,獲得更好的視覺效果。而高位元速率圖片保留的原圖細節更詳細,很少會用到 SR 技術。
相對影像壓縮而言,深度學習在視訊壓縮領域潛力更大。目前圖鴨科技在基於深度學習的視訊壓縮方面,已經取得與 H265 媲美的效果。
最後附上 Tucodec TNGcnn4p 的論文連結,大家有需要可以自己下載研讀:
http://openaccess.thecvf.com/CVPR2018_workshops/CVPR2018_W50.py#