ICASSP 2022 | 前沿音視訊成果分享:基於可變形卷積的壓縮視訊質量增強網路

阿里雲視訊雲發表於2022-03-11

阿里雲視訊雲視訊編碼與增強技術團隊最新研究成果論文《基於可變形卷積的壓縮視訊質量增強網路》(Deformable Convolution Dense Network for Compressed Video Quality Enhancement)已被 ICASSP 2022 Image, Video & Multidimensional Signal Processing 主題會議接收,並受邀在今年5月的全球會議上向工業界和學術界進行方案報告。以下為技術成果的核心內容分享。

佳芙|作者

背景

視訊壓縮演算法是一種廣泛應用於視訊傳播和視訊儲存的技術,它能夠幫助節省頻寬和節約儲存空間,但同時也帶來了視訊質量下降的問題。壓縮視訊質量增強任務的目標便是減少由視訊壓縮帶來的 artifacts,提升視訊質量。

近些年來,基於多幀策略的方法成為了壓縮視訊質量增強任務中的主流,為了融合多幀資訊,這些方法大多都嚴重依賴於光流估計,然而不準確且低效率的光流估計演算法限制住了增強演算法的效能。為了打破光流估計演算法的限制,本文提出了一種結合了可變形卷積的稠密殘差連線網路結構,這個網路結構無需在顯式光流估計的幫助下就能完成從高質量幀到低質量幀的補償。

利用可變形卷積來實現隱式的運動估計,並通過稠密殘差連線來提高模型對誤差的容忍度。具體而言,我們所提出的網路結構由兩個模組組成,分別是利用可變形卷積來實現隱式估計的運動補償模組,以及使用稠密殘差連線來提高模型誤差容忍度和資訊保留度的質量增強模組,此外,本文還提出了一個新的邊緣增強損失來增強物體邊緣結構。在公開資料集上的實驗結果表明,該方法顯著優於其他 baseline 模型。

方法解析

受到 MFQE[1] 的啟發,我們的方法也使用了 PQF 來作為參考幀。在 MFQE 中,PQF 被定義為質量高於其前後連續幀的視訊幀,而在本文中,使用了 I 幀來作為 PQF,高質量的 PQF 可以為低質量的輸入幀提供更準確的資訊,從而更大限度地提升視訊幀的質量。

圖 1 展示了我們的模型結構,其中\( F_{np} \)表示當前幀,\( F_{p1} \)和\( F_{p2} \)分別代表最近的前後 PQF,MC module 代表運動補償模組,後方的多個密集殘差塊和卷積層組成了質量增強模組。

將 PQF( \( F_{p1} \) 或 \( F_{p2} \) )作為參考幀,運動補償模組中的可變形卷積層可為其預測時序運動資訊,並將參考幀補償為輸入幀的內容,此時的補償幀\( {F}^{c}_{p1} \)、\( {F}^{c}_{p2} \)同時具有和輸入幀\( F_{np} \)相似的內容以及和參考幀\( F_{p1} \)、\( F_{p2} \)相近的質量。

接著,質量增強模組\( R_{\theta_{qe}} \)將融合多個參考幀的資訊,最終輸出一個增強幀\( F_{enh} \)。

$$ F_{enh}=F_{np}+R_{\theta_{qe}}(\left [ F^{^{c } }_{p1},F _{np} ,F^{c}_{p2} \right ] ) $$

此外,考慮到 artifacts 通常出現在物體邊緣附近,我們針對性地提出了一個邊緣增強損失,這個損失可以檢測並強調視訊幀中的物體邊緣\( W \),幫助模型更好地重建被 artifacts 破壞掉的物體輪廓。

$$ L_{e} =\frac{1}{N} \sum_{i=1}^{N}{W} \ast \left ( F_{raw} - F_{enh} \right ) ^{2} $$

實驗結果

峰值訊雜比(PSNR)和結構相似性(SSIM)是最為廣泛使用的影像質量評估指標,為了更方便直觀地比較演算法效果,本文使用了\( \bigtriangleup PSNR \)和\( \bigtriangleup SSIM \),即增強幀相對於輸入幀的 PSNR 和 SSIM 的增量來作為評估指標。

將我們的方法與其他 5 個 baseline 模型進行了比較,在 5 個對比方法中,ARCNN[2]、DnCNN[3] 和 RNAN[4] 都是壓縮影像質量增強演算法,能夠獨立地對每一個視訊幀進行增強,但表現一般。MFQE 1.0 則是一個基於多幀策略和 PQF 的壓縮視訊質量增強演算法,在 MFQE 1.0 的基礎上,MFQE 2.0[5] 通過改進 PQF 檢測器和質量增強模組來進一步提升了增強效果。從表 1 中可以看出,我們的方法可獲得了比其他 5 個方法更高的\( \bigtriangleup PSNR \)和\( \bigtriangleup SSIM \)。特別地,對於 QP=37 的測試序列,我們相對於 MFQE2.0 的效能提升接近是 MFQE2.0 相對於 MFQE1.0 的提升的兩倍。

圖 2 展示了 5 種方法的主觀效果,顯然我們所提的方法可以將視訊幀的質量提升得更高。以圖 2 中的球、傘架和嘴巴為例,我們的方法恢復出了更清晰的物體邊緣和更多的細節,這說明對於視訊中快速運動的物體,比如球,我們網路中使用的金字塔結構的可變形卷積可以更準確地補償運動,並且在質量增強模組的高效幫助和邊緣增強損失的正確引導下,本文方法在邊緣重建和細節補充上獲得了更優表現。

基於該技術的深度研發,極大提升了阿里雲視訊雲窄帶高清產品對低質量視訊的邊緣細節修復效果,尤其是在人們比較關注的人臉區域提升效果更加顯著,從而為使用者提供更好的觀看體驗,該成果可廣泛運用於短視訊和直播場景中,如已應用於央視春晚、阿里健康等場景。此外,該項技術對中高質量視訊也有很好的視覺提升效果,在同等頻寬下,使整體畫面變得更加清晰,未來該技術還將廣泛應用於更多的場景以提升觀看體驗。

關於窄帶高清

窄帶高清是一項基於阿里雲獨家轉碼技術的媒體處理功能,採用阿里雲獨有演算法,突破視訊編碼器能力上限,對轉碼技術進行升級和迭代,持續優化視訊播放的流暢度與清晰度,實現在同等畫質下更省流、在同等頻寬下更高清的觀看體驗。窄帶高清利用其低碼高清、畫質重生、場景定製、節省 50% 頻寬成本等技術特點,為 2022 年北京“雲上冬奧”和阿里雲聚“Alibaba Cloud ME”提供了重要技術支撐。(窄帶高清產品官網)
參考文獻
[1]Ren Yang, Mai Xu, Zulin Wang, and Tianyi Li, “Multiframe quality enhancement for compressed video,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 6664–6673.
[2]Chao Dong, Yubin Deng, Chen Change Loy, and Xiaoou Tang, “Compression artifacts reduction by a deep convolutional network,” in Proceedings of the IEEE International Conference on Computer Vision, 2015, pp. 576–584.
[3]Kai Zhang, Wangmeng Zuo, Yunjin Chen, Deyu Meng, and Lei Zhang, “Beyond a gaussian denoiser: Residual learning of deep cnn for image denoising,” IEEE Transactions on Image Processing, vol. 26, no. 7, pp. 3142–3155, 2017.
[4]Yulun Zhang, Kunpeng Li, Kai Li, Bineng Zhong, and Yun Fu, “Residual non-local attention networks for image restoration,” arXiv preprint arXiv:1903.10082, 2019.
[5] Zhenyu Guan, Qunliang Xing, Mai Xu, Ren Yang, Tie Liu, and Zulin Wang, “Mfqe 2.0: A new approach for multi-frame quality enhancement on compressed video,” IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019.
「視訊雲技術」你最值得關注的音視訊技術公眾號,每週推送來自阿里雲一線的實踐技術文章,在這裡與音視訊領域一流工程師交流切磋。公眾號後臺回覆【技術】可加入阿里雲視訊雲產品技術交流群,和業內大咖一起探討音視訊技術,獲取更多行業最新資訊。

相關文章