大淘寶技術斬獲NTIRE 2023影片質量評價比賽冠軍(內含奪冠方案)

大淘寶技術發表於2023-04-26
近日,CVPR NTIRE 2023 Quality Assessment of Video Enhancement Challenge比賽結果公佈,來自大淘寶音影片技術團隊的同學組成「TB-VQA」隊伍,從37支隊伍中脫穎而出,拿下該比賽(唯一賽道)冠軍。此次奪冠是團隊繼MSU 2020和2021世界編碼器比賽、CVPR NTIRE 2022壓縮影片超分與增強比賽奪魁後,再次在音影片核心技術的權威比賽中折桂。

賽事介紹

CVPR NTIRE (New Trends in Image Restoration and Enhancement workshop and challenges on image and video processing) 是近年來影像和影片增強處理領域最具影響力的全球性賽事。今年(2023)的賽事包括Quality Assessment of Video Enhancement Challenge(影片質量評價,VQA)、real-time image super-resolution、image shadow removal、video colorization、image denoising等,覆蓋許多影像和影片增強處理的經典任務。
由上述競賽不難看出,影片增強處理已經在學術界大量研究並在工業界得到廣泛應用。隨著網際網路影片化的深入,越來越多的UGC(user generated content)等非傳統廣電影片(包括但不限於短影片、直播等)在網際網路平臺上被生產或播放,並大都經過增強處理。自然地,如何有效地衡量增強處理後的影片質量就成為一項重要且緊迫的任務。
因此,VQA競賽應運而生,並由NTIRE於今年首次舉辦。主辦方構建了包含1,211個真實應用場景的影片的資料集 ,對其進行包括色彩、亮度、和對比度增強、去抖動、去模糊等增強處理,並對處理後的影片進行打分作為GT(ground truth)。參賽者設計方案對上述影片進行打分,與GT更為接近(使用相關性作為衡量指標,包括SRCC和 PLCC,是業界最常用的指標,更高的SRCC和PLCC表示與GT擬合程度更高)的參賽者名次更好。
本次競賽由蘇黎世聯邦理工學院計算機視覺實驗室主辦,僅有唯一賽道——無參考影片質量評價,雲集了國內外幾十只參賽隊伍,包括位元組、快手、網易、小米、Shopee等知名科技企業,北京航空航天大學、新加坡南洋理工大學等高校均有參賽。
經過激烈的角逐,大淘寶音影片技術的參賽隊伍「TB-VQA」在唯一賽道奪冠,在Main Score、SRCC、和PLCC三項指標均勝出。

圖片
表1. CVPR NTIRE 2023 VQA比賽排行榜

值得一提的是,本次比賽的冠軍是大淘寶音影片技術團隊繼MSU 2020和2021世界編碼器比賽、CVPR NTIRE 2022壓縮影片超分與增強比賽奪魁後,再次在音影片核心技術的權威比賽中取得佳績。團隊在影片編碼、影片增強處理、影片質量評價、以及影片傳輸等影片核心技術領域均有佈局,一些技術突破發表在CVPR、ICCV等計算機視覺和影片領域的頂級會議,在上述比賽取得出色成績,也是團隊長期以來持續投入和不斷創新的階段性成果。

在影片編碼方面,MSU(莫斯科國立大學)世界影片編碼器大賽是影片編碼領域最權威的全球性頂級賽事,迄今已由MSU的Graphics & Media Lab連續舉辦了二十三屆,其評測報告被業界廣泛認可,吸引了包括Google、Netflix、Intel、Nvidia、騰訊、位元組、華為等國內外知名科技企業參與,代表了行業發展的風向標。大淘寶音影片技術團隊自研的奇點編碼器S265和S266,相比業界流行的開源編碼器x265、VVEnC等,在編碼速度、編碼質量、和編碼延時等多方面均有明顯突破,並聯合阿里雲影片雲團隊參加了MSU 2020和2021連續兩屆比賽,取得多個賽道第一。S265已經全面應用於包括淘寶直播、逛逛、首頁資訊流在內的大淘寶內容業務,經過奇點編碼器壓縮後,普通手機在3G網路也可順滑播放720p的高畫質,最新發布的手機甚至可支援4k 30FPS超高畫質直播。

在影片增強處理方面,CVPR NTIRE 壓縮影片超分與增強比賽自2020年起已舉辦三屆,在工業界和學術界均產生了重大的影響,吸引了包括騰訊、位元組、華為等知名科技企業,中科院、北大、港中文、ETH等科研機構參賽,其中很多參賽者都是連續參賽,競爭激烈。CVPR NTIRE 2022壓縮影片超分與增強比賽包含三個賽道,分別是:

  1. 賽道1:針對影片編碼的高壓縮比帶來的失真的影片恢復問題;
  2. 賽道2:在賽道1的基礎上,同時處理高壓縮和2倍超分問題。;
  3. 賽道3:在賽道2的基礎上,進一步探索4倍超分問題。

其中,Track1和Track2的問題已經在工業界得到廣泛應用,將影片還原到理想影片的畫質能夠大幅提升人眼感官,吸引人們的觀看意願。經過激烈的角逐,大淘寶音影片技術團隊自研的影片超分方法TaoMC2,取得了三個賽道兩冠一亞(賽道3亞軍)的成績。相關影片增強技術目前已廣泛應用於點淘、逛逛在內的所有大淘寶內容業務,支援直播、短影片的實時和非實時轉碼過程中的畫質增強;相關超解析度技術也廣泛用於諸如弱網等場景下的低解析度影片傳輸、保障低傳輸頻寬下的高解析度的使用者播放畫質體驗。後文分享我們的具體的方案——

參考方案

影片質量評價按照對參考影片可用性一般可以分成三類:全參考影片質量評價、部分參考影片質量評價、和無參考影片質量評價 [1]。由於影片增強場景不存在完美的參考影片,因此更適合採用無參考影片質量評價方法。無參考影片質量評價作為質量評價的主要研究方向之一,在過去的幾年裡得到了廣泛的關注。主流方法有:基於影像識別 [2] 或者影像質量評價 [3] 任務的預訓練模型來提取影片的幀級特徵、考慮時序上的相關性迴歸特徵或者進一步結合時域特徵 [4] 、以及針對影片失真進行端到端的特徵表徵學習 [5] 等。

我們提出的方法基於 [5] ,並且考慮到近年來Swin Transformer在CV領域取得巨大成功,使用Swin Transformer V2替換較為傳統的卷積神經網路(CNN)骨幹網路ResNet提取空域特徵。同時,為了更好融合時空域特徵,在時空特徵融合模組中,我們引入了一個 1×1 卷積層,它加深了從預訓練網路的中間階段提取的空間特徵,以彌補淺層和深層特徵之間的差距。此外,為了解決常見的質量評價資料集規模過小、大模型容易過擬合的問題,我們同時在空域和時域兩個維度進行資料增強,提高模型效能。

模型設計

圖1示出了所提出的無參考影片質量評價模型的框架,包括空域特徵提取模組、時域特徵提取模組、和時空特徵融合迴歸模組。具體來說,空域特徵模組提取空間失真相關特徵,時域特徵提取模組提取運動相關資訊,並且,考慮到運動資訊對失真感知的影響,我們進一步融合時空域特徵,然後透過特徵迴歸對映到最終的質量分數。

圖片
圖1. VQA模型的網路架構示例。

空域特徵提取

語義特徵作為重要的空域特徵經常用於質量評價,其描述影像中物體的物理特性、物體之間的時空關係、以及物體的內容資訊等,屬於影像的高維特徵。對於不同的影像內容,語義特徵會影響人眼的視覺感知:人眼通常無法容忍紋理豐富的內容(例如草坪、地毯)的模糊,而對紋理簡單的內容(例如天空、牆面)的模糊相對不敏感。綜上考慮,我們利用從預訓練的Swin Transformer V2 [3] 網路倒數第二層Transformer模組輸出的特徵作為幀級的空間域特徵,如圖2公式所示:
圖片
圖2. 語義特徵。

其中,圖片表示從第圖片個影片片段的第圖片幀獲取的語義特徵,圖片表示級聯運算元,圖片表示全域性平均池化運算元,圖片表示Swin Transformer V2最後第圖片層的特徵圖。

時域特徵提取

手機拍攝時的抖動會導致影片發生時域失真,並且,其無法被影片空域特徵有效地描述。因此,為了提高模型的準確度,我們利用預訓練的SlowFast網路[7] 獲取影片片段級的運動特徵,作為時域特徵表徵,如圖3公式所示:
圖片
圖3. 時域特徵。

其中,圖片表示從第圖片個影片片段獲取的運動特徵,圖片表示運動特徵提取運算元。

時空域特徵融合與迴歸

由於不同層空域特徵之間存在較大的差異,對其進行直接拼接不利於時空特徵融合,因此我們先對倒數第二層輸出特徵進行卷積處理,然後再與最後一層輸出空間特徵融合以及空域特徵進行融合,並透過兩層全連線層迴歸得到影片片段級質量分數,如圖4所示:
圖片
圖4. 時空域特徵融合與迴歸。

此外,我們使用時間上的平均池化來聚合影片片段質量分數作為整個影片質量分數,如圖5公式所示:
圖片
圖5. 平均池化得到整個影片打分。

其中,圖片表示影片分段的數目,圖片表示影片片段級分數,完整影片的質量圖片可透過對影片片段打分進行平均池化操作獲得。

資料增強與訓練

本次比賽官方提供的訓練資料集有839個影片,不足以訓練基於Transformer的模型。因此,我們從兩個資料集增強策略和大型資料集預訓練兩種方法提高模型的新能。

資料集增強影片質量評價方法常採用在影像中隨機crop固定大小patch的方式進行空間資料增強。作為對比,我們同時考慮考慮空間和時間資料增強,如圖6所示:
圖片
圖6. 時空域資料增強示例。

其中,整個影片會被分成T個影片片段(每秒一個片段)。提取空域特徵時,每個影片片段隨機抽取1幀。同時,為保留幀間的時間關聯性,抽樣幀之間的時間間隔保持不變。

大型資料集預訓練

LSVQ [8] 影片質量評價資料集有38,811個影片樣本,是目前最大的開源質量評價資料集。因此,我們先在LSVQ資料集上對模型進行預訓練,之後基於特定的任務以相對小型的資料集微調模型。

實驗結果

我們在兩個公開的影片質量評價資料集KoNViD-1k和LIVE-VQC上,與現有SOTA方法進行了對比。我們使用業界最常用的Spearman Rank Order Correlation Coefficient(SROCC)和Pearson Linear Correlation Coefficient(PLCC)作為指標。更高的SROCC表示樣本間更好的保序性,更高的PLCC表示與標註分數更好地擬合程度。結果如表2所示。
圖片
表2. MD-VQA與其他影片質量評價SOTA模型在KoNViD-1k、LIVE-VQC資料集的效能比較。

從表中可以看出,我們在所測試資料集上的SROCC和PLCC均超過了現有SOTA方法,達到了先進效能。此外,為了探索不同最佳化方式對模型效能的貢獻,我們進行了消融實驗(ablation study),如表3所示。
圖片
表3. 骨幹網路替換(Swin)、特徵融合最佳化(Conv)、資料集增強最佳化(DA)和大型資料集預訓練(Pre)對於模型效能的貢獻比較。

從表3中可以看出,骨幹網路替換(Swin)、特徵融合最佳化(Conv)、資料集增強最佳化(DA)和、大型資料集預訓練(Pre)對於模型效能的領先性均有貢獻。

業務應用

如前所述,隨著網際網路影片化的深入,越來越多的UGC等非傳統廣電影片(包括但不限於短影片、直播等)在淘寶直播、逛逛等平臺上被生產或播放。通常,由於拍攝裝置、環境、技術等各種原因,使用者生產的影片畫質是參差不齊的。此外,在下發的過程中,影片畫質受制於到網路環境、頻寬成本、使用者機型差異等因素,以及對應的編解碼、影片增強處理、影片傳輸等過程,影片畫質往往不可避免地受到影響。那麼,如何確保商家和使用者在淘寶直播等平臺極致的開播和觀看體驗呢?

針對這個問題,大淘寶音影片技術團隊自研了針對UGC影片的無參考影片質量評價模型 —— MD-VQA(Multi-Dimensional Video Quality Assessment),綜合影片的語義、失真、運動等多維度資訊,來衡量影片絕對質量的高低。MD-VQA已經全面應用於包括淘寶直播、逛逛在內的大淘寶內容業務,“量化”並監控影片業務的大盤畫質變化,快速、精準地篩選出不同畫質水位的直播間和短影片,配合自研S265編碼器、影片增強運算元集STaoVideo、以及《電商直播高畫質開播指南》[9] 等,幫助提升平臺內容畫質。此次比賽的冠軍方案,就是基於MD-VQA探索出的新方法。

具體來說,以淘寶直播為例,MD-VQA提供分鐘級的線上質量監控能力,能夠快速、精準地篩選不同畫質水位的直播間,協助線上低畫質badcase的挖掘分析,實時提醒主播畫質問題方面的瓶頸問題,配合《電商直播高畫質開播指南》,提供改進措施,使得淘寶直播主播畫質滿意度顯著提升:在收到過提醒的主播中,75%+希望保持和完善實時提醒服務。

此外,MD-VQA在整個阿里集團內部也在支撐越來越多的畫質評價相關業務,比如釘釘直播、ICBU直播和支付寶直播,協助監控影片相關業務的畫質體驗。

參考文獻

  1. Shyamprasad Chikkerur, Vijay Sundaram, Martin Reisslein, and Lina J Karam. Objective video quality assessment methods: A classification, review, and performance comparison. IEEE Transactions on Broadcasting, 57(2):165–182, 2011.
  2. Dingquan Li, Tingting Jiang, and Ming Jiang. Quality assessment of in-the-wild videos. In Proceedings of the ACM International Conference on Multimedia, pages 2351–2359, 2019.
  3. Yilin Wang, Junjie Ke, Hossein Talebi, Joong Gon Yim, Neil Birkbeck, Balu Adsumilli, Peyman Milanfar, and Feng Yang. Rich features for perceptual quality assessment of UGC videos. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 13435–13444, 2021.
  4. Bowen Li, Weixia Zhang, Meng Tian, Guangtao Zhai, and Xianpei Wang. Blindly Assess Quality of In-the-Wild Videos via Quality-aware Pre-training and Motion Perception. IEEE Transactions on Circuits and Systems for Video Technology, 32(9):5944–5958, 2022.
  5. Wei Sun, Xiongkuo Min, Wei Lu, and Guangtao Zhai. A deep learning based no-reference quality assessment model for UGC videos. In Proceedings of the ACM International Conference on Multimedia, pages 856–865, 2022
  6. Ze Liu, Han Hu, Yutong Lin, Zhuliang Yao, Zhenda Xie, Yixuan Wei, Jia Ning, Yue Cao, Zheng Zhang, Li Dong, et al. Swin transformer v2: Scaling up capacity and resolution. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12009–12019, 2022.
  7. Christoph Feichtenhofer, Haoqi Fan, Jitendra Malik, and Kaiming He. Slowfast networks for video recognition. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 6202–6211, 2019.
  8. Zhenqiang Ying, Maniratnam Mandal, Deepti Ghadiyaram, and Alan Bovik. Patch-VQ:’patching up’the video quality problem. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 14019–14029, 2021.
  9. 《服貿會在京舉行|淘寶直播攜手佳能佳直播聯合釋出《電商直播高畫質開播指南》讓品質直播觸手可及》

相關文章