在實時互動無處不在的今天,視訊質量是反映終端使用者體驗的重要指標。單純依賴人工實施大規模的實時評估是不現實的,因此視訊質量自動化評估體系的搭建與推廣是大勢所趨。
然而如何評價視訊質量?不同的關注點可能會帶來不同的答案。對於各類直播的終端使用者來說,關注的側重點是實時的質量監控;對於提供視訊技術服務的從業人員來說,關注的則是視訊演算法版本之間細粒度的提升或回退。因此,我們需要一套“評價主觀視訊質量體驗”的客觀指標,一方面作為客戶端的體驗評價或故障檢測,另一方面作為從業人員的演算法優化效能參考。我們把這一評價體系叫做 VQA(Video Quality Assessment)。
這個問題的難點,一是如何收集資料,即如何量化人對視訊質量的主觀評價,二是如何建立模型,使該模型能夠取代人工評分。
在接下來的內容中,會先梳理業界一般的評估方法,再介紹聲網的 Agora-VQA 模型建立過程,最後總結未來的改進方向。
業界如何實現視訊質量評估?
與深度學習領域其他演算法一樣,建立視訊質量評估模型也可以分為兩步:收集 VQA 資料、訓練 VQA 模型。整個 VQA 訓練的過程通過客觀模型對主觀標註的模擬來實現,擬合效果的好壞由一致性評價指標來定義。主觀的 VQA 標註以分級評分的方式收集終端使用者反饋,旨在量化真實使用者的視訊體驗;客觀VQA則提供了模仿主觀質量分級的數學模型。
主觀:VQA 資料收集
主觀評價由觀察者對視訊質量進行主觀評分, 可以分為 MOS(Mean Opinion Score)和 DMOS(Differential Mean Opinion Score)兩種。MOS 描述的是視訊的絕對評價,屬於無參考場景,直接量化海量 UGC 視訊的質量。DMOS 則表示視訊的相對評價,屬於有參考場景,一般是在相同內容下比較視訊之間的差異。
本文我們主要介紹 MOS,ITU-T Rec BT.500 給出的操作範例保證了主觀實驗的信度和效度。將主觀的視訊感受投射到[1,5]的區間內,描述如下:
分數 | 體驗 | 描述 |
---|---|---|
5 | Excellent | 體驗很好 |
4 | Good | 可感知,但不影響(體驗) |
3 | Fair | 輕微的影響 |
2 | Poor | 有影響 |
1 | Bad | 非常影響 |
這裡需要詳細解釋兩個問題:
1、如何形成 MOS?
ITU-T Rec BT.500 給出的建議是“成立≥15人的非專家組”,得到評分員對視訊的標註後,先計算每個人和總體均值的相關性,剔除相關性較低的評分員後,再對剩餘評分員的評價求均值。當參與評分的人數大於15時,足以將實驗隨機誤差控制在可接受範圍內。
2、如何解讀 MOS?MOS 能在多大程度上代表“我”的意見?
雖然不同的評分員對於“好”和“壞”的絕對區間定義,或者是對畫質損傷的敏感程度都不盡相同。但是對“較好”和“較差”的判斷還是趨同的。事實上,在例如 Waterloo QoE Database 等公開資料庫中,std 均值可達到 0.7,說明不同的評分員的主觀感受可以相差近 1 個檔位。
客觀:VQA 模型建立
VQA 工具的分類方法有非常多,按照原始參考視訊提供資訊的多少,可以將 VQA 工具分為三大類:
Full Reference 全參考
依賴於完整的原始視訊序列作為參考標準,基於逐畫素的PSNR 和 SSIM就是最原始的比較方法,缺點是和主觀的擬合程度有限,Netflix 推出的 VMAF 指標也在此列。
Reduced Reference 半參考
比較的物件是(原始視訊序列和接收端視訊序列的)某些對應特徵,適用於完整的原始視訊序列不可得的情況,這類方法介於 Full Reference 和 No Reference 之間。
No Reference 無參考
No Reference(以下簡稱“NR”)的方法進一步解除了對附加資訊的依賴,更加“就事論事”地評價當前視訊。受到線上資料監控方式的限制,實際場景下參考視訊通常是無法獲取的。常見的 NR 指標有 DIIVINE、BRISQUE、BLIINDS 和 NIQE 等,由於參考視訊的缺失,這些方法的精度與全參考、半參考相比往往略遜一籌。
主客觀一致性評價指標
前文說到,基於畫素的 PSNR 和 SSIM 方法和主觀的擬合程度有限,那麼我們是如何判定各類 VQA 工具好壞的呢?
業內通常從客觀模型的預測精度和預測單調性給出定義。預測精度描述了客觀模型對主觀評價的線性預測能力,相關的指標是 PLCC(Pearson Linear Correlation Coefficient)和 RMSE(Root Mean Square Error)。預測單調性描述了評分相對等級的一致性,衡量的指標是 SROCC(Spearman Rank Correlation Coefficient)。
Agora-VQA 如何實現視訊質量評估?
不過,多數公開資料集從資料量大小、視訊內容豐富度來看都還不足以反映真實線上情況。所以為了更貼近真實的資料特徵,覆蓋不同 RTE(實時互動)場景,我們建立了 Agora-VQA Dataset,並在此基礎上訓練了 Agora-VQA Model。這是業內首個可執行於移動裝置端的基於深度學習的視訊主觀體驗 MOS 評估模型。它利用深度學習演算法實現對 RTE(實時互動)場景接收端視訊畫質主觀體驗 MOS 分的估計,解除了傳統主觀畫質評估對人力的高度依賴,從而極大提高視訊畫質評估的效率,使線上視訊質量的實時評估成為可能。
主觀:Agora-VQA Dataset
我們建立了一個畫質主觀評估資料庫,並參照 ITU 標準搭建了一套打分系統收集主觀打分,然後進行資料清洗,最後得到視訊的主觀體驗得分 MOS,總體流程如下圖所示:
在視訊整理階段,首先我們考慮在同一批的打分素材中做到視訊內容本身的來源豐富,避免評分員的視覺疲勞;其次,在畫質區間上儘量分佈均衡,下圖為某一期視訊收集到的打分分佈:
在主觀打分階段,我們搭建了一個打分 app,每條視訊長度在 4-8s,每批次收集 100 條視訊打分,對於每一個評分員來說,觀看總時長控制在 30min 以內,避免疲勞。
最後,在資料清洗階段,有兩種可選方案。其一依照 ITU 標準:先計算每個人和總體均值的相關性,剔除相關性較低的評分員後,再對剩餘評分員的評價求均值。其二是通過計算每個樣本的 95% 置信區間,選擇打分一致性最高的視訊作為金標準,篩選掉在這些樣本上打分偏差較大的參與者。
客觀:Agora-VQA Model
一方面為了更貼近使用者的實際主觀感受,另一方面是由於在視訊直播及其類似場景中參考視訊是無法獲取的,因此我們的方案是將客觀 VQA 定義為接收端的解碼解析度上的無參考評價工具,用深度學習的方法監控解碼端視訊質量。
訓練深度學習模型可以分為端到端與非端到端。在端到端的訓練方式中,由於視訊的時空解析度不同,要取樣到統一大小進行端到端的訓練;對於非端到端,首先通過一個預訓練的網路提取特徵,然後對視訊特徵進行迴歸訓練擬合 MOS。
在特徵提取部分,對原始視訊有不同的取樣方式,下圖(引用論文[1]中插圖)顯示的是不同的取樣方式與主觀的相關性,可以看出視訊空間上的取樣對效能的影響最大,而進行時域上的取樣與原視訊的MOS相關性最高。
影響畫質體驗的不光是空域的特徵,時域上的失真也會有影響,其中有一個時域滯後效應(參考論文[2])。該效應對應著兩個行為:一是視訊畫質下降時主觀體驗立即降低,二是視訊畫質提升時觀看者體驗的緩慢提升。我們在建模時也考慮了這種現象。
與其它 VQA 工具的效能比較
最後來看不同畫質評估演算法在 KonViD-1k 和 LIVE-VQC 上的相關性表現:
模型的引數量和運算量對比:
可以看出 Agora-VQA 相對於學術界基於深度學習的大模型有著很大的運算優勢,而這種優勢賦予了我們在端上直接評估視訊通訊服務體驗的可能性,在提供一定準確率保障情況下,大大提升了運算資源的節省。
展望
最後,距離達到最終的 QoE(Quality of Experience),即刻畫使用者主觀體驗的目標,Agora-VQA 還有很長的路要走:
1)從解碼解析度到渲染解析度
解碼解析度的概念是相對於渲染解析度的,已知視訊在不同的裝置播放,或者在同一裝置上、以不同的視窗尺寸拉伸都會造成主觀體驗的差異。當前 Agora-VQA 評估的是解碼端視訊流的質量,在下一階段我們計劃支援不同的裝置和不同的拉伸尺寸,更加貼近終端使用者感知質量,實現“所看即所得”。
2)從視訊片段到整段通話
用於模型訓練的 VQA 資料集,多由時長為 4~10s 不等的視訊片段組成,而實際通話中需考慮近因效應,僅通過對視訊片段線性追蹤、打點上報的方式,或許無法準確擬合使用者的主觀感受,下一步我們計劃綜合考慮清晰度、流暢度、互動延時、音畫同步等,形成時變的體驗評價方法。
3)從體驗得分到故障分類
當前 Agora-VQA 能夠實現在區間[1,5]內,精確到 0.1 的視訊質量預測,而當視訊質量較差時,自動定位故障原因也是實現線上質量普查的重要環節,因此我們計劃在現有模型基礎上支援故障檢測功能。
4)從實時評估到行業標準化
目前Agora-VQA已在內部系統迭代打磨中,後續將逐漸開放,未來計劃同步在SDK整合線上評估功能,併發布離線測評工具。
以上是我們在 VQA 方面的研究與實踐,歡迎大家點選「閱讀原文」在開發者社群發帖與我們交流。
參考文獻
[1] Z. Ying, M. Mandal, D. Ghadiyaram and A. Bovik, "Patch-VQ: ‘Patching Up’ the Video Quality Problem," 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, TN, USA, 2021, pp. 14014-14024.
[2] K. Seshadrinathan and A. C. Bovik, "Temporal hysteresis model of time varying subjective video quality," 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Prague, Czech Republic, 2011, pp. 1153-1156.
Dev for Dev專欄介紹
Dev for Dev(Developer for Developer)是聲網Agora 與 RTC 開發者社群共同發起的開發者互動創新實踐活動。透過工程師視角的技術分享、交流碰撞、專案共建等多種形式,匯聚開發者的力量,挖掘和傳遞最具價值的技術內容和專案,全面釋放技術的創造力。