在實時互動場景中,視訊畫質是影響觀眾體驗的關鍵指標,但如何實時評價視訊的畫質一直是個行業難題,需要將未知的視訊畫質使用者主觀體驗變成可知。
未知的部分往往是最需要攻克的,聲網也一直在持續探索符合實時互動領域的視訊畫質評價方法,經過聲網視訊演算法專家的持續鑽研,正式推出了業內首個可執行於移動裝置端的視訊畫質主觀體驗 MOS 分評估模型。利用先進的深度學習演算法,實現對實時互動場景中視訊畫質主觀體驗 MOS 分(平均主觀意見分)的無參考評價,我們把這一評價體系叫做 聲網 VQA (Video Quality Assessment)。
聲網 VQA 是一套“評價主觀視訊質量體驗”的客觀指標,在聲網 VQA 推出前對於視訊質量的評估業界已經有兩種方法。第一種是客觀的視訊質量評估,這種方法主要應用在流媒體播放的場景中,並根據原始參考視訊提供資訊的多少來進行質量評價。第二種是主觀的視訊質量評估,傳統的方法主要依賴人工觀看視訊並打分,雖然能一定程度上直觀反映觀眾對視訊質量的感受,但這種仍存在耗時費力、成本較高、主觀觀感存在偏差等問題。
以上兩種傳統的視訊質量評估方法都難以適用於實時互動的場景,為了解決以上問題,聲網構建了大規模的視訊畫質主觀評估資料庫,並在此基礎上訓練了業內首個可直接在移動端執行的 VQA 模型,它利用深度學習演算法實現對實時互動場景接收端視訊畫質主觀體驗 MOS 分的評估,解除了傳統主觀畫質評估對人力評分的高度依賴,從而極大提高視訊畫質評估效率,使實時的視訊質量評估成為可能。
簡單來說,我們建立了一個視訊畫質主觀評分的資料庫,再通過深度學習演算法建立了一個演算法模型,並基於大量視訊-MOS 分的資訊進行訓練,最終運用到實時互動的場景中,實現視訊畫質主觀 MOS 分的精準模擬。但這其中的難點在於,1、如何收集資料集,即如何量化人對視訊質量的主觀評價;2、如何建立模型,使該模型能夠執行在任何接收端,實時評估接收端畫質。
收集專業、嚴謹、可靠的視訊畫質資料集
為了保證資料集的專業、嚴謹與可靠,聲網首先在視訊素材整理階段,做到視訊內容本身的來源豐富,避免評分員打分時的視覺疲勞,同時,在畫質區間上儘量分佈均衡,避免在有些畫質區間的視訊素材過多,有些畫質區間的視訊又過少,這樣對後續打分的均值會有影響,下圖為我們在某一期視訊收集到的打分分佈:
其次,為了更符合實時互動場景,聲網資料集的設計非常嚴謹,覆蓋了多樣化的場景視訊損傷失真型別,包括:暗光多噪點、運動模糊、花屏、塊效應、運動模糊(攝像頭抖動)、色調、飽和度、亮點和噪聲等。打分指標也設定了 1-5 分,以 0.5 分為一個畫質區間,每個區間確到 0.1,顆粒度更細並對應了詳細的標準。
最後,在資料清洗階段,我們依照 ITU 標準成立 ≥15 人的評分員組,先計算每個評分員和總體均值的相關性,剔除相關性較低的評分員後,再對剩餘評分員的評價求均值,得出最後的視訊主觀體驗 MOS 分。雖然不同的評分員對於“好”和“壞”的絕對區間定義,或者是對畫質損傷的敏感程度都不盡相同,但是對“較好”和“較差”的判斷還是趨同的。
建立基於移動端的視訊畫質主觀體驗 MOS 分評估模型
收集完資料,接下來需要基於資料庫通過深度學習演算法來建立視訊主觀體驗 MOS 分評估模型,使該模型能夠取代人工評分。由於在實時互動場景下,接收端無法獲取無損的視訊參考源,因此聲網的方案是將客觀 VQA 定義為接收端解碼解析度上的無參考評價工具,用深度學習的方法監控解碼後的視訊質量。
● 模型設計的學術嚴謹性:在訓練深度學習模型的過程中,我們也參考了多篇學術級的的論文(見文末的論文參考文獻),例如在非端到端的訓練中會對原始視訊提取部分特徵,我們發現視訊空間上的取樣對效能的影響最大,而進行時域上的取樣與原視訊的 MOS 相關性最高(參考論文文獻 1)。同時,影響畫質體驗的不光是空域的特徵,時域上的失真也會有影響,其中有一個時域滯後效應(參考論文 2)。該效應對應著兩個行為:一是視訊畫質下降時主觀體驗立即降低,二是視訊畫質提升時觀看者體驗的緩慢提升。對此,聲網在建模時也考慮了這種現象。
● 移動端超小模型引數量減少 99.1%:考慮到當前很多實時互動場景應用在移動端,聲網針對性的設計了移動端更易應用的超小模型,模型相對大模型引數量減少 99.1%,運算量減少 99.4% 。就算是低端手機接入後,也可以無壓力的跑起來,進行端上視訊畫質的普查。同時,我們還實現了創新的深度學習模型壓縮方法,在基於某個輕量化版本並且保持模型預測相關性情況下,進一步將模型引數量減少59%,運算量減少49.2%。可做為通用方法,推廣應用到對其他深度學習任務的模型做簡化,形成一個有效的通用簡化辦法。
● 模型效能優於學術界公開大模型:一方面,聲網 VQA 小模型的預測結果相關性與學術界公開的大模型保持相當,甚至略優於一些大模型的結果,我們選取了聲網 VQA 的模型與學術界公開的 IQA、BRISQUE、V-BLINDS 以及 VSFA 等四種視訊畫質評估演算法模型在兩個大規模的公開資料集 KoNViD-1k 、LIVE-VQC 上進行了實驗,實驗結果如下圖:
另一方面,聲網 VQA 的模型相比於學術界基於深度學習的大模型有著很大的運算優勢,我們將聲網 VQA 與 VSFA 進行了模型的引數量和運算量對比,結果聲網 VQA 的引數量與運算量都遠遠低於 VSFA 模型。而這種效能上的優勢賦予了聲網 VQA 在端上直接評估視訊通話服務體驗的可能性,在提供一定準確率保障情況下,大大提升了運算資源的節省。
● VQA 模型具備較好的泛化能力,在深度學習演算法中,泛化能力指的是演算法對新鮮樣本的適應能力,簡單來講就是通過深度學習方法訓練出來的模型,對已知的資料訓練集效能表現良好,對未知的資料測試集經過訓練後也能給出合理的結果。在前期,聲網 VQA 模型主要針對內部的視訊會議工具以及教育場景資料為優先進行打磨,但在後續對娛樂場景測試結果相關性達到 84% 以上。良好的泛化能力將為未來基於聲網 VQA 打造行業認可的視訊質量評價標準建立很好的基礎。
● 更適用於 RTE 實時互動場景:目前行業一些同類的 VQA 演算法主要應用在非實時的流媒體播放場景,而且由於評估方法的侷限性,最終的評測結果往往與使用者真實的主觀體驗評分有一定差距,而聲網的 VQA 演算法模型可以適用實時互動的眾多場景,並且最終評估的主觀視訊質量分和使用者的真實感官體驗吻合度高。同時,聲網 VQA 模型的視訊資料不需要上傳到伺服器,可直接在端上實時執行,不僅節省了資源,還有效為客戶規避資料隱私問題。
從 XLA到 VQA 是 QoS 到 QoE 指標的進化
在實時互動中,QoS 服務質量主要反應了音視訊技術服務的效能與質量,而 QoE 體驗質量代表了使用者對實時互動服務質量和效能的主觀感受。聲網此前推出了實時互動 XLA 體驗質量標準,包含 5s 登入成功率、600ms 視訊卡頓率、200ms 音訊卡頓率、<400ms 網路延時這四項指標,每個指標的月度達標率均需超過 99.5%,XLA 的四項指標主要反應了實時音視訊的服務質量(QoS)。聲網 VQA 可以更直觀的反應使用者對視訊畫質的主觀體驗質量(QoE),也代表著實時互動質量評估指標將實現從 QoS到 QoE 的進化。
而對於企業客戶與開發者而言,聲網 VQA 也可以賦能多重價值:
1、企業選型避坑,很多企業與開發者在挑選實時音視訊服務商時,會將幾段音視訊通話 Demo 的主觀感受或者簡單的接入測試作為選型標準,聲網 VQA 的推出可以幫助企業在服務商選型時多了一種可量化的評價標準,更清晰地瞭解服務商的音視訊質量在使用者側的主觀體驗評價。
2、幫助 ToB 企業為客戶提供視訊質量評估工具,對於提供企業級視訊會議、協作、培訓,以及各類行業級視訊系統的企業可以通過聲網 VQA 有效量化視訊畫質,幫助企業更直觀、可量化地展現自身產品服務的畫質質量。
3、助力產品體驗優化 ,聲網 VQA 將實時互動中原本未知的使用者主觀體驗變成可知,無疑將幫助客戶對產品端的體驗評價、 故障檢測帶來很大的幫助,只有更全面的瞭解客觀的服務質量指標與主觀的使用者體驗質量,才能進一步優化產品體驗,最終提升使用者端的體驗。
未來展望
接下來,聲網 VQA 還有很長的路要走,例如用於模型訓練的 VQA 資料集,多由時長為 4~10s 不等的視訊片段組成,而實際通話中需考慮近因效應,僅通過對視訊片段線性追蹤、打點上報的方式,或許無法準確擬合使用者整體的主觀感受,下一步我們計劃綜合考慮清晰度、流暢度、互動延時、音畫同步等,形成時變的體驗評價方法。
同時,未來聲網 VQA 也有望進行開源,我們希望與行業廠商、開發者一起推動 VQA 的持續演進,最終形成 RTE 行業認可的視訊質量主觀體驗評價標準。
目前聲網 VQA 已在內部系統迭代打磨中,後續將逐漸開放,並計劃同步在 SDK 整合線上評估功能,併發布離線測評工具。如您想進一步瞭解或體驗聲網 VQA ,可點選下方的閱讀原文留下您的資訊,我們將與您做進一步的溝通。
附學術論文參考文獻:
[1] Z. Ying, M. Mandal, D. Ghadiyaram and A. Bovik, "Patch-VQ: ‘Patching Up’ the Video Quality Problem," 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, TN, USA, 2021, pp. 14014-14024.
[2] K. Seshadrinathan and A. C. Bovik, "Temporal hysteresis model of time varying subjective video quality," 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Prague, Czech Republic, 2011, pp. 1153-1156.