近日,騰訊多媒體實驗室設計的基於深度學習的全參考視訊質量評估演算法DVQA在Github上正式開源,該演算法模型的效能目前在公開測試資料集上取得業界領先成績。
開源地址: https://github.com/Tencent/DVQA
國內映象地址:https://git.code.tencent.com/Tencent_Open_Source/DVQA(登入後才能訪問公開專案)
視聽時代,音視訊應用越來越廣泛:直播、短視訊、視訊節目、音視訊通話……近期由於新冠疫情帶來的線上協同辦公、線上教育類產品的崛起,更帶來了線上音視訊需求的爆發,使用者對音視訊質量訴求也愈加強烈。
在整個視訊鏈路中,大部分模組都可以精確度量,如採集、上傳、預處理、轉碼、分發等。然而未知的部分卻恰恰是最關鍵的部分,即使用者的視訊觀看體驗到底怎麼樣。目前行業內的視訊質量評估方法分為兩大類:客觀質量評估與主觀質量評估。前者計算視訊的質量分數,又根據是否使用高清視訊做參考、源視訊是專業視訊還是使用者原創視訊等進一步細分;後者主要依賴人眼觀看並打分,能夠直觀反映觀眾對視訊質量的感受。然而,這些方法仍存在耗時費力、成本較高、主觀觀感存在偏差等難題。
為此,騰訊多媒體實驗室提出的視訊質量評估解決方案,首先結合業務需求,使用“線上主觀質量評測平臺”,來構建大規模主觀質量資料庫,同時使用所收集的主觀資料來訓練基於深度學習的客觀質量評估演算法,最後把訓練好的質量評估演算法部署到業務線中,閉環監控可能存在的質量問題。從以上三個角度出發,DVQA能夠在兼顧不同業務、場景的前提下,滿足效率與精度兩大需求。
DVQA包含多個質量評估演算法模型,本次開源的是針對PGC視訊的演算法C3DVQA。本專案使用Python開發,深度學習模組使用PyTorch。程式碼使用模組化設計,方便整合較新的深度學習技術,靈活的自定義模型,訓練和測試新的資料集。
在演算法設計上,C3DVQA所使用的網路結構如下圖所示。其輸入為損傷視訊和殘差視訊。網路包含兩層二維卷積來逐幀提取空域特徵。級聯後使用四層三維卷積層來學習時空聯合特徵。三維卷積輸出描述了視訊的時空掩蓋效應,再使用它來模擬人眼對視訊殘差的感知情況:掩蓋效應弱的地方,殘差更容易被感知;掩蓋效應強的地方,複雜的背景更能掩蓋畫面失真。
網路最後是池化層和全連線層。池化層的輸入為殘差幀經掩蓋效應處理後的結果,它代表了人眼可感知殘差。全連線層學習整體感知質量和目標質量分數區間的非線性迴歸關係。
在評測結果上,騰訊多媒體實驗室在LIVE和CSIQ兩個視訊質量資料集上對所提出演算法的效能進行驗證。並使用標準的PLCC和SROCC作為質量準則來比較不同演算法的效能。將所提出的C3DVQA與常用的全參考質量評估演算法進行對比,包括PSNR,MOVIE,ST-MAD,VMAF和DeepVQA,結果如下表所示。
目前該評估演算法已在騰訊內外部多款產品中進行使用驗證,如騰訊會議就藉助實驗室上百個符合ITU/3GPP/AVS等國外內標準的指標進行評判,閉環監控全網的使用者體驗質量,從使用者真實體驗出發,不斷優化產品效能。
作為最早佈局音視訊領域的公司之一,從最早的QQ平臺,騰訊就試圖解決在當年網路條件下若干的音視訊通訊問題。伴隨著5G、雲端計算、大資料、人工智慧技術的發展,騰訊多媒體實驗室基於多年的技術沉澱和行業經驗,逐步打磨出一條完善且高質量的音視訊技術鏈條。