音視訊技術:視訊質量評價方法簡介

網易雲信發表於2018-08-26
視訊質量評估(VQA)一直是個很活躍的研究領域,原因其一是業內一直缺少一種統一且準確的評估標準,其二是影響視訊質量的因素過多,且包含很多主觀因素,難以客觀、定量地評價。經過這麼多年的研究,已經誕生了非常多的視訊質量評估方法,本文將簡單地對它們進行分類及介紹。

相關閱讀推薦

視訊直播:Windows中各類畫面源的擷取和合成方法總結

視訊直播關鍵技術:流暢、擁塞和延時追趕

短視訊技術詳解:Android端的短視訊開發技術

客觀質量評估方法分類

首先,視訊質量評估方法可分為主觀測試和客觀測試兩大類。主觀測試即通過人類肉眼觀察的手段來評分,可以說是最能體現觀眾對視訊質量感受的方法,也是其他客觀評價方法的終極目標。但主觀測試極端耗費人力和時間,是無法直接在工業領域應用的。

而客觀評估方法,按照國際電信聯盟(ITU)的建議,可以根據輸入的資料型別被分為5大類:媒體層(Media-layer)模型、引數集層(Parametric packet-layer)模型、引數規劃(Parametric planning)模型、碼流層(Bitstream-layer)模型、混合(Hybrid)模型。其中媒體層模型直接使用媒體資訊進行運算分析給出評價結果,而其他型別的評估方法則是根據編碼引數或網路通道狀態等等外部變數來評估質量。

媒體層模型的方法可以依據是否需要輸入編碼前的原始視訊資料進一步劃分為全參考(FR,Full-Reference)、部分參考(RR,Reduced-Reference)和無參考(NR,No-Reference)三類。故名思議,全參考使用完整的原始視訊訊號作為對比資料,而部分參考則使用經過提取的部分視訊特徵作為對比資料,無參考則僅使用使用者得到的實際資料來評價視訊質量。這三類方法的準確度和適用場合均大有不同。

Figure1 FR,RR,NR視訊質量評估的差異

音視訊技術:視訊質量評價方法簡介

全參考視訊質量評估

顯然的,在這三類方法中,有完整的原始資料作為對比源的全參考質量評估方法結果會更加準確。但是也正因為其需要使用原始資料,實際應用時會存在較大的限制,所以一般僅在非實時的評估系統中會被使用。例如在開發過程中配置編碼引數或比較不同編碼器的效能時,大多會採用這類方法。

早期的全參考評估方法,一般直接使用畫素差值作為衡量依據,比如均方差(MSE)、峰值訊雜比(PSNR)等。這類方法計算簡單,且能夠一定程度反應影象的失真程度,所以至今仍然有很多應用在使用它們。

但是畢竟人類主觀上不光只是依靠單個畫素的差異來評價視訊質量的。且不說視訊中包含的大量運動資訊,即便只考慮靜態影象,同樣的畫素差值以不同的分佈規律分佈在不同的位置上時,對視訊質量的影響也是不一樣的。為了更好的評價視訊質量,研究人員根據人類自然視覺上的特性,提出了許多新的評價方法。例如基於結構相似度的VSSIM,以及綜合統計了多種影響因子的VQM等。它們的評價結果相對前一類方法都更為接近人眼主觀感受。這裡借用一下出自K.Seshadrinathan, A. C. Bovik的文獻“Motion Tuned Spatio-Temporal Quality Assessmentof Natural Videos”裡的圖來展示一下PSNR,VSSIM,VQM的區別。下方三張圖橫座標為客觀測試分數,縱座標則為主觀測試分數。可以看到PSNR的結果與主觀分數差異較大,VSSIM則存在不同型別的視訊評價準確度不一的問題,VQM相對來說結果最好。

Figure2 PSNR,VSSIM,VQM客觀評測分數與主觀評測分數對比

音視訊技術:視訊質量評價方法簡介

後來,研究人員引入了基於人類視覺系統(HVS)的感知模型,進一步提升了視訊質量評估的準確性。這其中比較有代表性的是MOVIE(MOtion-based Video IntegrityEvalution)。這種方法會計算視訊中物體的運動向量,聯合時域和空域的失真資訊,最終得到一個符合主觀感受的失真評價分數。在眾多全參考視訊質量評估方法中,MOVIE屬於結果較為優秀的一種。但是同時,MOVIE的運算複雜度也要遠高於前面提及的幾種演算法。下圖橫座標為MOVIE應用在視訊質量專家組(VQEG)資料庫提供的測試序列上得到的客觀評分,縱座標為主觀測試得分。

Figure3 MOIVE客觀評分與主觀評分對比

音視訊技術:視訊質量評價方法簡介

部分參考視訊質量評估

全參考視訊質量評估需要完整的原始視訊訊號,也就是未經壓縮的畫素資料。這個量級的資料一般是無法實時傳輸的,這也就導致無法在遠端實時監測視訊質量。為了解決這個問題,人們提出了部分參考的評估方法。這類方法會提取原始視訊訊號中某些特徵值,利用它們來評價視訊質量。常見的特徵值有DCT係數、運動向量等。作為一種介於全參考與無參考之間的折中方案,它夠解決遠端傳輸的問題,而其代價是準確度的降低。現有的部分參考質量評估方法大都僅能達到與PSNR準確度相當的水平。

無參考視訊質量評估

無參考視訊質量評估不再需要失真前的資料,而僅需要和觀眾實際得到的相同的視訊資訊,就能得到一個大體的質量評分。這類方法雖然實現起來較為困難,但是一旦實現,即可很靈活地應用在視訊相關的各個領域,是一種比較理想的視訊質量評估手段。但是到目前為止,無參考評估仍然沒有一個較為成熟的方案。一方面其評估結果的準確性與有參考的評估方法相比還有一定差距,另一方面其對視訊內容有比較大的依賴性,普適性仍不能夠得到保證。

不過無參考視訊質量評價目前已是視訊質量相關研究的重點。並且,近些年機器學習技術的進步與普及,也為解決如何在沒有參考對比的前提下評價視訊質量這個問題提供了新的方向。目前業界也已經有了一些藉助機器學習手段來進行無參考視訊質量評估的嘗試,其效果如何仍有待驗證。相信隨著研究者們的不斷探索與嘗試,未來我們能夠得到一種成熟的方案。

總結

視訊質量評估的內容非常多,本文僅僅粗略地介紹了客觀視訊質量評價的種類以及它們的適用場景。在實際應用時,仍需要根據實際情況來選擇合適的方法。例如是否需要比較不同幀率或不同解析度的視訊質量,是否需要考慮網路抖動的影響等等。最後,用下面的分類圖做一個總結:

Figure4 視訊質量評估方法大致分類

音視訊技術:視訊質量評價方法簡介

另外,想要了解更多關於即時通訊和音視訊技術的乾貨文章,可以移步網易雲信部落格


相關文章