騰訊Turing Lab論文入選ICASSP,影像AI研究成果獲國際認可

遊資網發表於2022-06-06
近日,全球頂級訊號處理技術會議 ICASSP 2022 公佈了論文入選名單。由王君樂博士帶領的騰訊Turing Lab實驗室論文——《針對手機遊戲的主觀與客觀視訊質量評價》(Subjective and Objective Quality Assessment of Mobile Gaming Video)、《引入使用者共識學習的美學質量預測》(Considering User Agreement in Learning to Predict the Aesthetic Quality)被大會接收。

ICASSP?(International Conference on Acoustics, Speech, and Signal Processing)是國際聲學、語音和訊號處理會議。是由IEEE主辦的全世界最大的、也是最全面的訊號處理及其應用方面的頂級學術會議,具有權威、廣泛的學界及工業界影響力。歷屆ICASSP會議都備受AI領域研究學者的熱議和關注。

騰訊Turing Lab論文入選ICASSP,影像AI研究成果獲國際認可

此次,騰訊Turing Lab實驗室在國際舞臺全方位展示了騰訊在視訊質量評價、影像質量評價方面的實力。

以下為騰訊Turing Lab實驗室入選論文概述:

01.針對手機遊戲的主觀與客觀視訊質量評價

Subjective and Objective Quality Assessment of Mobile Gaming Video

近年來,手機遊戲在整個遊戲市場中佔據的份額已超50%,手遊相關內容也成為社交媒體平臺上短視訊的重要組成部分。同時,基於視訊流的雲遊戲也逐漸吸引了越來越多的使用者。隨著這些遊戲相關的視訊流媒體技術和服務的蓬勃發展,使用者對遊戲的質量體驗(QoE, Quality of Experience)提出了更高的要求。只有對這個視訊鏈路及內容表現進行更加嚴格的質量把控,才可以為使用者帶來更佳的遊戲體驗。

畫質作為質量體驗QoE的重要維度之一,如何正確地預測人眼感知的畫質在很長一段時間內一直是學術界及工業界研究的重點及熱點。然而,目前大量的已有研究主要聚焦在傳統的視訊內容上,包括PGC內容、UGC內容、以及面向線上會議和共享螢幕等場景的特定內容等。當這些畫質評價方法直接應用在遊戲視訊時,效能表現一般。

因此,在本篇論文中,我們針對手機遊戲在雲遊戲場景下的畫質問題,進行了主觀實驗及客觀演算法模型研發的相關工作。我們先從騰訊先鋒雲遊戲平臺上選擇17款手機遊戲中,並針對不同場景收集了共150段源視訊,之後使用多種編碼器和編碼引數構造出1293段視訊。我們基於ITU相關標準進行嚴格的主觀實驗,從而得到了全新的針對手機遊戲的視訊質量評價資料集TGV dataset(Tencent Gaming Video dataset)。

騰訊Turing Lab論文入選ICASSP,影像AI研究成果獲國際認可

在這篇論文中,我們提出質量評價模型ERAQUE(Efficient hard-RAnk QUality Estimator)。結合新提出的困難樣本排序損失(Hard Pairwise Ranking Loss, Fig1),該模型在訓練過程中可以更加針對相似的樣本對,從而學習到更細粒度的失真資訊,進一步提升模型的效能。在提出的TGV資料集上,我們進行了模型訓練和對比試驗,實驗結果表明ERAQUE模型相比業界其他質量評價模型表現出了更好的效能。

騰訊Turing Lab論文入選ICASSP,影像AI研究成果獲國際認可

最後,為了讓模型以在端側更高效地推理,我們使用知識蒸餾的方案(Fig.2)對ERAQUE模型進行壓縮和加速,最終實現ERAQUE模型的輕量化部署,實驗結果表明ERAQUE模型配合提出的蒸餾策略可以使模型在複雜度和效能之間實現高度權衡。

02. 引入使用者共識學習的美學質量預測

Considering User Agreement in Learning to Predict the Aesthetic Quality

近年來,針對影像的視覺美感評價技術在許多應用場景中發揮著重要作用,包括影像的自動化編輯、影像生成、以及在內容推薦領域等。因此,影像美學評價成為了學術界及工業界熱門的研究課題。

與傳統的影像質量評價問題不同,由於人在進行美學評價時會引入更多high-level的評價維度,如情感、畫面佈局、色彩搭配與協調性等,這也使得美學評價相比針對失真進行的傳統影像質量評價,具有更高的主觀性與不確定性(見Figure 1)。

騰訊Turing Lab論文入選ICASSP,影像AI研究成果獲國際認可
Figure 1:在這兩幅圖中,評測人員對於A圖的美感評分具有更高的不確定性(標準差σ=1.36),而對於B圖,評測人員對於美感的評分則趨於一致(標準差σ=0.59)

在這篇論文中,我們提出了改良了的多工attention網路(見Figure 2及Figure 3),可以對輸入影像的美學MOS分數,以及代表了該分數不一致性的標準差進行端到端的預測。在損失函式方面,我們同時也提出了全新的針對的置信區間排序損失(confidence interval ranking loss),用於促使模型在訓練過程中更多地關注具有更高美學不確定性的影像對,從而學習到更具有區分性地特徵,以及與觀測者不確定性更相關的特徵。

騰訊Turing Lab論文入選ICASSP,影像AI研究成果獲國際認可
Figure 2: 文章所提出模型的總體架構

騰訊Turing Lab論文入選ICASSP,影像AI研究成果獲國際認可
Figure 3: 文章所提出的LMLSP模組

在這個工作中,我們通過大量的實驗證明了我們所提出多工學習美學模型不但在遊戲影像的美學預測中具有巨大優勢,同時對於傳統的自然內容影像美學預測任務,也達到了很好的效果。

產學研結合,落地業務,反哺技術

在業務層面,以上AI技術均已應用到騰訊先鋒雲遊戲平臺,騰訊先鋒雲遊戲通過Turing Lab畫質評價、多媒體視訊質量評價、內容生成及虛實互動等能力,致力於全方位的提升雲遊戲畫質表現,打造雲遊戲極致的使用者體驗。

除了在C端業務的落地之外,在面向產業網際網路層面,Turing Lab的視訊質量評價技術也已經通過“騰訊WeTest質量雲平臺“對外開放,行業使用者可以通過體驗Demo快速體驗瞭解到該技術。

除此之外,在AI應用上的探索,騰訊WeTest官網近期全新上線了AI服務專區,並同步推出視訊畫質評價/遊戲內容安全解決方案等產品能力。未來,騰訊WeTest將持續在科研領域深耕,並致力於將AI技術前沿研究與測試場景進行融合,用技術驅動測試乃至質量保障行業的發展,並以開放態度,對外輸出優秀的技術能力,助力行業的發展。

王君樂博士簡介

騰訊專家研究員,Turning Lab負責人

擁有10餘年計算機視覺、多媒體、機器學習領域研究經驗,在人體姿態估計與重建、影像質量評價、計算攝影學、沉浸式多媒體等領域有較深的瞭解及實戰經驗,並在這些領域帶領團隊進行探索與落地的工作。曾主導騰訊CenseoQoE畫質評價方案的建設與社群開源,主導騰訊先鋒雲遊戲雲端虛實互動技術的研發。此外,在包括CVPR、NeurIPS、TIP、TMM等頂級會議及期刊上發表多篇論文,併為多個會議及期刊擔任審稿人及組織者。

相關文章