騰訊Turing Lab論文入選ICASSP,影像AI研究成果獲國際認可
近日,全球頂級訊號處理技術會議 ICASSP 2022 公佈了論文入選名單。由王君樂博士帶領的騰訊Turing Lab實驗室論文——《針對手機遊戲的主觀與客觀視訊質量評價》(Subjective and Objective Quality Assessment of Mobile Gaming Video)、《引入使用者共識學習的美學質量預測》(Considering User Agreement in Learning to Predict the Aesthetic Quality)被大會接收。
ICASSP?(International Conference on Acoustics, Speech, and Signal Processing)是國際聲學、語音和訊號處理會議。是由IEEE主辦的全世界最大的、也是最全面的訊號處理及其應用方面的頂級學術會議,具有權威、廣泛的學界及工業界影響力。歷屆ICASSP會議都備受AI領域研究學者的熱議和關注。
此次,騰訊Turing Lab實驗室在國際舞臺全方位展示了騰訊在視訊質量評價、影像質量評價方面的實力。
以下為騰訊Turing Lab實驗室入選論文概述:
01.針對手機遊戲的主觀與客觀視訊質量評價
Subjective and Objective Quality Assessment of Mobile Gaming Video
近年來,手機遊戲在整個遊戲市場中佔據的份額已超50%,手遊相關內容也成為社交媒體平臺上短視訊的重要組成部分。同時,基於視訊流的雲遊戲也逐漸吸引了越來越多的使用者。隨著這些遊戲相關的視訊流媒體技術和服務的蓬勃發展,使用者對遊戲的質量體驗(QoE, Quality of Experience)提出了更高的要求。只有對這個視訊鏈路及內容表現進行更加嚴格的質量把控,才可以為使用者帶來更佳的遊戲體驗。
畫質作為質量體驗QoE的重要維度之一,如何正確地預測人眼感知的畫質在很長一段時間內一直是學術界及工業界研究的重點及熱點。然而,目前大量的已有研究主要聚焦在傳統的視訊內容上,包括PGC內容、UGC內容、以及面向線上會議和共享螢幕等場景的特定內容等。當這些畫質評價方法直接應用在遊戲視訊時,效能表現一般。
因此,在本篇論文中,我們針對手機遊戲在雲遊戲場景下的畫質問題,進行了主觀實驗及客觀演算法模型研發的相關工作。我們先從騰訊先鋒雲遊戲平臺上選擇17款手機遊戲中,並針對不同場景收集了共150段源視訊,之後使用多種編碼器和編碼引數構造出1293段視訊。我們基於ITU相關標準進行嚴格的主觀實驗,從而得到了全新的針對手機遊戲的視訊質量評價資料集TGV dataset(Tencent Gaming Video dataset)。
在這篇論文中,我們提出質量評價模型ERAQUE(Efficient hard-RAnk QUality Estimator)。結合新提出的困難樣本排序損失(Hard Pairwise Ranking Loss, Fig1),該模型在訓練過程中可以更加針對相似的樣本對,從而學習到更細粒度的失真資訊,進一步提升模型的效能。在提出的TGV資料集上,我們進行了模型訓練和對比試驗,實驗結果表明ERAQUE模型相比業界其他質量評價模型表現出了更好的效能。
最後,為了讓模型以在端側更高效地推理,我們使用知識蒸餾的方案(Fig.2)對ERAQUE模型進行壓縮和加速,最終實現ERAQUE模型的輕量化部署,實驗結果表明ERAQUE模型配合提出的蒸餾策略可以使模型在複雜度和效能之間實現高度權衡。
02. 引入使用者共識學習的美學質量預測
Considering User Agreement in Learning to Predict the Aesthetic Quality
近年來,針對影像的視覺美感評價技術在許多應用場景中發揮著重要作用,包括影像的自動化編輯、影像生成、以及在內容推薦領域等。因此,影像美學評價成為了學術界及工業界熱門的研究課題。
與傳統的影像質量評價問題不同,由於人在進行美學評價時會引入更多high-level的評價維度,如情感、畫面佈局、色彩搭配與協調性等,這也使得美學評價相比針對失真進行的傳統影像質量評價,具有更高的主觀性與不確定性(見Figure 1)。
在這篇論文中,我們提出了改良了的多工attention網路(見Figure 2及Figure 3),可以對輸入影像的美學MOS分數,以及代表了該分數不一致性的標準差進行端到端的預測。在損失函式方面,我們同時也提出了全新的針對的置信區間排序損失(confidence interval ranking loss),用於促使模型在訓練過程中更多地關注具有更高美學不確定性的影像對,從而學習到更具有區分性地特徵,以及與觀測者不確定性更相關的特徵。
在這個工作中,我們通過大量的實驗證明了我們所提出多工學習美學模型不但在遊戲影像的美學預測中具有巨大優勢,同時對於傳統的自然內容影像美學預測任務,也達到了很好的效果。
產學研結合,落地業務,反哺技術
在業務層面,以上AI技術均已應用到騰訊先鋒雲遊戲平臺,騰訊先鋒雲遊戲通過Turing Lab畫質評價、多媒體視訊質量評價、內容生成及虛實互動等能力,致力於全方位的提升雲遊戲畫質表現,打造雲遊戲極致的使用者體驗。
除了在C端業務的落地之外,在面向產業網際網路層面,Turing Lab的視訊質量評價技術也已經通過“騰訊WeTest質量雲平臺“對外開放,行業使用者可以通過體驗Demo快速體驗瞭解到該技術。
除此之外,在AI應用上的探索,騰訊WeTest官網近期全新上線了AI服務專區,並同步推出視訊畫質評價/遊戲內容安全解決方案等產品能力。未來,騰訊WeTest將持續在科研領域深耕,並致力於將AI技術前沿研究與測試場景進行融合,用技術驅動測試乃至質量保障行業的發展,並以開放態度,對外輸出優秀的技術能力,助力行業的發展。
王君樂博士簡介
騰訊專家研究員,Turning Lab負責人
擁有10餘年計算機視覺、多媒體、機器學習領域研究經驗,在人體姿態估計與重建、影像質量評價、計算攝影學、沉浸式多媒體等領域有較深的瞭解及實戰經驗,並在這些領域帶領團隊進行探索與落地的工作。曾主導騰訊CenseoQoE畫質評價方案的建設與社群開源,主導騰訊先鋒雲遊戲雲端虛實互動技術的研發。此外,在包括CVPR、NeurIPS、TIP、TMM等頂級會議及期刊上發表多篇論文,併為多個會議及期刊擔任審稿人及組織者。
ICASSP?(International Conference on Acoustics, Speech, and Signal Processing)是國際聲學、語音和訊號處理會議。是由IEEE主辦的全世界最大的、也是最全面的訊號處理及其應用方面的頂級學術會議,具有權威、廣泛的學界及工業界影響力。歷屆ICASSP會議都備受AI領域研究學者的熱議和關注。
此次,騰訊Turing Lab實驗室在國際舞臺全方位展示了騰訊在視訊質量評價、影像質量評價方面的實力。
以下為騰訊Turing Lab實驗室入選論文概述:
01.針對手機遊戲的主觀與客觀視訊質量評價
Subjective and Objective Quality Assessment of Mobile Gaming Video
近年來,手機遊戲在整個遊戲市場中佔據的份額已超50%,手遊相關內容也成為社交媒體平臺上短視訊的重要組成部分。同時,基於視訊流的雲遊戲也逐漸吸引了越來越多的使用者。隨著這些遊戲相關的視訊流媒體技術和服務的蓬勃發展,使用者對遊戲的質量體驗(QoE, Quality of Experience)提出了更高的要求。只有對這個視訊鏈路及內容表現進行更加嚴格的質量把控,才可以為使用者帶來更佳的遊戲體驗。
畫質作為質量體驗QoE的重要維度之一,如何正確地預測人眼感知的畫質在很長一段時間內一直是學術界及工業界研究的重點及熱點。然而,目前大量的已有研究主要聚焦在傳統的視訊內容上,包括PGC內容、UGC內容、以及面向線上會議和共享螢幕等場景的特定內容等。當這些畫質評價方法直接應用在遊戲視訊時,效能表現一般。
因此,在本篇論文中,我們針對手機遊戲在雲遊戲場景下的畫質問題,進行了主觀實驗及客觀演算法模型研發的相關工作。我們先從騰訊先鋒雲遊戲平臺上選擇17款手機遊戲中,並針對不同場景收集了共150段源視訊,之後使用多種編碼器和編碼引數構造出1293段視訊。我們基於ITU相關標準進行嚴格的主觀實驗,從而得到了全新的針對手機遊戲的視訊質量評價資料集TGV dataset(Tencent Gaming Video dataset)。
在這篇論文中,我們提出質量評價模型ERAQUE(Efficient hard-RAnk QUality Estimator)。結合新提出的困難樣本排序損失(Hard Pairwise Ranking Loss, Fig1),該模型在訓練過程中可以更加針對相似的樣本對,從而學習到更細粒度的失真資訊,進一步提升模型的效能。在提出的TGV資料集上,我們進行了模型訓練和對比試驗,實驗結果表明ERAQUE模型相比業界其他質量評價模型表現出了更好的效能。
最後,為了讓模型以在端側更高效地推理,我們使用知識蒸餾的方案(Fig.2)對ERAQUE模型進行壓縮和加速,最終實現ERAQUE模型的輕量化部署,實驗結果表明ERAQUE模型配合提出的蒸餾策略可以使模型在複雜度和效能之間實現高度權衡。
02. 引入使用者共識學習的美學質量預測
Considering User Agreement in Learning to Predict the Aesthetic Quality
近年來,針對影像的視覺美感評價技術在許多應用場景中發揮著重要作用,包括影像的自動化編輯、影像生成、以及在內容推薦領域等。因此,影像美學評價成為了學術界及工業界熱門的研究課題。
與傳統的影像質量評價問題不同,由於人在進行美學評價時會引入更多high-level的評價維度,如情感、畫面佈局、色彩搭配與協調性等,這也使得美學評價相比針對失真進行的傳統影像質量評價,具有更高的主觀性與不確定性(見Figure 1)。
Figure 1:在這兩幅圖中,評測人員對於A圖的美感評分具有更高的不確定性(標準差σ=1.36),而對於B圖,評測人員對於美感的評分則趨於一致(標準差σ=0.59)
在這篇論文中,我們提出了改良了的多工attention網路(見Figure 2及Figure 3),可以對輸入影像的美學MOS分數,以及代表了該分數不一致性的標準差進行端到端的預測。在損失函式方面,我們同時也提出了全新的針對的置信區間排序損失(confidence interval ranking loss),用於促使模型在訓練過程中更多地關注具有更高美學不確定性的影像對,從而學習到更具有區分性地特徵,以及與觀測者不確定性更相關的特徵。
Figure 2: 文章所提出模型的總體架構
Figure 3: 文章所提出的LMLSP模組
在這個工作中,我們通過大量的實驗證明了我們所提出多工學習美學模型不但在遊戲影像的美學預測中具有巨大優勢,同時對於傳統的自然內容影像美學預測任務,也達到了很好的效果。
產學研結合,落地業務,反哺技術
在業務層面,以上AI技術均已應用到騰訊先鋒雲遊戲平臺,騰訊先鋒雲遊戲通過Turing Lab畫質評價、多媒體視訊質量評價、內容生成及虛實互動等能力,致力於全方位的提升雲遊戲畫質表現,打造雲遊戲極致的使用者體驗。
除了在C端業務的落地之外,在面向產業網際網路層面,Turing Lab的視訊質量評價技術也已經通過“騰訊WeTest質量雲平臺“對外開放,行業使用者可以通過體驗Demo快速體驗瞭解到該技術。
除此之外,在AI應用上的探索,騰訊WeTest官網近期全新上線了AI服務專區,並同步推出視訊畫質評價/遊戲內容安全解決方案等產品能力。未來,騰訊WeTest將持續在科研領域深耕,並致力於將AI技術前沿研究與測試場景進行融合,用技術驅動測試乃至質量保障行業的發展,並以開放態度,對外輸出優秀的技術能力,助力行業的發展。
王君樂博士簡介
騰訊專家研究員,Turning Lab負責人
擁有10餘年計算機視覺、多媒體、機器學習領域研究經驗,在人體姿態估計與重建、影像質量評價、計算攝影學、沉浸式多媒體等領域有較深的瞭解及實戰經驗,並在這些領域帶領團隊進行探索與落地的工作。曾主導騰訊CenseoQoE畫質評價方案的建設與社群開源,主導騰訊先鋒雲遊戲雲端虛實互動技術的研發。此外,在包括CVPR、NeurIPS、TIP、TMM等頂級會議及期刊上發表多篇論文,併為多個會議及期刊擔任審稿人及組織者。
相關文章
- EMNLP 2018:騰訊AI Lab解讀16篇入選論文AI
- 騰訊AI Lab入選20篇論文,含2篇SpotlightAI
- ECCV 2018 | 騰訊AI Lab解讀19篇入選論文AI
- ACL 2018 | 騰訊AI Lab解讀多篇入選長文AI
- 騰訊AI Lab 3篇蛋白質組論文入選國際頂級期刊,為闡釋生命提供重要技術參考AI
- 騰訊AI Lab 8篇論文入選,從0到1解讀語音互動能力AI
- 騰訊AI八篇論文入選頂級醫學影像會議MICCAI ,涉及病理癌症影像分類等AI
- 騰訊AI Lab深度解讀文字生成技術相關論文AI
- 三篇論文入選國際頂會SIGMOD,厲害了騰訊雲資料庫資料庫
- AAAI2019 | 騰訊AI Lab詳解自然語言處理領域三大研究方向及入選論文AI自然語言處理
- 入選國際資料庫頂級會議ICDE,騰訊雲資料庫技術創新獲權威認可資料庫
- 金融級安全“零失分”,騰訊雲IT管理水平再獲國際認可
- MNLP2018:騰訊AI Lab深度解讀互動文字理解相關論文AI
- 論文翻譯:2022_騰訊DNS 1th TEA-PSE: Tencent-ethereal-audio-lab personalized speech enhancement system for ICASSP 2022 DNS CHALLENGEDNSZed
- CVPR 2018 | 騰訊AI Lab關注的三大方向與55篇論文AI
- 騰訊雲WAF服務再獲國內權威研究機構認可,入選中國雲WAF實踐代表
- 騰訊雲DDoS防護服務獲Forrester認可,入選全球推薦服務商!REST
- 權威推薦!騰訊安全DDoS邊緣安全產品獲國際研究機構Omdia認可
- 一文看盡2020上半年阿里、騰訊、百度入選AI頂會論文(附地址)阿里AI
- 連續41次透過VB100認證,騰訊安全技術實力再獲國際權威認可
- 首提跨模態程式碼匹配演算法,騰訊安全科恩實驗室論文入選國際AI頂會NeurIPS-2020演算法AI
- NeurIPS 2019|騰訊AI Lab詳解入選論文,含模仿學習、強化學習、自動機器學習等主題AI強化學習機器學習
- 騰訊58篇論文入選CVPR 2019,兩年增長超200%
- 騰訊又添 AI 開源專案!騰訊 AI Lab 開源業內最大規模多標籤影像資料集AI
- 騰訊初探AI+農業,獲國際AI溫室種植大賽亞軍AI
- 騰訊 AI Lab 2018年度回顧AI
- 國際權威認可!OceanBase入選Forrester Translytical資料平臺報告REST
- 全球計算機視覺頂會CVPR 2019論文出爐:騰訊優圖25篇論文入選計算機視覺
- Kyligence 再獲 CRN, insideBIGDATA 兩大國際獎項認可IDE
- 網易AI Lab斬獲自然語言處理國際頂會冠軍AI自然語言處理
- 京東科技集團21篇論文高票入選國際頂會AAAI 2021AI
- 權威認可!騰訊雲資料安全中臺入選2021先鋒實踐案例
- 國慶獻禮 綠盟科技天樞實驗室研究成果再獲學術界認可
- 再獲認可 | 江民科技入選《CCSIP 2022中國網路安全產業全景圖》!產業
- 再獲權威認可! FISCO BCOS入選“科創中國”開源創新榜
- 國際研報:騰訊安全IAM產品入圍身份認證領導者象限
- 「Adobe國際認證」Adobe Photoshop,選擇影像中的顏色範圍
- 美圖影像研究院(MT Lab)斬獲3項國際人工智慧頂會大獎人工智慧