抖音世界盃的畫質最佳化實踐

陶然陶然發表於2023-02-23

  背景介紹

  卡達世界盃已經結束,29 天賽程,64 場比賽,最終梅西帶領阿根廷時隔三十六年再次捧杯。世界盃期間,抖音提供的穩定高質直播畫面為觀眾帶來了完美的觀賽體驗,決賽的 PCU 高達 3700W+。

  世界盃賽事涉及鏈路眾多,如何保障各鏈路的畫質穩定並進一步提升畫質,是一個巨大的挑戰。本文主要介紹火山引擎多媒體實驗室在世界盃期間畫質的相關工作。

  畫質最佳化鏈路

  世界盃涉及鏈路較長,可簡化為下圖流程,FIFA 現場訊號首先傳到央視端進行合規安全處理,然後經過演播室的製作傳輸給 CDN 再進一步分發到使用者側。從畫質角度來看整個鏈路可分為畫質檢測與畫質最佳化兩個部分,對於 CDN 之前的鏈路以畫質監測為主,以發現問題/定位問題/推動對應鏈路人員解決問題為目的。畫質最佳化在 CDN 和客戶端兩側進行,下面的內容主要介紹畫質最佳化部分。  

  本次世界盃直播使用支援 HDR(高動態範圍)裝置錄製,團隊對支援 HDR 的裝置增加了 HDR 檔位,同時提供了多種不同解析度/幀率的檔位。為了使得觀眾獲得更好的畫質體驗,團隊透過自研的自適應 ToneMapping,影片降噪,ROI,端上超分等演算法有效地提升了賽事畫質。

  卡達世界盃採用 HDR 拍攝方式,HDR 拍攝的片源擁有更廣的色域,更大的動態範圍。但對很多終端顯示裝置而言,並不支援 HDR 訊號播放,所以透過 ToneMapping 演算法將 HDR 訊號轉換為 SDR(標準動態範圍)訊號是十分必要的。  

  相比 SDR 訊號,HDR 訊號擁有更廣的色域和更大的動態範圍,在轉換到 SDR 訊號的過程中不可避免會產生一些資訊損失。常用的一些 ToneMapping 方法,不論是 Reinhard,Filmic 或者 Hable,其本質都是設計固定的對映曲線實現從 HDR 到 SDR 的轉換,同時儘量保持對 HDR 效果的還原。但對於世界盃等大型賽事,現場動態範圍跨度極大,場館的燈光/草地/球員亮度差異明顯,觀眾感興趣的球員資訊實際集中在暗部區域,這就導致 ToneMapping 之後的 SDR 訊號過暗的問題,為了解決這一問題,團隊提出了內容自適應 ToneMapping 演算法,透過統計影片內容的實際光照情況動態地進行 ToneMapping,從而得到更優效果。

  左: Hable 演算法,右: 內容自適應 ToneMapping  

  為了兼顧影片位元速率和主觀畫質,團隊使用了基於 LSTM(長短期記憶網路)的時域 ROI 技術,透過人眼顯著性區域檢測和編碼相結合的方式,讓位元速率在畫面上的分配更加合理。目前市面上沒有專門針對足球場景的 saliency(顯著性物體檢測)資料集,通用的 saliency 資料集在世界盃這類特定場景中表現並不理想。針對這一問題,團隊專門製作了足球場景的 saliency 資料集,透過眼動儀追蹤球迷觀看球賽時的關注區域得到足球比賽的專用 saliency 資料集,從而極大增加了模型的準確性。針對足球場景中顯著性物體較多,顯著性區域分散的特點,團隊對檢測模型進行了專門的最佳化,在保證檢測速度的前提下,提高了模型的召回率和不同場景的魯棒性,從而實現更優的主觀質量。

  注:紅色框內表示 ROI 區域,左邊為通用方案結果,右邊為最佳化結果  

  

  同時團隊使用了影片降噪演算法,根據影片資訊對其進行空域、時域噪聲的去除,將帶有噪聲的影片處理成乾淨、沒有噪聲的影片。由於去除了影片的噪聲,在提升影片質量的基礎上同時降低了傳輸的位元速率。由於使用者側網速的限制,端上存在多個檔位,當看播端網速較慢時,可能會切換到 480P/720P 等低分辨檔位,此時會觸發端上超分演算法提升畫面清晰度。超解析度技術指的是,基於機器學習/深度學習方法,根據影片資訊對其進行空域、時域建模重構出缺失的細節,將低解析度的影片重建出高解析度影片的技術。這樣即使是在低分辨檔位也能體驗到更清晰的畫質。

  左:影片降噪前,右:影片降噪後  

  左:影片超分前,右:影片超分後  

  除此之外團隊還提供大解析度、高幀率、廣色域,並使用色彩增強、自適應銳化等多種畫質增強技術,呈現更加沉浸感的超高畫質畫面。

來自 “ 位元組跳動技術團隊 ”, 原文作者:多媒體實驗室;原文連結:http://server.it168.com/a2023/0223/6790/000006790841.shtml,如有侵權,請聯絡管理員刪除。

相關文章