編解碼再進化:Ali266 與下一代視訊技術

阿里雲視訊雲發表於2021-11-15

過去的一年見證了人類百年不遇的大事記,也見證了多種視訊應用的厚積薄發。而因此所帶來的視訊資料量的爆發式增長更加加劇了對高效編解碼這樣的底層硬核技術的急迫需求。

新視訊編解碼標準 VVC 定稿不久之後,阿里巴巴的視訊團隊開始全力投入開展 VVC 軟體編解碼的開發工作。

在 LiveVideoStackCon 2021 北京峰會,阿里巴巴研究員,阿里雲智慧雲視訊標準與實現負責人葉琰老師展開分享視訊業界現狀、Ali266 自研 VVC 編解碼器的技術演進史和業務展望、以及視訊業界所面臨的未來機遇和挑戰。

文 | 葉琰
整理 | LiveVideoStack

image.png

大家好,我是葉琰,我是阿里雲智慧視訊標準與實現團隊負責人。本次分享的話題是編解碼再進化:Ali266 與下一代視訊技術。

本次分享分成四個部分:首先是視訊業界現狀、然後 Ali266 自研 VVC 編解碼器的技術演進史和業務展望,最後會從視訊業界角度來看所面臨的未來機遇和挑戰。

1. 視訊業界現狀

image.png

不誇張的說,過去一年和現在所經歷的新冠疫情是人類百年不遇的大事。疫情打斷了正常生活節奏和人與人之間習慣的面對面交流模式,改變了非常多遊戲規則,同時觸發了先進視訊科技產品的厚積薄發。

全世界疫情情況各有不同,中國屬於疫情控制非常好的國家,因此人民日常生活基本照常,但是在疫情較為嚴重的國家和地區,由於受到疫情影響,人們的生活和工作發生了天翻地覆的變化。

image.png

這些變化包括幾個方面。首先無論是工作上的互動從線下轉到線上,大量使用雲會議,拿釘釘的視訊會議來講,到今天累計每天使用者時長超過了一億分鐘。另外,受疫情影響比較嚴重的國家和地區過半員工在家辦公,在家工作中通過遠端協同進行,和之前所習慣的面對面交流有了很大變化。

不光是工作,人們的娛樂也從線下轉到線上,拿美國來講,在過去一年多電影院關門,雖然從今年夏天開始營業,但是看電影的人寥寥無幾。大家的娛樂生活主要依賴於家庭影院,包括明星也從線下轉到線上演出,通過線上互動方式與粉絲進行互動。

image.png

從視訊業界的角度來說,我們在過去的一年見證了非常重要的里程碑,就是 H.266/VVC 新一代國際視訊標準的定稿。VVC 標準是從 2018 年 4 月正式開始標準化,經過兩年多時間,在 2020 年夏天達到 Final Draft International Standard,也就是第一版的定稿。

VVC 在整個兩年多的旅程中,尤其最後半年,受到疫情影響,來自全世界各地近 300 名的視訊專家日夜顛倒的參加通過網會的形式開展技術討論,終於如期完成 H.266/VVC 新一代標準制定。

image.png

與之前每一代國際視訊標準類似,VVC 相對於上一代 HEVC 標準頻寬成本減半。

上圖表示 VVC 主觀效能測試結果,這裡展示的是 VVC 參考平臺相比於 HEVC 參考平臺,在相同主觀質量的前提下,VVC 所能做到的頻寬節省。

這裡面的視訊內容分為 5 類,前兩列為 UHD 和 HD,也就是超高清和高清視訊,我們可以看到 VVC 的 VTM 參考軟體相比於 HEVC 的 HM 參考軟體可以達到 43% 到 49% 的頻寬節省。

對於 HDR 和 360 全景視訊這兩種更加新穎的視訊格式,VVC 可以做到更高的頻寬節省,分別達到 51% 到 53%。

最後一列是針對於低延時應用的測試,也就是使用視訊會議上所用的時域預測結構,由於預測結構收到了更多的限制,VVC 所能達到的頻寬節省稍小,但也達到了 37%,相當可觀。

篇幅有限,這裡面只是展示了高度總結的數字,如果讀者對中間細節感興趣,可以去查一下 JVET 標準委員會 T/V/W2020 三個會議中主觀測試集報告,其中有非常多的細節可供參考。

在視訊爆發和最新標準 VVC 定稿的背景下,阿里巴巴開始了 Ali266 技術開發。首先看一下 Ali266 技術演進史。

2. Ali266 技術演進史

image.png

什麼是 Ali266?我們希望它做到什麼?

Ali266 是我們對最新標準 VVC 進行編解碼實現,第一點希望做到高壓縮效能,拿到 VVC 所帶來的頻寬節省紅利;第二點是高清實時編碼速度,相較於 HEVC,VVC 編碼工具更多,保持實時編碼速度對於真正商用來說具有巨大的意義;第三點是讓 Ali266 具有完整的自成一體的編解碼能力,更好開啟端到端的生態。

做 Ali266 是希望實現上述三個非常有挑戰的技術點,做到技術領先性,轉換成產品競爭力,並幫助我們進行業務擴充。

image.png

上圖展示了眾多的 VVC 編碼工具。我這裡把傳統的視訊編解碼框架中的主要功能模組分成幾類,包括塊劃分、幀內預測、幀間預測、殘差編碼、變化量化、環路濾波、以及其他編碼工具。

上面的藍色圓圈是 HEVC 的編碼工具,下面的紫色圓圈是 VVC 的編碼工具。我們可以看到,在相應的功能模組中,HEVC 只有三四個相應編碼工具,而 VVC 支援更加豐富的編碼工具集,這也是它能夠有強大的壓縮能力並拿到頻寬節省紅利的主要原因。

image.png

編碼工具都具有一定的複雜度,因此每增加一個編碼工具都會相應帶來複雜度和效能的上升。

上圖是 JVET 標準委員會在 VVC 標準開發期間跟蹤的每個編碼工具帶來的複雜度和能提供的編碼效能的全面概覽圖。

這個圖中橫軸是時間,縱軸是編碼效能的上升,不同顏色點對應於不同的 VVC 編碼工具。其中橫軸越往右相當於一個編碼工具的複雜度越低,縱軸越靠上說明編碼工具帶來的效能越高。

因此我們希望編碼工具落在右上角,但其實從圖中可以看到,VVC 編碼工具基本上在右上角一片空白,更多的編碼工具能夠帶來 1%、1.5% 的效能增益,但是也有小幅的複雜度上升。

這對於做編碼器優化提出挑戰,因為並不能只要抓住幾個主要的編碼工具進行優化就可以,而是要在豐富的編碼工具集中,針對當前的輸入視訊能夠快速準確選擇應該使用的編碼工具,這是做 H.266 編碼器的主要優化難點。

上圖右邊的表展示的是在我們軟編系統對不同編碼工具耗時比進行 profile,相應於左邊的圖,再一次驗證 40% 的編碼工具的耗時都不多,只佔了 2% 左右,但都提供效能,所以我們必須決定如何去選擇。另外,92% 的編碼工具的耗時都不到 10%,對整個工程演算法上的優化提出挑戰。

image.png

上圖裡面展示的不光是 H.266 編碼器優化所受到的挑戰,而是任何一個實時編碼器都會受到的挑戰。

因為在視訊編碼過程中,都要經歷壓縮效能上升、編碼速度下降的拉鋸戰,所以我們要做的是克服這個拉鋸戰。

如果我們對比 VVC 參考平臺 VTM 相比於 HEVC 參考平臺 HM,雖然頻寬減半,但是 VTM 的編碼速度只有 HM 編碼速度的八分之一,這是對實時編碼是不能接受的,所以接下來我主要講一下 Ali266 所進行的優化。

我們將從兩個維度對優化工作進行介紹,首先是編碼質量(編碼效能)的優化。

編碼質量(編碼效能)優化

image.png

我們在編碼質量和效能的保持上做了很多工作。由於篇幅有限,我只介紹一個例子,這裡我選的是預分析、前處理、和核心編碼工具的聯合優化例子。

預分析選的是場景切換檢測,做編碼器的同學都知道每個商用編碼器能夠進行精準的場景切換檢測非常有必要;前處理選的是 MCTF 過程,下文會簡單介紹一下 MCTF 是什麼;核心編碼工具選的是 VVC 的新編碼工具 LMCS。

image.png

這個是關於 MCTF 前處理過程的一個簡介。

MCTF 是 motion conmpensated temporal filtering 的意思,它是通過逐層運動搜尋和運動補償對輸入視訊訊號進行時域上濾波,通過雙邊濾波器做時域上的濾波,可以進行有效的進行視訊降噪,並且降噪在時域上發生的同時在空域上也起到降噪的效果。

MCTF 可以有效提升編碼效率,正是因為如此,VTM 和 VVEnc(VVC 的開源編碼器)平臺上都有支援 MCTF 這個前處理過程。

image.png

那麼我們看一下場景切換和 MCTF 如何進行結合。

上圖展示編碼器在淺黃低時域層視訊幀上進行 MCTF,由於 MCTF 要使用時域上的運動補償和搜尋,每個淺黃色的幀都有相應的淺灰的幀作為 MCTF 的參考幀,而淺藍色的幀與 MCTF 沒有關係。由於有時域參考的關係,因此遇到場景切換時需要對 MCTF 進行修改。

我們可以看到,在正常情況下,第八幀是 MCTF 幀,它的前後兩幀共四幀是 MCTF 參考幀。遇到場景切換情況,比如在第十幀遇到場景切換,本來第十幀是 MCTF 參考幀,但是由於場景切換,第十幀會變成新的 I 幀,它的時域層相應下降,原來的 MCTF 濾波幀和 MCTF 參考幀必須進行調整,也就是淺黃色和淺灰色的幀會有調整。上下對比可以看見,因為場景切換,第八幀的 MCTF 參考幀調整為它的前三幀和後一幀,而第十幀變成 MCTF 濾波幀,其使用的 MCTF 參考幀為它的後四幀。

image.png

看一下場景切換和 LMCS 如何進行結合。

LMCS 是 VVC 中的新編碼工具,需要編碼器進行相應的引數計算,通過 APS 進行傳輸,這裡 LM 指的是 luma mapping,調整亮度訊號動態範圍,讓亮度訊號更加充分利用動態範圍,比如說 8bit 是 0-255 動態範圍、10bit 是 0-1023 動態範圍。

由於在 LM 過程中對亮度訊號進行調整,需要進行 CS 過程,也就是 chroma scaling,對同一個塊裡面的色度訊號做相應的調整,來補償亮度訊號調整對色度的影響。

此工具和場景切換如何結合呢?

用剛才那個例子,第十幀發現有場景切換,是新 I 幀,新場景的動態範圍可能完全不一樣了,因此會在新的 I 幀上判斷是否需要進行 LMCS 引數更新,而且在相應的 GOP 預測結構改變後,新的幀會變成新的低時域幀,比如第 26 幀在 GOP16 情況下變成低時域幀,那麼我們會對運動是否比較劇烈進行判斷,如果運動劇烈,在低時域幀上也需要進行 LMCS 引數更新。

image.png

通過這樣的優化,場景切換 + 前處理 MCTF+LMCS 聯合優化能夠拿到什麼樣的效能呢?

如果視訊相當長,包括一次以上場景切換,如果單獨與 LMCS 一起優化,可以達到 2% 的頻寬節省;如果單獨與 MCTF 一起優化,可以達到 2.1% 的頻寬節省;如果三個同時進行優化,可以將效能完美疊加,得到 4.1% 效能增益。

如果一個視訊中場景切換相當頻繁,達到 2 次以上,表中可以看出有進一步效能提升,從單獨優化分別達到 2.1% 和 2.9%,到三者同時優化拿到 5% 效能增益。

如果還有更加頻繁的場景切換,那麼這個聯合優化的紅利會更多,和 LMCS 進行結合,可以達到 3.6%;如果與 MCTF 結合,可以達到 3.2%;如果三者一起聯合優化,可以得到 6.8% 的效能增益。

大家做編碼器的同學都知道,6.8% 的效能相當可觀,而我們可以通過預分析、前處理和核心編碼工具的聯合優化的方法拿到。

剛才主要介紹的是編碼質量效能的優化,接下來會從第二個非常重要的維度去看怎樣進行編碼的速度優化

編碼速度優化

image.png

首先看一個示例:

VVC 非常有代表性的新工具是靈活的塊劃分結構,上圖對比 VVC 和 HEVC 對同一個場景的劃分對比,VVC 是左邊,HEVC 是右邊。在同一場景下,VVC 通過更加靈活的塊劃分可以更加好的對物體輪廓進行描述。

我們看一下放大圖。拿 HEVC 來講,由於只支援四分樹劃分,所以每一塊都是正方形的。

VVC 允許更加靈活的在水平方向、豎直方向進行二分樹(binary tree,BT)或三分樹(ternary tree,TT)的劃分。二分樹和三分樹統稱為 MTT(mutli-type tree)。對比左邊的放大圖和右邊放大圖,通過長方形劃分,VVC 對於手指描述更加精準。

image.png

雖然 VVC 用了更多的塊劃分方法得到更加好的物體輪廓描述,但是給編碼器帶來的困難是編碼器需要嘗試更加多的選擇,因此怎麼樣加速 MTT 劃分的決定對提升編碼速度非常重要。

這裡我們使用了基於梯度的 MTT 加速概念。如果一個塊的紋理變化是在水平方向上比較劇烈,那麼在水平方向進行劃分的可能性就會降低,豎直劃分也是一樣的道理。

如果拿水平做例子,基於這個觀察,對於每個塊進行塊劃分的具體決策之前先會計算四個方向梯度,包括水平方向梯度、豎直方向梯度、和兩個對角線上的梯度。

拿水平方向來講,如果我發現水平方向梯度大於另外三個方向梯度,超過一定閾值,就說明當前塊在水平方向的紋理變化比較激烈,因此編碼器將不再進行水平的 BT 和 TT 的決策,加速編碼時間。

image.png

我們可以看到,這個技術的加速效果從絕對幀率、編碼器速度衡量來看,可以做到 14.8% 的提升,這個提速百分比相當可觀。

當然,因為跳過了一些塊劃分的決策會造成效能下降,但是因為效能損失只有 0.4%,從整體加速與效能價效比來說,這個是非常完美的快速演算法。

image.png

我們有其他非常多的優化工作,由於篇幅關係不一一多述。我來做一個 Ali266 編碼器小結。

現在 Ali266 支援兩大檔次:

Slow 檔次,主要適用於離線應用,對標 x265 veryslow 檔次,Ali266 Slow 檔次的編碼速度和 x265 veryslow 一樣,同時相比起 x265 veryslow 檔次可以達到 50% 的位元速率節省,也就是頻寬減半。

同時 Ali266 還支援對於商業化來說非常重要的 Fast 檔次,對實時編碼速度要求嚴格的商業應用,可以做到 720p30 幀每秒實時編碼,在 VVC 編碼器速度業界領先,對標的實時應用,與 x265 medium 檔次相比,做到 40% 位元速率節省,是非常大的頻寬紅利。

從編碼速度來說,我們並沒有停留在 720p30,還在繼續開發 2k 和 4k、8k 超高清視訊實時編碼能力。

另外,在準備此次的分享過程中,Ali266 已經做到了 2k,也就是 1080p30 幀每秒的實時編碼能力,增加了我們挑戰超高清實時編碼的信心。

我們後續持續推進 Ali266 的主要目標是繼續保持 VVC 的效能優勢,加速 VVC 商業落地

image.png

講完編碼器,我接下來講一下解碼器,因為我們之前講到,開發 Ali266 的主要目標之一是提供完整的 VVC 編解碼能力。

解碼器設計目標從商用角度來說有以下幾個,首先是實時解碼速度,甚至比實時更快;其次是需要解碼器非常穩定魯棒;然後是 thin decoding 的概念,希望解碼器比較輕。

為了實現這些設計目標,我們從 4 個方面進行了優化,其中一個非常重要的維度就是從零開始。

這個是說我們拋棄了之前所有的開源或者參考平臺的架構設計、資料結構設計,從零開始,按照 VVC 標準文件開始進行完全全新的資料結構和框架設計,在設計過程中使用了大家比較熟悉的加速辦法,包括多執行緒加速、彙編優化、記憶體和快取效率優化等。通過這四個維度來提升 Ali266 解碼器的效能。

image.png

上圖羅列了從四個維度上 Ali266 解碼效能。

從速度來說我們比較關注低端機(讓 VVC 有普惠概念),然後在低端機測試上我們發現 Ali266 只需要三個執行緒就可以做到 720p 的實時解碼,由於執行緒佔用率較低,可以有效降低 CPU 佔用率和手機的功耗,對於實際商用是相當有利的指標。

從穩定性的角度來說,我們進行了多款蘋果手機和安卓手機的測試,覆蓋了兩大移動端作業系統,並且全面覆蓋高中低三檔移動端裝置來保證穩定性。

從魯棒性來說,我們使用了上萬條錯誤碼流來衝擊 Ali266 解碼器,保證其在無論是 slice 之上還是 slice 之下的出現錯誤,都能夠有完美的快速錯誤恢復機制。

最後,正是由於我們從零開始,才能在 thin decoder 上給出一個滿意的答案,我們的 Ali266 解碼器包大小不到 1MB,而且在解碼高清 720p 的時候,記憶體使用只需要 33MB。

image.png

我來做了一個 Ali266 解碼器的小結。

從當前效能來說,Ali266 的解碼速度、穩定性、魯棒性、decoder footprint 等指標均達到設計目標和商用要求,下一步我們希望對 VVC 進行 Main Profile 的全方位支援,主要指的是 10-bit 解碼的全面支援。

另外,我們也會全力進行播放器生態的完善化,與 Ali266 編碼器相配合,加速 VVC 商業落地。

既然之前我們多次提到了商業落地,接下來看一下對 Ali266 的業務展望。

3. Ali266 業務展望

image.png

首先來看 VVC 標準層面兩到三年的落地展望。

與 HEVC 和之前的 H264 一樣,VVC 是個通用標準,因此可以全面覆蓋多種視訊應用,包括點播、視訊會議、直播、IoT 視訊監控等已有的視訊應用。

還有很多新興視訊應用在興起中,包括全景視訊、AR、VR、以及最近很火的元宇宙,這些應用也需要視訊編解碼的技術底座,因此對於這類新興應用,VVC 標準也有普適性。

image.png

那麼我們再來看一下 Ali266 的應用展望。

我們從阿里集團內開始,這裡列了四點:優酷、釘釘視訊會議、阿里雲視訊雲、淘寶。

在整個如何推進 Ali266 應用上我個人的見解是會從閉環應用走到開放應用。為什麼是這樣的邏輯?

原因在於閉環業務下端到端可控性更強,在新標準生態還不夠完善的時候可以通過閉環方法打通,這裡面優酷和釘釘視訊會議是比較完美的閉環業務示例。

在閉環打磨了 Ali266,並且走通從內容到播放的整體鏈路後,我們再去應對開放應用會更加 ready,更加成熟。我們開始推進大規模開放應用的時候,VVC 會有比較全面的移動端和端上硬解支援,那也將是真正大規模展示 VVC 標準壓縮力的時候。

image.png

剛才講到優酷,這裡我與大家介紹一下優酷幀享,就是藝術家與科學家聯手打造的超高清視聽體驗。

它依賴了幾大非常重要的超高清技術指標,中間包括高幀率,60 幀到 120 幀每秒的高幀率,從空域解析度角度來說,4K-8K 都在幀享範圍內,動態範圍來說幀享完全支援 HDR 高動態範圍對比度和寬色域。而且,有影必須有音,優酷幀享還包括對 3D 環繞音效的支援。

圖片2.gif

另外一個優酷非常新穎的應用是優酷自由視角,它主要支援 Free ViewPoint Video(FVV),FVV 提供給使用者很好的 Feature,因為它傳遞的視訊格式是全景視訊,使用者可以自己用手在螢幕上進行滑動選擇自己想要觀看視角,從不同角度自由選擇自己想看的內容,優酷的自由視角在 CBA 重大賽事以及《這就是街舞》大型的綜藝節目裡都有支援。

image.png

來看看 Ali266 能夠給優酷帶來什麼樣的價值,如何助力幀享解析度提升、幀率、動態範圍提升。

VVC 標準帶來的頻寬紅利在 HDR 視訊上超過 50%。對於幀享 8k120 幀 HDR 超高清體驗是有非常好技術支撐。

全景視訊自由視角方面,由於 VVC 原生支援 360 全景視訊,能夠更好的提升主觀質量,幫助優酷在這方面孵化新業務。

另外,之前雖然沒有提到,但是 VVC 和 HEVC 一樣,也有 Still picture profile,因此可以幫助靜態圖片節省頻寬和儲存,因此優酷縮圖、封面圖靜態的場景也可以完美用到 Ali266 強大壓縮能力。目前我們團隊已經與優酷在進行深度合作,希望在不久的將來給大家彙報 Ali266 落地優酷的結果。

剛才講了在過去一年中發生的事情,接下來看一下在後 VVC 時代視訊業界看到的機遇和挑戰。

4. 後 VVC 時代的機遇和挑戰

image.png

這裡分為兩部分,技術和應用。從技術角度來說,每一代標準主要都在追求更高的壓縮率,因此 VVC 並不是終點。

在對更高壓縮率的探索上,包括在傳統編解碼框架下進行探索以及在 AI 技術支撐下對視訊編解碼框架和工具集的探索。從應用的角度來說,簡單看一下新興應用 AR、VR、MR、雲遊戲、元宇宙這幾個新興應用在後 VVC 時代提出的機遇和挑戰。

更高的壓縮力:框架之爭

image.png

技術層面為了追求更高的壓縮力,現在到了時間去看一直以來視訊編解碼標準所使用的框架在下一代是否會繼續使用。

左邊是一直以來幾代視訊標準以來的手工打造的視訊編解碼框架,包括不同的功能模組,塊分割、幀內幀間編碼、環路濾波等。

右邊是全新 Learning based 的框架,完全通過 AI 方法學習,對於 encoder、decoder 通過全神經網路進行實現。

image.png

在傳統框架下,JVET 標準委員會最近設立了 ECM(enhanced compression model)的參考平臺,用於探索下一代編碼技術。

當前 ECM 版本是 2.0,這個表中對比了 ECM2.0 與 VTM-11.0 的壓縮效能,可以看出在亮度訊號上 ECM2.0 已經可以做到 14.8% 的效能增益,色度訊號上有更高的效能,encoder 和 decoder 複雜度也有一定上升,不過現在主要是推進壓縮力,複雜度不是現階段最關心的維度。

ECM 基於傳統框架,大部分工具是之前開發 VVC 的時候已經看到過的,經過進一步的演算法迭代和打磨,得到 14.8% 的效能增益。

image.png

AI 編碼的狀況分成兩部分:端到端的 AI、以及工具集的 AI。

剛才的示例圖顯示,端到端的 AI 與傳統框架完全不一樣,採用全新框架。

以今天端到端 AI 能力來說,在單張圖片的編碼效能可以小幅超過 VVC,但如果考慮真正視訊編碼,也就是把時域維度也考慮進來,端到端 AI 的效能還是比較接近 HEVC,還有一定進步的空間。

另外 AI 技術還可以用來做工具集 AI,在不改變傳統框架的前提下,在某些功能模組上開發 AI 編碼工具,用以替換或疊加在已有傳統編碼工具之上,提升效能。

這部分比較多的例子是幀內編碼和環內濾波工具。拿今天來說以我們所知,基於多神經網路模型的 NNLF 環路濾波技術相比 VVC,效能增益可以達到 10%。

image.png

AI 視訊編碼有其自己挑戰,分為三個維度。

第一個挑戰是計算複雜度,因為現在我們主要還是引數量換效能增益的概念,最近看到 Google 的 paper 給出量化的指導,如果一個 AI 工具可以提供個位數的效能增益,那麼希望這個工具的引數量控制在 50K 的數量級上。今天很多 AI 工具的引數量在 500k 到 1 兆左右,還是與目標引數量還有數量級的差異,需要簡化。另外,計算複雜度同時也包括需要考慮引數定點化,運算量尤其是乘法運算量這些維度。

第二個挑戰是資料互動量,尤其是工具級 AI 與傳統編碼器的其它功能模組可能有很多畫素級的互動,無論是幀級還是塊級發生,對於編解碼吞吐率都是很大的挑戰。現如今所看到的效能較好的工具都依賴多神經網路模型,多 NN 模型需要模型調換,在模型引數量比較大的時候,調換模型所產生的資料互動量也對吞吐率提出挑戰。

第三個挑戰是移動端解碼,大家手機看視訊是很普遍的行為,如何在移動端做好解碼,個人認為由於上面說到的資料互動量的原因,通過做解碼器 + 外接 NPU 的方法不太可行,如果要做合一的解碼器就要考慮硬體成本。

同一篇 Google 的 Paper 說一個傳統解碼器的成本相當於實現一個 2M 引數 MobileNet 模型的成本。我們知道 MobileNet 是比較輕量級的神經網路,如果一個 NNLF 濾波器需要 1M 引數的話,就是一半的解碼器成本。所以成本上的下降需要更加努力去做到。所以說 AI 編碼主要挑戰總結下來就是需要做到更合理的價效比,這方面需要各個公司進行大量研發投入才有可能拿到合理價效比。什麼時候能拿到合理的價效比,發揮 AI 視訊編碼的潛力,我們還是拭目以待。

最後我想說一個個人見解。

AI 編碼有這樣價效比挑戰的一個原因是因為 AI 技術本來就是 Data Driven 的,在一個特定場景下的 Data Driven 更加容易設計,而主要的技術對於通用場景上的挑戰一定更大。

因此我認為可以去看一下特定場景下的 AI 編碼,可能會更快的提供技術和業務的突破機會。大家最近可能注意到 Facebook 和英偉達對人臉視訊進行端到端 AI 編碼,在這種特定場景下,在超低位元速率下,AI 編碼對人臉清晰度恢復相比於傳統方法來說可以有比較大的突破,顯示了 AI 編碼的潛力。

新興應用

image.png

最後講三個新興應用的例子,AR/VR/MR、雲遊戲、元宇宙。前兩者是元宇宙的一部分,所以我們看一下元宇宙。

image.png

首先來看一下什麼是元宇宙。

最近 “元宇宙” 這個詞興起的時候,我自己不是很清楚到底是什麼意思,所以我去查了一下。這是從紐約時報文章中摘出來的,什麼叫 Metaverse 也就是元宇宙,紐約時報定義為虛擬的體驗、環境、財產的混合模態。

這裡給了五個元宇宙體現的例子,我們從最上面沿著逆時針方向看一下:如果你喜歡的遊戲可以在其中去建立自己的世界,與他人互動,這是元宇宙的體現;如果最近參加過無論是因公(meeting)或因私(party),沒有真人出現而是用數字的 avatar 出現,這也是元宇宙的體現;如果帶了頭盔或者眼鏡去體驗 AR、VR 所賦予的虛擬環境,也是元宇宙的體現;如果你擁有 NFT 或 crypto currency 這些虛擬財產,也是元宇宙的體現;最後我覺得比較有意思的一點是紐約時報認為絕大多數的社交網路也是元宇宙的體現,因為線上和線下的你不是完全一致,線上的你可能有一定虛擬的成分在,所以也是元宇宙的體現。

image.png

支援元宇宙和各種 AR/VR 體驗從視訊技術的角度來看有幾大共同點:低延時高併發、以及個性化

前面這兩點與現有應用的要求相類似,比如拿直播來說,也有低延時高併發的要求;但是第三點要求,就是個性化的要求,是一個完全不一樣的全新技術支撐。

因為在這些虛擬場景下,每一個使用者都在追求自己的體驗和個性化的選擇。從阿里雲智慧的角度來看,個性化對於雲端計算提出進一步挑戰,更高的要求。我們今天支援一次直播有成千上萬甚至上百萬的併發量,一次下發服務很多客戶。

但是,如果每個客戶都有自己的個性化要求,每次下發只能支援十幾或幾十有類似要求的客戶,那麼對雲上視訊處理能力的質量和吞吐率都提出了更高的要求,要求處理能力有數量級上的提升。

所以我認為將來要對於視訊處理和 deliver 做好技術支撐,雲上定製化硬體是必然的技術趨勢。

5. 總結

image.png

最後我們對今天的分享做一個總結。

首先我們介紹了 Ali266,阿里雲自研的 VVC 編解碼器,首先 Ali266 對 VVC 這個最新視訊標準提供完整的編解碼能力,速度可以達到實時高清,目前我們最快的速度是可以達到 1080p30 幀編碼速度。

Ali266 壓縮效能卓越,在 Slow 檔次上達到 50% 的頻寬節省,在實時 Fast 檔次上達到 40% 的頻寬節省,因此 Ali266 從質量優先到速度優先可以覆蓋不同業務的需求。同時我們非常高興的彙報我們正在與優酷進行深度合作,希望通過 Ali266 技術落地優酷,助力優酷降本增質、賦能新業務技術支撐。

展望未來的話,從技術上來說,下一代編解碼標準還是需要拿到更好的壓縮率,但是如何進行框架的選擇我們還在探索,今天還沒有定論。傳統框架下的 ECM 相比 VVC 能拿到 15% 的效能增益,但與 40%、50% 的要求還有距離。AI 編碼可以給出很好效能潛力,但是從價效比來說還沒有達到要求,需要長足進步。

從應用角度來說,元宇宙會帶給大家更加豐富的虛擬體驗,也可以支撐很多新的應用的成長。要讓元宇宙成為現實的話,在雲端計算的方面需要儘快實現高質量高吞吐的個性化雲端計算能力,應對新興應用所提出的挑戰。

最後,雖然之前沒有提到,但是虛擬世界的體驗也需要更加友好、也就是更輕更普惠的 AR/VR 終端裝置早日登場。

本次分享到此結束,非常感謝大家,也特別要感謝主辦方 LVS 給我這個機會做分享,由於疫情的影響,非常遺憾與大家不能進行面對面交流,如果對我此次分享的內容有任何問題或希望進一步探討,歡迎大家在公眾號後臺留言。

「視訊雲技術」你最值得關注的音視訊技術公眾號,每週推送來自阿里雲一線的實踐技術文章,在這裡與音視訊領域一流工程師交流切磋。公眾號後臺回覆【技術】可加入阿里雲視訊雲產品技術交流群,和業內大咖一起探討音視訊技術,獲取更多行業最新資訊。

相關文章