新媒體編碼時代的技術:編碼與傳輸

聲網Agora發表於2018-10-23

本文整理了北京大學教授馬思偉在 RTC 2018 實時網際網路大會上的分享,從技術、編碼與傳輸角度,分享了媒體編碼的現狀與未來,以及 AVS 編碼標準的技術現狀。以下為速記整理。

新媒體編碼時代的技術:編碼與傳輸

我的演講主題是《新媒體編碼時代》。這裡的“新”有兩個含義,第一是指新時代,技術與應用場景出現創新;第二是指媒體“新”,需要編碼的材料資料改變了。

新媒體編碼時代的技術:編碼與傳輸

我在 RTC 2017 曾講過《視訊編碼未來簡史》。當時叫視訊編碼新時代(如上圖圖解),革命之一是採集革命,採集的資料發生了變化,視訊從標清向高清、超高清方向發展。還有其它的一些資料,包括光場、點雲、神經脈衝。理論也有很多,包括傳統的奈奎斯特取樣、壓縮感知。

革命之二是計算革命,編碼計算提升了很多,有 CPU、GPU、NPU,計算能力的提升使得原先因太過複雜而無法使用的演算法變得可用了,提高了編碼效率。

第三個是認知革命,資料處理有了新的方法,處理能力更強了,業界談的比較多的方法就是深度學習。

基於這三個革命,編碼在朝智慧編碼的方向發展。其實,智慧編碼並不是新概念,80年代後期到90年代中期,業界一直在講智慧編碼。不過,到現在為止智慧編碼還始終處於第二代。

新媒體編碼時代的技術:編碼與傳輸

今天,我從三方面講:新媒體,我們看到新的資料型別要編碼;新技術,技術從編碼、傳輸、跨媒體智慧講,我們朝智慧方向發展了;新應用,一般是大家說的 4K、8K、VR 這些應用。

1

新媒體編碼時代:新媒體

新媒體編碼時代的技術:編碼與傳輸

首先講新媒體。很多人介紹自己專業的時候通常說我是做數字媒體技術的,或多媒體技術的。我們要把媒體和技術分開來看,所謂的技術是計算機對媒體的處理技術。在以前“通訊基本靠吼,交通基本靠走”的年代,沒有媒體,後來出現了文字,再後來,聲音、視訊、影象可以儲存,隨後催生了新的產業。接著出現了 3D、AR、VR,最後到智慧媒體。總的來說,技術催生新媒體的誕生,這是關於媒體的介紹。現在提的比較多的凡是包含三維資訊比如光場、點雲的媒體都統稱為新媒體、三維媒體,這些不是新名詞,只是現在我們強調的越來越多。

新媒體編碼時代的技術:編碼與傳輸

關於沉浸媒體,在今年的 ACM Multimedia Systems 大會上,Philip Chou 提出,“Holograms are the Next Video”。在他看來,全息是下一代視訊。上面有兩個圖,1977年的星球大戰電影裡,出現了光場投影,是那時候我們最初對三維沉浸媒體的想象。右圖則是2018年的想象。我們已經想象了40多年。Philip Chou 在會上有兩句話我印象很深刻,一句話是“Hologram compression today is like video compression in 1988”。王田博士也講到,今天的點雲編碼水平,相當於 30 年前視訊編碼的水平。1988 年時 MPEG 剛剛成立,當時只有 JPEG。MPEG1-VCD 是在 1992 年才出現的。另一句話是關於流媒體的,“Hologram streaming today is like video treaming in 1997”。1997 年,國際會議在討論流媒體技術。我想,當初討論流媒體技術的人看到今天網際網路流媒體的發展,應該是感到很震驚的。還有一句話,“如果你看到了視訊的發展趨勢,那麼你一定會同樣看到全息的趨勢。” 所以,沉浸媒體是未來的趨勢。

新媒體編碼時代的技術:編碼與傳輸

關於沉浸媒體提供的感覺,主要有三類:視覺、聽覺、互動。視覺要提供更高解析度,解析度上去之後才更清楚、更清晰。聽覺方面,要高質量、三維全景聲,感覺好比演唱會、演奏會。互動方面,講求低延時、互動自然。

新媒體編碼時代的技術:編碼與傳輸

沉浸式媒體的系統是比較複雜的,從前端採集到中間編碼傳輸到後端顯示時間,每個模組都是相互關係很強的,每個模組都得做好才能呈現好的效果。

新媒體編碼時代的技術:編碼與傳輸

相關的組織都在做很多的研究,大概可以分成上圖這樣幾個層次,第一個層次是關於最基本的資料的表示,看到的 JEPG 影象、MPEG 視訊、IEEE、AVS;中間層是關於應用,比如 VR-IF,3GPP 等國際組織都在演講。上層是體驗,使用者端體驗做不好使用者肯定不接受,包括 ITU-T、VQEG、QUALINET 等組織。

新媒體編碼時代的技術:編碼與傳輸

我們今天關心的主要是最底層的編碼技術表示。今天另一場演講中,王田老師提到了沉浸式媒體,這是 MPEG 目前做的工作標準。這些技術的應用從早先 MPEG1、2,後來到了 MPEG4,H.265 等等。

新媒體編碼時代的技術:編碼與傳輸

我們今天主要說的是 MPEG-I,沉浸式媒體。上圖是 MPEG-I 的發展路線圖,只包含視覺相關的,不包含音訊的內容。其中之一是關於 New Video Codec,還有點雲,從靜態物件到動態物件,以及光場,包括相機陣列等。

新媒體編碼時代的技術:編碼與傳輸

我們熟悉的是手機上數碼相機上都在用的 JPG。但實際上 JPEG 做了很多,其中一個是 XL,新一代影象壓縮;另一個是 PLENO,光場影象壓縮。

新媒體編碼時代的技術:編碼與傳輸

AVS 一直都在做高效視訊編碼,做的是面向廣播的編碼。從 2002 年開始,至今已經 16 年了。2006 年成為國家標準,進展比較快,2012 年能 AVS 成為廣電行標,2016 年 AVS2 成為廣電行標,也是國家標準。目前在4K的超清廣播應用比較多,今年 10 月做試執行,明年北京冬奧會會有 4K 的超清廣播。對於 VR,AVS 有一個 HV 的工作組,有專門面向 VR 的 HV1857.9 視訊標準。

新媒體編碼時代的技術:編碼與傳輸

先普及一下沉浸式視訊的多維度屬性。包括解析度,從標清到高清到超高清,有更高的幀率、更高的取樣精度,更多的模型資料,色域更豐富。

新媒體編碼時代的技術:編碼與傳輸

全景視訊方面,視場角中的 1° 能看到 60 個畫素就可以達到視網膜級別。如果是 4K ,視角是 36°,平均下來每度 100 多個畫素。有時候說看 4K 就夠了,不需要 8K 了,依據是從這兒來的。但實際上,8K 之後視角變得更大,也需要更高的畫素。如果以這個算目前的 4K 全景,平均下來 1° 只有 11 個畫素,離 4K 高清差的很遠。為什麼 4K 全景質量差?因為本身訊號提供的就不夠。如果要做全景視訊,按照前面的解析度算的話,畫素值至少要到 22Kx11K,完全全景的話要 24Kx12K。計算下來資料量達到 4Gbps,只能等 5G 技術的到來。

新媒體編碼時代的技術:編碼與傳輸

還有其他媒體,點雲、網格、光場、深度之間都可以轉換處理,不止體現在資料格式上轉換處理,後面編碼的時候也可以做相應的融合。

新媒體編碼時代的技術:編碼與傳輸

剛才看到的都是比較傳統的相機採集的資料進行編碼,現在已經出現了另外一種形式的採集,是在仿生的採集(如上圖)。原理是這樣的。首先,視訊採集的資料量很大,尤其是運動速度很快的時候,普通的相機採集的話都會出現模糊。第二,我們採集完這些視訊再做處理,做特徵的提取,進行物件的分析識別。這個處理過程與人的視覺識別處理是相差很遠的。第一個問題,人眼是每秒 30 幀嗎?肯定不是,因為人眼的獲取原理本身就和傳統相機不一樣。那麼仿生採集指的就是後端傳輸的是神經脈衝訊號,當環境中要測那個點發生變化時才傳輸訊號,這個原理與普通的相機採集不一樣。但是傳輸神經脈衝訊號後如何進行編碼,到現在也沒有完全解決。我們可以看下面這個視訊,它直觀解釋了傳統相機採集與仿生採集的區別。

2

新媒體編碼時代:新技術

現在已經進入第三代標準時期。MPEGY 有 VVC(Versatile Video Coding),俗稱是萬能的。AV1、AVS3,都是第三代標準。

新媒體編碼時代的技術:編碼與傳輸

視訊編碼做了這麼多代標準,做編碼的人會問編碼效率做了這麼多優化,繼續做下去有沒有意義?

有一個經濟學的悖論:提升資源消耗效率,結果消耗的資源更多。比如,要提高煤炭的燃燒效率,後來煤炭的燃燒效率提上去了,煤燒得更多了。原理是效率支撐了更多的需求,從而帶來了更多資源的消耗。頻寬傳送也是一樣,如果我們提升頻寬,進一步提升壓縮效率,全景視訊、點雲等新的應用就會跟著來,然後頻寬消耗還會更高。從這個角度來看,需要更高效的壓縮技術。

再看編碼的具體技術,下圖是我們熟悉的框架,編碼所做的工作非常精細、瑣碎。整個工程就像手錶裡一個個連線的小齒輪、大齒輪。我們的工作就是刪掉其中一個齒輪或者把幾個齒輪併成一個齒輪,並讓表跑得更準,更省電。

新媒體編碼時代的技術:編碼與傳輸

在 AVS3 的時間規劃上,預計明年 8 月份會發布第一版,第一版是複雜度和效率做的比較平衡的一版。2021 年會發布第二版,最終目標是面向8K、VR、流媒體等應用,編碼效率比 AVS2 再高一倍。AVS3 的特徵可以這從兩方面看,傳統技術 AVS 在做很多研究,包括塊劃分、運動預測、變換等;智慧方面也有研究,,用神經網路做變化預測濾波,編碼與傳輸的聯合。

新媒體編碼時代的技術:編碼與傳輸

早先我們一直做的是信源通道聯合編碼。我們可以靠一些傳輸技術來折中編碼效率,不用很複雜的編碼方法就達到編碼效率的提升,比如,媒體端 CDN 中存了很多視訊流,不同流之間存在關聯,一句話解釋就是類似於 P2P 傳輸式,我可以在傳輸中利用高層的傳輸支援達到相關內容的更高效的預測編碼。利用這種技術可以提升 30% 以上的壓縮效率。

新媒體編碼時代的技術:編碼與傳輸

國際標準方面,2015年10月份已經開始圍繞新一代 JVET VVC 標準進行討論,現在已經三年了。技術進展很快,編碼效率相比 H.265 提升 40% 以上。今年4月份在聖地亞哥開的一次會議上,有一個環節:響應提案徵集,SDR 有 22 項提案,HDR 12 項,360 全景 12 項。

新媒體編碼時代的技術:編碼與傳輸

下圖那次會提交的 SDR 提案徵集。中國從 1996 年開始參加 MPEG,前期參與的時候主要是大學和研究所,沒有中國的公司。但是近年,中國的公司,比如華為、海康威視、騰訊、大疆、頭條等都開始積極參與國際標準的制定,這是很好的現象。同時說明中國近十年二十年來培養了不少人才,這是我們學校的貢獻。也歡迎更多的公司可以參與國際標準,也可以參與 AVS 標準的制定。AVS 和 MPEG China 是一體的,加入 AVS 就相當於加入 MPEG China。

新媒體編碼時代的技術:編碼與傳輸

再看技術情況,新特色是體現在從訊號處理到深度學習。這些提案裡,有5個都用到了深度學習的技術,其中有關於預測的,也有關於濾波的。我會重點講一下預測。

新媒體編碼時代的技術:編碼與傳輸

神經網路和編碼之間的聯絡在哪兒呢?可以用一個比較簡單的圖來解釋。下圖是傳統的變換,分解成變換系數,後來做量化、反量化,量化反量化之後帶來失真。失真之後如何做一個最優的量化,使得量化的誤差最小?最小誤差範圍表示成二進位制的形式,S1、S2 每個數要麼是 0 要麼是 1。量化決策的過程,實際上是,選擇 0 或者選擇 1 使得整個誤差最小,這就是一個優化的問題。優化的問題就是神經網路最擅長的工作,這個工作就可以交給神經網路,幫你選擇是 0 還是 1,這是變換和神經網路的相通之處。

新媒體編碼時代的技術:編碼與傳輸

原來做幀的預測,選周圍畫素,找一個插值濾波器,使得插值之後要逼近預測的值,使得誤差最小。如果用神經網路做的話,把周圍畫素傳過去,神經網路幫我找加權、找偏移量。計算完之後失真最小,那麼網路就訓練好了。以後做預測的時候,把資料送給它就自動處理,像黑盒一樣。這就是基於神經網路的預測。

目前用神經網路去做變換、預測、濾波的已經有很多了,每個模組都很多。但如果只做這些的話,還是像玩票一樣。畢竟神經網路在模式識別方面應用得很好,到了編碼這邊做了很多,但是還沒有打敗傳統編碼,還是基於訊號處理這套。

新媒體編碼時代的技術:編碼與傳輸

現在有了新的概念,Towards Conceptual Compression。在下圖中,最底部的一行原始影象,最頂部模糊的編碼的。從上面的編碼,一步步推理迭代,能夠生成底下的原始影象,這是用神經網路來做的。我認為可以叫做概念(意象)壓縮。它強調的是,人的腦子裡對一個影象有個模糊的印象,但是恰恰靠這個模糊的印象就能夠做判定。這個概念正在進行中。

新媒體編碼時代的技術:編碼與傳輸

這是另外一個工作,剛才是用神經網路做表示、做生成,現在可以用神經網路在壓縮層次上提供對這個內容分析理解的支援。傳統基於訊號處理的壓縮,如果要進行分析會很困難。如果是基於神經網路的話,由於是基於特徵的表示,對於媒體的分析理解會更加智慧。

新媒體編碼時代的技術:編碼與傳輸

再看一看媒體分析,從多媒體到跨媒體。左邊從視訊到文字,給定視訊後可以對應生成文字。右邊反過來再從文字生成視訊,從文字到視訊比較有限制,限制於資料集,靠文字描述生成視訊出來。這種技術再結合前邊基於神經網路的壓縮,智慧壓縮前景無限,這種技術對媒體的分析和理解肯定比傳統編碼更優越。

新媒體編碼時代的技術:編碼與傳輸

接下來的內容是關於新媒體編碼。關於光場,目前光場有兩類,一類是基於相機陣列,還有用一些小凸透鏡,相當於集中成像。對於光場,新型別的媒體可以用現有的框架去進行編碼。

新媒體編碼時代的技術:編碼與傳輸

對於點雲,雖然我們感覺它是新資料,其實也有比較好的編碼處理方法。原來影象是二維的,分成一個塊一個塊處理。到了點雲之後是三維的,也很簡單,把它分成三維的塊,原來是平面劃分,現在改成立體劃分,劃分完之後這些資料可以進行變換、預測、處理。和傳統編碼也可以做一個很好的結合,目前這塊都是處於比較初步的階段,還需要繼續研究。

新媒體編碼時代的技術:編碼與傳輸

以上是點雲和光場與傳統的編碼框架之間的結合。還有一部分是關於光場編碼和點雲編碼,光場編碼處理也可以用點雲的編碼進行編碼框架表示。基本思想是小凸透鏡成像,從每個角度情趣看這個影象,就可以看成一個球的影象。把球的影象進行分解,有一些係數,係數類似於點雲的屬性係數。

新媒體編碼時代的技術:編碼與傳輸

關於傳輸,編碼和傳輸都有很大的影響。傳輸有些是我們比較熟悉,比如 HLS、DASH。後端基於 Tile,把內容劃分成 Tile,根據頻寬情況,選擇傳輸相應質量的內容。這個工作對於全景視訊傳輸很有用處,因為全景視訊某些時候只是看某些角度,不是看整個內容,所以可以基於 Tile 的傳輸降低整個傳輸的工作量,還能提升影象的質量。

新媒體編碼時代的技術:編碼與傳輸

視點依賴的流媒體傳輸就是指全景傳輸。那麼,我們就可以利用神經網路,提前預測人看哪塊內容,提前把訊號內容傳送過去以獲得更好的體驗質量。可以基於觀者本人,也可以基於其他觀眾的注意來預測。

新媒體編碼時代的技術:編碼與傳輸

神經網路智慧不止是在編碼,在傳輸上也有很多用處。再看點雲的傳輸,也是一樣的,點雲數量很大,可以考神經網路來幫忙,比如點雲傳輸劃分成三維的Tile,你看哪塊我給你傳哪塊,來降低傳輸工作量。

新媒體編碼時代的技術:編碼與傳輸

3

新媒體編碼時代:新應用

新應用,有線上抓娃娃,連抓娃娃這種應用都可以搞這種火,我相信新媒體應用可以搞得更火。

新媒體編碼時代的技術:編碼與傳輸

還有超高清,目前看到的有 4K、8K,也有人問我們需不需要 8K。我在八年前第一次看見 8K 的時就未曾懷疑過,一定有人需要。別說 8K,16K、24K 也有其必要性。對於全景視訊來講,我們還是需要更高的質量、更好的傳輸支援才會有更好的節目、更好的體驗。

新媒體編碼時代的技術:編碼與傳輸

5G 與 VR,對於全景傳輸、動態點雲的傳輸都可以提供更好的支援。

新媒體編碼時代的技術:編碼與傳輸

智慧媒體的製作,紐約大學的研究人員 Ross Goodwin 訓練了一個神經網路,給它輸入幾部電影它自己就可以寫出劇本來,然後 9 分鐘的電影就排出來了。也許未來我們需要只明星的臉,不需要明星來演。

新媒體編碼時代的技術:編碼與傳輸

最後總結一下,The best is yet to come,最好的 TA 會來臨。我們要做的事情就是擁抱新技術,攜手新媒體,研發新應用,開創新時代,我的報告就是這些,謝謝大家。

訪問「聲網 Agora 微信公眾號」觀看演講視訊回顧,獲取更多 RTC



相關文章