在5G時代到來之前，行動通訊技術已經經歷了1G、2G、3G和4G，影片產業在4G時代實現了突飛猛進，如短影片、直播、長影片、視訊會議等形式的出現，使得人與人之間的溝通和交流方式從傳統的語音、文字、圖片等模式快速升級到影片。相應的，4G時代全網影片流量已佔到全網資料流量約70%，而在5G時代，影片流量佔的比例還會更高。

在5G時代，如VR、3D超高畫質實現等技術的大規模應用，人與人之間的聯絡被溝通的更近。因為影片比圖片和聲音有更強的表達能力，也符合資訊傳播的未來演進方向。

5G時代的影片雲服務關鍵技術與實踐

— 京東雲高階總監魏偉—

影片地址：https://v.qq.com/x/page/x0896or1r6x.html

1

通訊和影片的基礎原理

數字影片時代的起點在80年代，那時影片標準化從H.261/MPEG-1標準開始，應用在如光碟、VCD等形式，解析度只在352×288；到1993年，MPEG-2標準推出，解析度達到720×576的標清時代，主要載體是DVD，也開始出現高畫質藍光，是均以離線傳播為主的時代；而到2003年，隨著H.264標準推出，數字影片進入了網際網路時代，促生了點播、直播、短影片等應用形態，H.264延續至今依然是主力的影片標準；4K影片開始崛起，H.265標準在2013年應運而生。每一代影片壓縮標準，壓縮效率均提升了一倍，編碼複雜度也提升了很多。

當前我們所處的階段影片是以H.264為主，4K高畫質影片以H.265為主的時代。影片技術的變化，每10年更新一代標準，壓縮效率也能提升1倍左右。影片的標準除了ITU制定的主力標準以外，自主智慧財產權的國產AVS標準也快速發展起來，還有一些廠商制定的比如VP標準、RM標準以及現在免費開源的AV1標準。而面向未來的VVC新一代標準，如果順利這一標準將會在2020年左右推出，其影片壓縮效率將會比H.265再增加一倍，運算複雜度及運算量都將增加很多。

那麼科普一下，影片是如何壓縮的呢？影片是由一幅幅單獨的畫面（稱為幀frame）序列組成，每秒約25幀。每幀畫面之間的差異很小，只需要對影片幀之間的差異進行壓縮編碼，即資訊熵，相鄰的畫面之間、相鄰畫素之間的的相似冗餘需要去除掉，即可得到一個較高的壓縮比。但對於影片技術來說，還可以利用人眼視覺模型（HVS），舉例而言，1080P的影片，每秒假設有25幀，彩色影片有RGB三個分量，影片每秒的資料量為1920*1080*3*25*8=1244.16Mb/s，每秒就超過1G多資料，利用資訊理論去除前後相鄰幀之間的時間冗餘，再去除相鄰畫素間的空間冗餘，再去除信元的統計冗餘，再結合HVS做有失真壓縮，在不影響人眼主觀感受的情況下，影片壓縮可以達到300到500倍。

再看一下整個影片編碼過程，涉及到的一些基本概念，上圖就是一個影片壓縮的經典技術框架。從最早的一代影片標準H.261/MPEG-1開始，到現在的H.265/HEVC乃至於面向未來的VVC的標準，其系統結構都是採用基於塊的混合編碼系統，涵蓋了時間冗餘去除，空間冗餘去除，統計冗餘去除、有失真壓縮等形成混合編碼的結構。

每一代的影片標準都有一些共性的開發問題。比如幀結構和場結構，在幀結構中，一幅畫面就是一幀；在場結構中，一幅畫面是由頂場和底場兩場組成。GOP（Group of pictures）影像組，需要把影片序列拆成N個影像組，每一個影像組裡麵包括了Intra、帶前向預測的Inter，以及帶雙向預測的Bi-directional。Intra解決影片的隨機接入問題，在任何一個Intra幀都可以開始接收和解碼影像，Intra預測目前也已經非常成熟，從H264的9個方向到H265的35個的預測方向，而在未來的H.266時代預測方向會達到60多個。

第二個就是Motion Estimation即運動估計，用來消除相鄰幀之間的時間冗餘。因為相鄰幀間的影像會有一些輕微的運動變化，運動估計技術能把這些運動給“估計”出來；Motion Compensation運動補償是運動估計相反的過程，在解碼過程中實現，解碼時MC重建出當前畫面，避免傳輸整幀畫面；影片編碼有Coding Mode Selection概念，多種的編碼模式根據不同畫面內容進行選擇，有多種演算法進行快速實現。

再者就是Transform變換技術，進行正交變換把影片的亮度域變成頻率域，將運動估計處理後的灰度域的畫素點變成頻率域表示，把高低頻內容區分出來，方便去除人眼不敏感的高頻訊號，去除空間冗餘資訊。還有縮放和量化(Scaling & Quantization)技術，在做有失真壓縮的過程中，透過量化過程對高低頻訊號選擇合適的量化階把不敏感的內容去掉，量化和位元速率控制技術密切相關，透過調整量化引數，來實現每一幀影片的位元速率控制。位元速率控制又分為CBR和VBR，CBR是固定位元速率，即每一秒滑動窗的位元速率都是均勻的，主要是用在一些固定通道傳輸領域比如衛星通訊，位元速率穩定。VBR是可變位元速率控制，用在網際網路傳輸方面，控制整體平均位元速率，但會根據影片每一段的複雜度來分配合適的位元速率，在複雜區域高位元速率、簡單區域低位元速率來實現整體質量的均勻和整體平均位元速率的均勻。

02

影片體驗的提升與評判

所有人都在追求更好的影片體驗，那麼影片體驗究竟指的是什麼呢？哪些辦法能讓使用者體驗更好呢？

畫素更多，影片的發展從標清、高畫質、超清到4K、8K還有以後的16K，畫素越來越多，使用者體驗越來越好；
畫素更快，以前的影片一秒鐘只有15幀，現在逐漸發展變成25幀、30幀、60幀、120幀，未來還會有240幀，360幀，更快意味著更舒適；
更好的畫素。以往，每一個畫素是8個位元，以後畫素質量會上升到10位元、12位元、16位元；
色域更寬廣，色彩會更加逼真；
高保真的音訊，音訊壓縮的難度比影片壓縮更大，耳朵的靈敏程度遠比眼睛要高。影片可以達到幾百倍的壓縮，音訊的壓縮也就幾十倍，到100倍就已經是非常非常困難了；近年開始有全景聲的概念提出，對於體驗提升很有幫助；
更低的位元速率，雖然資料量越來越大，需要更高壓縮實現更低位元速率來解決影片卡頓和傳輸成本問題；
更快速的起播，使用者開啟影片的速度要更快。

對影片質量的評價也有標準和方法，如今比較常見的方法有四種：

Rate-Distortion (PSNR)峰值訊雜比，根據RD值繪製曲線，曲線越高，壓縮效率越高、質量越好；
SSIM，根據影片結構性、相似性進行評價，目前使用越來越廣泛；
VMAF，把不同的影片、不同的解析度，放在相同維度上以統一的標準來衡量；
MOS人眼主觀評價，這也是最權威的評價方法，也就是眼睛看著是否舒服。MOS評分雖然是主觀評價方法，但也是最客觀的影片質量評價方式。

不論直播、點播還是廣播技術，影片服務都可以分成四個層面：最底層是編碼最核心的Codec層，其上層是Container封裝層，再上是Stream碼流層，最上層便是服務層。涉及到大量的行業標準，其中大多數標準是由ITU制定的，比如H.264、H.265標準，還有封裝層的MP4、TS等標準。

很多標準都有開原始碼實現可參考，比如ffmpeg、VLC等服務框架，就是比較全面的開源實現；X264、X265對應的就是H.264、H.265兩個標準的開源實現；Container層也有mp4box、MKV等優秀的開源封裝格式；在服務層，有Nginx、SRS等開源實現，在每一層都有對應的開源實現。音影片領域雖說不大，但是技術域從底層到上層種類繁多、技術棧從彙編到go語言非常長，此處列出的僅僅是其中小部分，還有大量的開源實現來支援影片技術。

03

影片技術到影片服務的處理

從影片技術變成影片服務，其間還有很長的一段路，除了影片技術本身，還需要進行服務平臺搭建的工作，影片非常看重端到端的完整流程。在一場比賽直播中，現場攝像機拍攝、經過網路傳輸和雲端儲存、雲端編轉碼處理、經由平臺層進行內容釋出和媒資管理，還有網路資源排程、節點管理、線路規劃、線路節點調優等CDN工作，還可能涉及百萬級的併發均衡、P2P內容分發傳輸，最後到終端播放。只有從採集到終端播放形成完整的鏈條，才能保證影片內容的流暢高質量地播出。

對於影片服務提供商而言，想要提升端到端影片服務的使用者體驗，就需要在播放、平臺、產品等多個方面提升。播放體驗包括了秒起播、低卡頓、高畫質晰、高質量、低延時、唇音同步；平臺體驗包括了高效率、大併發、穩定可靠、可管可控、安全；產品體驗包括了雲化、標準化、服務化、可量化、視覺化；音訊體驗包括了響度、音質等。

具體到京東雲來看，京東雲在影片BD-PSNR衡量標準上，不同解析度對比其他廠商能再低20%到25%的位元速率，也就意味著能夠幫助內容服務提供商降低25%的頻寬費用，省下25%的成本。

這些數字背後隱藏著那些技術呢？目前，開發者可以基於京東雲特有的影片編碼能力，在保持處理速度不降低的情況下能夠把影片壓縮到相比於其他廠商更低15%到20%的位元速率上，並且提供極速處理模式，提供優質畫面的同時可以為客戶降低頻寬，同時處理成本不增加。京東雲的物件儲存的技術，對資料的安全性進一步提升，實現9個9的安全性，對儲存的資料進行訪問加速，並對影片方面進行定製最佳化。京東雲CDN也進行了系統化的提升，包括資源建設，技術最佳化、運維監控、排程調優等，京東雲提供了一張覆蓋全國的CDN網路，提供超過20TB容量的CDN服務，此外再加上客戶端的處理技術，接入京東雲的SDK後能在短時間實現功能豐富的直播或短影片應用。

04

5G時代VR影片的展望

5G到來以後，延時更低、頻寬更大，比4G多了更多可能性，比如超高畫質影片、5G+8K的影片傳輸和實現，更多包括影片監控和AR/VR技術將更為受益；可明確預見的是超高畫質影片甚至超過8K的影片處理都將很快變成可能。

隨著頻寬的擴充、擴容，超高畫質影片是一定會實現，VR也會成為新的焦點。那麼，5G來了是不是VR一下又能重新爆發呢？可以抱著謹慎樂觀的態度。因為VR技術和相關產業並不是一個新興產業，而是一個完整的產業鏈，很難像新技術一樣瞬間火爆。技術圈對於VR影片技術的探索比5G還要早，在1968年就已經在進行VR技術的嘗試了，所有人都希望能有更近距離、無障礙的交流溝通體驗，VR能夠將人帶到實際的場景中，獲得沉浸式的體驗。

在5G時代VR的發展到底會怎樣？在2016 VR市場非常火爆，Google、Facebook相繼進入VR市場，硬體廠商如三星、sony、英偉達，影片公司YouTube，內容方面騰訊、愛奇藝、樂視、暴風等逐步加入；但是到了2017年和2018年，大家又變得非常理性了。背後的原因分析一下不難得出這一結論，阻礙VR技術發展的並不只是網路，而是整個產業鏈。

VR的採集端是由多個無死角採集具有重疊區域的影片畫面拼接而成的，他會把360度的影片拍攝下來；拼接的過程需要解決特徵點匹配、多鏡頭同步、時間同步等問題，需要進行多鏡頭曝光校正、畫面融合等操作，再把每個平面變成球面的畫面還原出來才能完成。VR影片的編碼播放與前面所講的影片播放技術、影片處理技術大體一樣，從技術架構上來說，採集、拼接、編碼傳輸這都沒有問題，但真正不好解決是在播放裝置上，因為VR是戴著頭盔來體驗VR內容，蒙在眼前的螢幕只有幾釐米距離的時候，人是很容易發生眩暈的，如何來解決眩暈感是VR普及的最關鍵因素。如果要在VR頭盔上沒有眩暈感，基本上解析度需要達到15K左右，比現在8K還要再高四倍的畫素，而在顯示速度上，每秒120幀是必須條件，這樣才可能避免眩暈感。

在螢幕方面，當年釋出iPhone 4時提出了視網膜螢幕的概念，是指當螢幕距離人眼25-30釐米時，解析度只要達到300ppi（每英寸300個畫素點）以上，人的視網膜就無法分辨出畫素點了。而從iPhone 4到iPhone XS近十年都過去了，螢幕畫素只是從300PPI發展成現在的450PPI，發展速度相比電晶體非常緩慢。因為螢幕、液晶屏的發展與摩爾定律無關，速度遠遠低於資料處理能力的發展速度。如果VR想要達到不眩暈的效果，就得讓15K解析度和120幀幀率顯示效果放進頭盔裡，螢幕需要達到2560PPI，無論是LCD還是OLED都很難達到。當然現也可以期待像microLCD等更高質量顯示技術的成熟，來幫助VR產業進一步落地，但這顯然都和5G時代關聯並不大。5G的低延遲、大頻寬肯定會提升資料傳輸能力，促進VR的體驗提升和發展，但VR的普及還需要整個產業鏈的提升，僅有5G還不足夠。

歡迎點選“ 京東雲 ”瞭解更多精彩內容

閱讀原文

線上公開課 | 5G時代的影片雲服務關鍵技術與實踐

相關文章