引言
20 世紀 80 年代,當多媒體技術誕生,一個全新的多媒體應用時代大幕徐徐開啟。四十年間,一代代技術人不斷投身多媒體事業,這其中有許多深耕該領域的匠心人,埋首研究並持續創新,引領和推動多媒體技術不斷演進,蓬勃發展。
上海交通大學電子工程系教授、影像所副所長宋利老師便是這樣一位一路見證多媒體技術起步和勃興,深耕多媒體技術數十年,引領著高校教學和研究數字化前行的“匠心人”。在本期技術指標中,我們將跟隨騰訊雲 TVP、上海交通大學 電子工程系教授 影像所副所長 宋利老師,透過學者視角,開啟一段奇妙的多媒體技術發展之旅。
一、看起步發展,憶多媒體歷程
早在二十多年前讀博士時進入多媒體領域,宋利老師便紮根於此,一路以來,他見證著多媒體技術從 H.264 時代發展至如今的深度學習時代,也伴隨技術的發展而成長。那麼,接下來,我們將跟隨宋利老師的腳步,回首與多媒體的不解之緣。
我從2005年博士畢業後留校,一直專注多媒體領域教到現在,從講師到副教授、教授這樣一步一步地做。遙想當年沒有現在這麼熱鬧,我印象中當年的同一屆學生裡有好多人都已經轉行了,並沒有留在多媒體領域。但是我在唸博士的時候,因為熱愛所以比較認定自己未來要在多媒體行業裡工作,而且影片編碼領域擁有一半技術一半藝術,一半可控一半不可控,這一點也非常吸引我持續投入。
其實,我做的第一個專案是圖形學,主要是給虛擬人試穿衣服以模擬真人試衣,這是現在看起來都很超前的一個技術。在那之後我開始轉到影片編碼領域,中間也有跟蹤過一段音訊技術,然後便一路從 H.264 時代、H.265 時代、H.266 時代,現在到深度學習時代,算是見證了多媒體行業從起步到發展的環節。
在學者以外,我的另一個身份是老師。我個人是比較喜歡做老師的狀態,教學相長,當能把一個東西講給別人聽時其實是又學習了一遍。同時每學期都是新同學,新面孔,每次都有新鮮感,要把他們領入門,希望他們成長起來,成長得更好更快,這種感覺其實還是挺難得和挺棒的,這可能也正是做老師的樂趣所在。我其實也很尊重學生的選擇和個性,我一般會讓我的研究生花些時間去了解自己喜歡什麼,擅長什麼,我希望學生做自己喜歡且擅長的事。作為高校教師,毋庸置疑還是要保證自己專業的精深,我在多媒體領域裡面從事時間最長,大約超過一半的投入和產出、專案來源、學生、做的成果,還是在影片編解碼領域,因此在這方面還是在持續發力的。我上課時跟學生也正好講到 “T model”, “T” 這一橫的意義是代表廣博,知識要有廣度,但還有一個很重要的是 “T” 這一豎的槓桿,即深度,深度是代表你的專業,只有足夠深才能找到自己的立足點。
多媒體其實入門不難,但是要做到精深,是需要投入時間打磨的,需要有工匠精神。就好比一本教材,往往要出到第三版才會有比較優質的內容,對於產品,對於技術也是這樣,我們得傾注熱情,花時間去提升技藝,要不斷地拓寬視野和學習範圍。多媒體的特點就是它是一個不斷變化的滑動視窗,下一代可能走的就不是這個技術體系,而正是學習能力和投入決定了你能走得多遠。
在這個市場蓬勃發展的階段,因為市場足夠大,做得不好也能分一杯羹,但等到市場進入競爭激烈的狀態時,那就只能靠打擂了。因此我和很多同學說,希望大家畢業以後到各個公司裡面是做編碼器設計的人,而不是簡單拿編碼器去改,我們要有能力重新寫一個,爭取坐上第一把交椅。
二、看深耕領域,剖多媒體演化
在多媒體發展史上,多媒體一詞的概念,編解碼的標準,它們都經歷了哪些演變;在編碼標準上,我們又是如何實現從跟隨到領路的轉變?從概念內涵到標準迭代,宋利老師將為我們一一娓娓道來:
多媒體領域的發展大約經歷了 40 年的時間,1990年,以影片編碼第一代標準 H.261 為代表發展到現在,如今我們日常使用的微信影片號,騰訊會議的背後都是多媒體技術在支撐,它經歷了很大的演變。
第一個演變階段是 TV,即電視階段,從電視臺把一個節目能傳到我們的家裡原來至少需要經過 300 多個裝置和環節。第二階段走向為OTT,或被稱為流媒體,流媒體把原來電視時代的大堆專用裝置都簡化了,對我們多媒體人而言是一個網路的出現,雖然終端看到的東西沒有變化,但其實背後已經發生了重大的結構演化。第三階段則是手機終端化,如今我們僅僅使用手機就能夠處理絕大部分的問題。未來再進一步向互動性更強的方向發展,就是如今大家熱議的元宇宙,也是騰訊所說的全真網際網路,我最近還取了一個新詞叫“臨境媒體”,它們比原來的多媒體的內涵又更加豐富了。
我在上課時也給同學們留了一個思考題,雲遊戲到底是遊戲還是影片?我們打的是遊戲,但支撐遊戲的卻是影片的技術,它其實是將渲染完的結果再以影片形式推到使用者側。低時延編解碼、影片處理,它們的內涵比以前無疑擴大了許多。有時候語言限定了大家的想象力或限定了知識,我們至今還在用“多媒體”這個詞,但“媒體”的內涵其實與二十年、十年前相比已經發生了很大的變化。
(一)影片編解碼迭代下,H.267 路在何方
當前,影片編解碼從某種程度上來說已經發展漸趨成熟,可以說只要存在影片的地方,那麼這個影片都不會是原始影片,它背後一定有編碼器,它也是屬於基礎架構裡面不可或缺的環境。
通訊裡面的 1G、2G、3G,現在已經發展到 5G,類比到影片編解碼其實也有代際的概念。鑑於影片編解碼比較具有通用性,所以它有一個標準在後面推動。從第一代 H.261,到 H.262 即MPEG-2,再到 H.263 跟 MPEG-4 是中間過渡的,然後又發展到 H.264,H.264 是現在用得最多的,到 H.265 和最新標準 H.266,一路走來我們通常認為有四代編解器,每一代的發展也差不多歷時 8 到 10 年,加起來一共 35 到 40 年的時間。這和行動通訊一樣,目前影片編碼也差不多走到同樣的位置,對應的 H.266 出來以後,大家認為影片編解碼再往前走到 H.267 的話,是否還繼續沿著這個標準和這條單一的演進路線走下去,這是一個有待思考和探索的問題。
(二)編碼標準的“壟斷”與“領路”
其實,現在的編碼標準也分為幾條線,早先我們更多還是參考國外的標準或者國際標準為主。這主要是因為我國國起步較晚,那時候很多技術都有時間順序,很多 ICT 的技術就來自於歐美,我們只能從後向前追趕。國內標準是從大概二十年前產生,近幾年開始聲音比較大,是國家和電信領域裡面認可的標準,現在的代表是 AVS。
值得一提的是,多媒體領域裡面有一個特點是華人比較多且他們的能力很強。國內標準能夠單獨做起來,效能也與國際標準基本保持在同一級,甚至在某些方面還會做得更領先,也是得益於國內外許多華人的推動。特別是在國內,包括騰訊這些公司在這方面投入很大。從這個意義上來說,我們在基礎上並不落後,甚至是處在領先地位。在明確賽道的情況下,中國人一般用十年時間可以完成別人要用兩三代時間完成的事,目前階段,我們更希望是我們去領路,讓別人跟隨中國的步伐。
三、看技術熱點,尋多媒體應用
如今,多媒體應用走進了千家萬戶,線上視訊會議辦公,短影片娛樂都為我們的工作和生活帶來了極大的便利。那麼,一場線上視訊會議的背後需要怎樣的多重技術支撐;RTC 又有哪些充滿想象空間的新興應用場景?讓我們跟隨宋利老師一探究竟。
(一)多媒體技術推動線上視訊會議的興起
“原本我們預想到視訊會議肯定會走到千家萬戶,但是沒有預料到它的發展速度會是如此之快,使用者規模如此龐大,而且成為我們日常的剛需。”宋利老師感慨道。
我們上的很多課程是專題性質的,一門課裡會有很多專題,比較適合邀請不同專題下面的專家來分別授課,這樣不同領域的專家能夠為學生提供更為深入的解讀,對於這類課程,線上上開一個騰訊視訊會議,可以大大節省異地老師的上課時間,比線下教學的可操作性更強。
現在我們學校也是用騰訊會議企業版,騰訊的產品和服務態度都做得很好,得到了師生的認可。學校的課程會統一匯入騰訊會議,每天的課程都會按時給老師傳送提醒,所有選了課的學生,只要登入後就可以透過線上列表直接加入課程會議,這一點十分方便。
(二)線上視訊會議背後的多重技術
視訊會議系統是一個很典型且完整的現代多媒體通訊系統。現在,我們普遍把它定義成 RTC 類的典型應用,它較流媒體而言在技術上的挑戰更大,主要在於視訊會議是雙向互動的,而非流媒體的單向輸出。線上視訊會議的背後,其實有著多個技術步驟:
第一階段是螢幕採集,從老師到學生這一側是典型的螢幕採集,比如我們上課一般會用膝上型電腦,首先需要捕獲螢幕,螢幕捕獲包括影像和聲音兩部分,其中聲音還包括螢幕裡面的聲音,比如播放的影片聲音,以及人說話的聲音,是按照 30 幀,每秒鐘 30 次去抓取畫面和聲音。
第二階段是影像處理,在螢幕捕獲後便進入處理階段,包括噪聲處理、顏色修正、裝置光亮統一、美顏濾鏡等,這些我們都稱之為影像處理,經過這一步,這就過了一個訊號處理的濾波。
第三階段是編碼壓縮,在這階段就進入編碼器,音訊和影片都會被分開壓縮。在壓縮過程中,各種編碼標準便會開始執行,壓縮完畢後便會生成一個音訊流和一個影片流。
第四階段是複用和打包,鑑於音訊流和影片流需要傳輸到網路,所以還有一個複用和打包的環節,將音訊流和影片流按照時間排列好,同一個時間的打包到一起,蓋一個戳,這便稱為複用打包,同時,複用打包也是十分有講究的,需要根據傳輸網路的要求,現在多媒體一般是在 IP 網路之上,所以會把它打成 IP 包。
第五階段是網路分發,打包以後就可以過網路分發了,分發完畢後,無論學生在哪裡,只要能夠上網,便能從網路上把這個包拿下來。
第六階段是逆向解包、解複用,剩下的工作就是把包裹拆開,音訊和影片都拎出來,對照看看時間是否對準,再把它們按照時間點放到快取區裡面排列好。原來的影片如果是流媒體,我們叫播放器,播放器就會把音訊、影片拿出來解碼,把音訊還原成音訊,從二進位制還原成訊號,影片還原成影像,然後播放。其實 RTC 也一樣,視訊會議也一樣,視訊會議不叫播放而叫顯示或呈現,也是一樣把實時的包抓出來,音訊、影片放到視訊記憶體、音效卡里,然後進行解碼,到這一步又還原成一幅影像、一個影片。
最後,第七階段是後處理,對比前面階段的前處理,最後一步我們對應稱之為後處理。因為我們再往前推是顯示器,從數字到模擬還有一個適配的過程,所以後處理主要是對於螢幕適配來做一些調色和縮放處理。
騰訊會議作為線上視訊會議的典型代表,從使用者層面來看,它主要給我三種感受:首先是它簡單好用,操作方便。其次是質量高,尤其體現在聲音方面,雖然是視訊會議,但我們往往更多會關注參會人的聲音。騰訊會議的噪聲抑制相比以前有了顯著提升。最後無疑是穩定性高,依靠騰訊雲,騰訊會議能夠保障大規模使用者的同時線上。
我們做學術的人往往強調的是上限,需要大家發表論文要講創新性。但我認為做產品則需要穩住下限,畢竟是給千百萬人使用的東西,需要花費更大力氣來保障下限。把一個東西做出來可能不難,但是要把它做成一個使用者規模很大、非常穩定執行的產品則極具挑戰性。
(三)RTC 既是娛樂工具,也是生產力
實際上,RTC 不僅僅是單一技術,它還是一個系統。剛才我們提到的編解碼,做流媒體用的分發類的編碼器跟實時通訊的編碼器是不一樣的要求,比如低時延的很多東西。這兩年雲遊戲、直播等發展得很快,在這背後其實很多技術都跟 RTC 相關,直播裡就有運用 RTC 的部分技術,比如騰訊的快直播。大眾熱議的元宇宙,其實它背後也離不開 RTC,此外,RTC 和工業結合起來佈局遠端監控、遠端操作、遠端醫療、遠端救護、遠端培訓,這些應用也會是未來的新興方向。
毋庸置疑,RTC +各種應用可以影響我們的娛樂、生活、生產、工作,例如,騰訊跟三一智礦公司合作的“自動駕駛+遠端操控”的智慧礦山無人化方案便是一個典型的工業應用場景,主要是基於騰訊雲實時音影片(TRTC)與 5G 網路融合技術,可以將影片傳輸時延大幅降低,為礦山作業人員提供更加穩定、流暢、可靠的遠端操作體驗。
騰訊雲特別是影片部分在整個行業裡是走在前列的。在影片這塊,騰訊雲走得最為深入,產品應用很多,且都細化到了解決方案上,比如 TRTC、快直播、流媒體等,針對不同場景都做了最佳化,這也說明騰訊雲在音影片這塊做得非常細緻,而且裡面的技術創新和快速迭代大家也是有目共睹。
從行業角度來說,我期待在現有基礎上能有一定升格。我相信在騰訊雲產品的迭代更新過程中,本身也會有很多獨創的東西非常適合中國,期待騰訊雲的創新能在未來升級成行業的標杆或標準。據我瞭解,騰訊的多媒體實驗室也做了很多標準化的工作,我期待未來在這方面能有更多的突破。
四、看未來方向,探多媒體的下一站
隨著元宇宙、ChatGPT 等新興技術不斷湧現,與之緊密相關的多媒體的下一站將走向何方,我們該如何把握它的數字化未來呢?追隨著宋利老師的視線,我們一起眺望多媒體的未來前景。
其實,從消費者的角度來說,大家對於新技術的關注更多還是在於終端技術,目前手機螢幕佔據了我們最多的使用時間,那麼在未來,多媒體的下一塊屏會在哪裡?究竟是頭盔,還是眼鏡,又或是全息,目前各種探索層出不窮。下一塊屏實際上也是下一代終端的原型,它將帶動整個行業往前跳躍。
就整個基礎鏈上而言,無論是 XR 還是 VR,我們能感覺到更多的驅動力其實還是來自於終端,終端對應的頭端是成像採集、拍照技術、成像技術、聲音技術,甚至包括虛擬製造。AR 代表更多的是生成,多媒體內容的生產、生成有很多新花樣。以 AI 為代表的內容,元宇宙的虛實結合帶來的東西,我覺得會把當前多媒體的很多東西顛覆掉,極大地拓寬多媒體的維度。
例如在過去我們的多媒體其實都是把內容記錄下來,儘可能保證真實感。但是現在加入元宇宙、AI,便可以創造出多個虛擬形象,使用者還可以和虛擬形象進行互動,即虛實融合、虛實相生,這裡有著很大的想象空間。
業界的領袖,包括騰訊提及的全真網際網路概念,國外的元宇宙概念,其實都已經給我們的發展指明瞭方向,這當中的路徑可能有快有慢,但方向我個人還是十分認同,它最終的目的就是希望我們能達到更高的體驗。
在一個大週期內部是小模組在迭代,到達某一個點後,即是隨著破壞性技術的出現,大週期將會突然產生一個大的跳躍,叫做“升維”,會“咔嚓”帶動整體往前走一步又再進入迴圈,往往技術進步就是這樣,但它常常是不可預料,突然出現的。背後科研人員也好,行業也好,國家也好,其實我們都沒有停下追逐的步伐。
結語
在短短四十年時間裡,多媒體技術從破空而來發展到現在應用遍地開花,並還在不斷向前突破,正是一代代像宋利老師這樣的多媒體“匠心人”,用多年耕耘和持續探索,才讓我們今天的視聽世界得以如此豐富多彩。TVP 技術指標,下期將繼續和你一起,探尋技術真相。