伴隨著視訊技術的進步和標準的迭代,視訊產業從模擬進入到數字時代,完成了從電影電視到網際網路的媒介轉換,並且衍生出了超高清、3D、AR/VR 等多種創新形態。特別是在後疫情的當下,我們可以看到音視訊技術領域的諸多新變化,雲與端的協同互動、演算法創新與工程應用的深度交合、場景與需求的滲透促進,在嚴峻的挑戰下,為各行各業帶來了新的場景與活力。
在即將舉辦的 LiveVideoStackCon 2021 北京站,來自阿里雲智慧視訊雲的專家將與眾多行業夥伴,一同探索與探討視訊雲技術在雲上的創新探索。為此,我們採訪了阿里巴巴研究員 —— 葉琰,以及資深技術專家 —— 何亞明,與兩位專家圍繞編解碼技術及視訊雲的新場景應用展開了深入對話。
“視訊社會化”:視訊雲成為新的基礎設施
從 2006 年網路視訊的興起,到現在邁入 “視訊社會化” 時代,5G、雲、AI 已成為社會的發展趨勢,視訊不再侷限於電影、電視、廣告等傳統媒體領域,視訊會議、 互動視訊、電商直播等新型應用使產業邊界逐漸消融,視訊行業需求和技術不斷升級。隨著技術的發展和基礎設施的夯實,視訊將會成為新的互動方式和資訊承載的形態。
(資料來源:艾瑞諮詢 ——2021 年中國視訊雲場景應用洞察白皮書)
對於競爭激烈、快速迭代的大視訊產業而言,視訊雲已經逐漸發展為一項關鍵的基礎設施。眾所周知,當下的視訊業務對算力、儲存、頻寬這些資源的消耗非常高,比如一場流行的直播演唱會,可能會有上百萬的人在觀看,這不僅需要有強大的端側實時視訊處理能力,還要依託大規模的 CDN 分發網路完成流暢的分發任務,甚至一些 AR/VR 的特殊視覺效果需要通過邊緣節點的計算才能得以呈現,所以僅僅把伺服器搬到雲上已經遠遠不能滿足未來的場景需求,如何利用雲的優勢進行技術架構和業務的演進成為業界共同面臨的課題。
葉琰:推動下一代視訊標準落地,釋放行業生產力
葉琰是阿里巴巴研究員,阿里雲智慧視訊雲視訊標準與實現負責人。她負責視訊雲在 ITU-T VCEG、ISO/IEC MPEG 、AVS 等國際和國家視訊標準組織的技術開發,涉及視訊編解碼、AI 視訊質量評估、VR/AR 等先進技術的研發工作。她參與了多項視訊編解碼與流媒體的國際標準制定工作,包括 H.266/VVC,H.265/HEVC,SHVC 等標準。她是 50 多篇學術論文的作者,130 多篇美國授權專利以及 230 多篇美國專利申請的發明人。她還是 IEEE 高階會員。她在中國科技大學獲得本科及碩士學位,在加州大學聖地亞哥分校獲得博士學位。
視訊離不開編解碼技術,編解碼離不開標準的引導。視訊標準一直是視訊行業發展的基礎設施,視訊標準覆蓋廣泛,從系統標準 MPEG CMAF 到編解碼標準 H.266/VVC,視訊標準的不斷更新迭代對視訊生產的效率提升、成本降低和新的體驗起到至關重要的作用,也關係著整個行業未來的走向。
葉琰作為阿里巴巴研究員、阿里雲視訊雲視訊標準與實現團隊的負責人,一直以來是國際視訊標準化工作的深度參與者和推動者,在葉琰看來 “視訊標準化組織是見證最前沿技術和把握最新行業脈搏的最佳場合之一,正是通過業界專家們開放的技術討論,同時充分傾聽市場的需求,才讓我們能一次次迭代出更高效的標準,持續推動行業的進步。”
然而,面對新的發展階段,業界也對一些視訊標準組織提出了不同聲音。有一種觀點認為,像 MPEG 這樣的標準組織已經失去了主導的角色,大家還在為了零點幾的效能增益絞盡腦汁,而這帶來的是更大的計算成本,這種自嗨式的創新更多是一種刷存在感,並沒有帶來本質上的技術前進或創新,業界應該找到新的思路解決視訊壓縮問題。
面對這樣的雜音,葉琰表達了自己的判斷 ——“我不太認同把傳統框架和全新框架當成隔離甚至對立關係這種觀點。雖然傳統框架下挖掘效能越來越難,但是這個方向是基於大家熟悉的框架,有利於軟體硬體實現,而 ECM 也充分展示了這個框架仍然可以提供可觀的效能增益,所以不能輕易放棄。另一方面來說,JVET 也在探索什麼樣的新框架或者新工具可以一蹴而就,拿到大幅的效能增益。同時我們也非常關注這個新框架需要消耗什麼水位的計算成本?實話說,我們現在還在摸索,所以必須依靠兩條腿走路的方式,才能找到最有潛力並且可實現的下一代編解碼技術。”
的確,每制定一代編碼標準都是一個非常艱鉅的工作,不能一蹴而就。以目前業界的最新標準 VVC 為例,其正式開始之前的預研工作就花了 3 年左右的時間。正是因為如此,在 VVC 標準定稿不到一年, JVET 於今年上半年就設立了 ECM 軟體平臺,用以進行下一代編碼標準的技術預研和開發。葉琰說到:“雖然目前 ECM 的壓縮能力已經超過 VVC 大概 14%,但是按照之前的經驗,這個預研工作還需要若干年的時間才能達到新一代標準的壓縮效能增益要求。在市場和業務變化萬千的今天,我預計這幾年將會見證很多 5G 視訊應用場景的興起。”
何亞明:“雲 + 端 + 服務” 是視訊雲未來的大趨勢
何亞明是阿里雲智慧事業群視訊雲資深技術專家,視訊雲技術研發負責人。加入阿里巴巴之前曾就職於美國 Facebook 和微軟,在微軟擔任 Principal Software Engineer,從事視訊編碼和視訊雲的研發,在 Facebook 負責實時音視訊和直播技術的研發,短短几年內將 Facebook Messenger 和 Facebook Live 兩款產品從零打造成擁有 10 億級使用者的明星產品。
“音視訊具有天然的雲原生屬性,‘雲 + 端 + 服務’是未來音視訊發展的大趨勢。” 這是阿里雲智慧視訊雲資深技術專家,視訊雲技術研發負責人何亞明做出的判斷。
在何亞明看來,音視訊的發展一直是雲原生的最佳實踐:雲的基礎設施 —— 包括中心節點、邊緣節點、CDN 網路是保障音視訊大規模分發和傳輸的基礎;雲的計算能力和隨意的彈效能力,給音視訊業務帶來無限的算力的同時還能有效控制成本,衍生出更多新場景。另外,在音視訊端側裝置越來越豐富的今天,“雲” 與 “端” 的協同顯得愈發重要,2020 年,阿里雲提出了 “雲端一體 “的戰略,在這樣的大背景下,其路徑優勢愈發凸顯 —— 依託阿里雲強大的雲上算力,可以讓端變得更智慧,更輕便,更靈活,讓開發者打造出千人千面的創新應用,其開發效率、運維成本、延展性都得到了極大優化。在 “雲端一體,雲邊一體,軟硬一體” 的進擊之路上,何亞明特別強調了 AI 在其中的重要作用 ——“我們特別強調 AI 的應用落地,從智慧視訊編碼,影像增強到超解析度,從智慧美顏、虛擬背景、美聲變聲到視訊卡通化,可以說我們是在舉全集團的 AI 之力,在推動音視訊場景走向更廣闊的空間。”
(阿里雲智慧視訊雲參與科技冬奧 - 雲轉播平臺國家重點研發專案)
“此次峰會,阿里雲視訊雲帶來的專場主題是‘從上雲到創新,視訊雲的新技術與新場景’,在這裡我想特別強調‘創新’這個詞,上雲已經是視訊行業的共識,並且基本完成了雲原生化的程式,我們真正面臨的難題是如何在雲上完成下階段的創新,各家廠商應該從提供資源和工具,向提供服務和生態這個轉變作為突破口” 何亞明如是說。
目前,國內頭部的雲廠商大多擁有強大的技術服務能力和完備的內容消費生態,讓視訊產品服務化,通過 API 化,PaaS 服務,PaaS+,SaaS 工具,端上 SDK,低程式碼平臺等手段減低視訊技術的接入門檻,更好地服務開發者,最終更好的服務視訊的生產和消費者。
如今,面對國內頭部雲廠商在視訊雲領域的激烈競爭,何亞明看到的更多的是機遇:“這是我們非常願意看到的趨勢,也正是我們不斷推動行業前進的結果,阿里雲也希望越來越多的有志之士加入到視訊雲的隊伍中來,一起將視聽帶入新的時代。”
技術和場景:視訊雲面向未來的創新與挑戰
在 2021 年 5 月北京舉辦的阿里雲智慧雲峰會上,阿里雲智慧事業群總裁張建鋒宣佈阿里雲將在 “做深基礎、做厚中臺、做強生態” 基礎上,新增 “做好服務” 作為重要戰略。視訊雲技術作為雲端計算、人工智慧、網路等技術與行業場景結合非常緊密的領域,阿里雲一直堅持於底層技術的深耕、中臺技術的應用和服務場景的創新。
視訊編解碼是阿里巴巴在業界一直具有優勢地位的技術領域,也是集團堅持於音視訊基礎技術研究的具體行動。阿里雲視訊標準團隊在 2020 年中剛剛結束緊張的新一代國際視訊編解碼標準 H.266/VVC 的技術開發工作,就第一時間投入人力開始大力推進基於 H.266/VVC 的編解碼器開發工作。隨後不久阿里雲釋出了實時高清編解碼器 Ali266,有力推動了 H.266/VVC 標準應用的落地,真正開啟 H.266/VVC 的商用之路。
在談到 Ali266 的研發難點時,葉琰說:“一個成熟的商用編碼器必須通過演算法的深度優化才能滿足實時編碼速度的要求,為了拿到 H.266/VVC 所提供的強大壓縮效能,必須針對輸入視訊內容從 VVC 所提供的眾多編碼工具中又快又準地選擇最合理的編碼工具。所以我們開發 Ali266 也是沿著這個軌跡,深入 VVC 編碼工具集,通過對各個編碼工具進行定性和定量的研究,來幫助我們進行編碼工具的選擇。同時,我們在演算法優化過程中也格外關注主觀質量,遇到與客觀質量指標之間的衝突時,我們會更加傾向於保證更高的主觀質量,也就是保證最終的使用者體驗。Ali266 能夠第一時間達到實時高清和實時全高清的編碼速度,同時和 HEVC 的編碼效能拉開足夠的差距,和我們採取這樣的開發策略有直接的關係,現在興起的 VR/MR 需要更高解析度的視訊格式作為技術底座支撐,因此 VVC 所提供的頻寬節省能力也更加可貴。所以我們會持續投入開發 Ali266,讓它能越跑越快,在不久的將來達到超高清 4K 甚至 8K 的實時編碼能力。也會為更加高效的編解碼標準提供很好的落地場景。”
不僅是在音視訊技術領域的深耕,隨著阿里雲視訊雲業務與阿里集團整體業務的深入融合以及行業客戶的深耕實踐,阿里雲視訊雲與人民日報新媒體、淘寶直播、LAZADA、優酷等內外部客戶的場景合作也愈發豐富。2018 年,阿里雲與奧林匹克廣播服務公司聯手打造奧林匹克轉播雲 OBS Cloud。今年,奧林匹克轉播雲在東京奧運會上首次投入使用,為全球轉播機構提供雲上轉播支援,這是奧運歷史上首次採用雲端計算支撐全球視訊轉播,讓全球觀眾在雲上突破了疫情的阻隔。
(2020 年東京奧運會,阿里雲與國際奧委會合作,實現全程 “奧運上雲”)
面對還將持續的全球疫情,何亞明預計視訊技術的需求還將會在直播、會議、電商、娛樂、協作方面繼續保持增長 ——“隨著 5G,AR,VR 技術的發展和基礎設施的完善,更低的延遲( < 100ms),更高清(8K+),更沉浸式(3D 全息,環繞音效)的互動方式將會改變很多行業,除了人與人,音視訊也會讓人與物,物與物之間建立更多的聯絡,人類的互動方式將再一次升級。記得媒體界流行的一句話:最初即最終。意思是人類最早是靠視覺來接受資訊,感受這個世界的,從最初的語音到文字到圖片再到視訊,最終又回到了最初的形態。我認為這個論斷不完全對,視訊的互動形態還在不斷演進,電影 Matrix 和頭號玩家,包括最近很火的元宇宙已經給我們描繪了一個未來交流形式的腦洞。”
從上雲到創新,視訊雲的新技術與新場景
Topic
⏰ 活動時間:2021/10/30 14:00-18:00
? 參與方式:座標北京,線下參與(免費)
掃描圖中二維碼或點選閱讀原文
瞭解專場活動更多資訊
↓↓↓
掃碼入群
瞭解更多 LVS 大會和視訊雲資訊
↓↓↓
「視訊雲技術」你最值得關注的音視訊技術公眾號,每週推送來自阿里雲一線的實踐技術文章,在這裡與音視訊領域一流工程師交流切磋。公眾號後臺回覆【技術】可加入阿里雲視訊雲產品技術交流群,和業內大咖一起探討音視訊技術,獲取更多行業最新資訊。