在 2021 雲棲大會《產業視訊化創新與最佳實踐》視訊雲主題論壇中,阿里雲智慧高階技術專家在《AliRTC 開啟視訊互動 "零處理" 時代》的主題演講中,釋出了阿里雲視訊雲下一代實時互動解決方案 —RTC “零處理”,同時分享了阿里雲視訊雲在 RTC 產品的探索和實踐,以下為演講內容整理。
一、互動演進與挑戰
在過去幾年,視訊互動產品發生了什麼變化?
我們認為 RTC 產品對行業產生了兩次非常重要的變革。
第一次變革是 2014 年開始的互動從圖文到音視訊的升級。
2014 年,網際網路創業者與 RTC 產品供應商一起探索視訊互動的商業化, 教育、娛樂成為主要的突破方向, 基於全球範圍內的互動授課、秀場視訊連麥、多人交友互動,也大多在這時間點完成了商業與技術的成功結合。
2017 年是一個標誌性的時間點,RTC 產品已經幫助頭部網際網路客戶實現了顛覆性發展,標誌著互動視訊技術與線上互動商業模式的成熟。
接下來幾年更多的是不同體量、不同場景的規模複製,所以我們能看到,在 2018 年以及後續的幾年,市場上並沒有新場景、新互動的創新,而是基於不同內容、不同客群的業務複製, 視訊互動從頭部走向更多的細分市場。
第二個重要變革發生在 2020 年,受疫情影響,讓雲視訊會議全面滲透,讓這個時間提前了至少 5 年。
這次市場的變化,我們不能稱之為一次技術革命,實際上對 RTC 產品並沒有新的訴求,也沒有產生新的互動場景和技術,但這次大規模的滲透,重新定義了供應商的市場格局,第一次讓雲廠商成為了市場極其重要的一部分,讓市場從單一的會議廠商,分裂為雲平臺 + 會議終端供應商,讓我們的客戶有了更多的選擇。
從 2018 年到現在我們沒有場景上的根本突破,是不是因為我們的技術上遇到了瓶頸?
帶著這樣的問題,阿里雲對 RTC 場景技術進行了深入的技術評測,我們試圖發現整個行業大家的技術水位是什麼樣的,不同於單項的視訊技術,RTC 的評測要更為複雜。
例如,對視訊編碼,我們可以通過 PSNR,SSIM,VMAF 等來分析,對於視訊分類等視覺演算法,我們可以通過 ROC 曲線來分析,但對視訊 RTC 來說,涉及的主觀感受非常多,是一件比較複雜的事情,目前業界也沒有統一的評測標準。
我們從這些影響使用者感受的指標裡面抽出六個維度表徵 RTC 的表現質量。
對評測感興趣的話可以關注我們的「視訊雲技術」公眾號,裡面詳細介紹了我們怎麼進行自動化評測的,評測過程中我們會創造不同的網路環境,檢測 RTC 在各方面的表現。
我們對行業裡的 RTC 做了一些評測,發現有兩個特點。
第一,RTC 有明顯的技術門檻,比如說綠色的框代表一類典型的 RTC 能力,由規模較小的團隊自研,投入較小,會有明顯的差距。
第二個是幾個比較大的供應商,包括在阿里雲在內,外面這一圈,紅色的線、藍色的線,以及黃色的線,他們都處於相對比較一致的水平,但是沒有一家有特別優秀的地方,所以技術同質化特別嚴重,大家基本上處於同樣的水平。
我們當前視訊的實時互動主要集中線上上線下場景,未來可能會有更廣闊的應用場景,比如說一些互動場景,VR 操控類、虛擬現實類。
這時候我們會思考一個問題,我們的技術是不是已經發展到了瓶頸期,我們無法滿足未來更廣泛的需求,這後面的原因是什麼?會不會是我們的技術發展到某個瓶頸了?因為技術通常是階躍式的發展,不能突破就會陷入在一個層次上。
二、“零處理” 加速互動升級
我們希望分析一下,現在使用者的體驗到底怎麼樣?我們現在的技術存在什麼問題?
通過比較各家 RTC 供應商,我們發現一個比較有意思的點,就是大家有千分之二的卡頓率是難以消除的。50%、60% 的丟包都可以做的很好,但是如果網路頻寬受限,千分之二的卡頓就難以消除了。
我們有一些手段可以解決類似的問題,比如利用窄帶高清技術,我們可以通過複雜計算解決這些問題,也可以通過非標螢幕編碼類技術解決,但是實際上我們很難把這些技術進行非常廣泛的利用。
最根本的原因是我們會發現端側能力是有限制的,大家的手機各不相同,有可能有些人的手機特別好,可以做複雜演算法,有些人手機差,無法進行復雜演算法,同時,端的碎片化比較嚴重,要對所有端適配是比較困難的。
在應用上我們希望能夠提供更有趣的互動,比如說實時生成卡通人物形象,這在端上可以執行,但是隻有少數非常強大的裝置才能執行。
一個自然的想法是,我們是不是能突破當前的應用架構?
我們把一個完全依賴端能力的架構,逐步轉變成依靠雲和端一起配合進行視訊傳輸處理的架構,基於這個想法我們提出了雲處理 + 端渲染技術,目的是希望從雲上提供強大的處理能力,端上負責渲染,只需要提供很少的處理能力就能完成比較好的處理效果,使大家在不同的手機上都能得到一樣的體驗。
這就是視訊雲“零處理” 解決方案的基本架構圖,在端上只需要進行比較簡單的視訊採集以及視訊傳輸,然後通過我們構建的覆蓋全球的 GRTN 網路到達雲端,雲端使用 GRTP 的雲端實時處理引擎對視訊進行處理,再把處理好的視訊傳到端上,端上只需要做簡單的呈現。這樣可以很好的解決剛才提到端計算能力不夠和碎片化的問題。
但是天下沒有免費的午餐,採用上面的架構,很容易發現幾個問題。
第一,我們的雲上是不是能承受這麼大規模的處理。
第二,雲上能不能承擔這麼大規模的成本。
第三,雲上能不能持續提供這麼多型別的處理服務。
我們自己的信心來自於幾個方面。
第一,通過阿里多年的積累,我們積累了業界最大規模的雲上視訊處理叢集,所以我們在技術上已經具備承擔超大規模處理的能力。
第二,關於成本。
下圖是我們處理的一張業務圖的示例圖,橫座標是時間,縱座標是資源使用量,黑色的線一種業務,紅色線是另一種業務,可以看到,每種業務都存在大量的業務空閒期,業務空閒期可以讓我們有大量資源供我們複用,當我們把多種業務混跑時,就能把資源利用起來,大幅度降低成本。
除了在時間上的混跑,我們也可以通過空間上的混跑和異構的混跑,將整體的成本降下來。
第三,由於我們背靠阿里集團,包括我們自己也有很多視訊演算法處理積累,所以我們有機會持續不斷的提供豐富的演算法和處理能力。
三、“零處理” 實踐分享
接下來是阿里雲視訊雲在零處理的實踐。
第一個場景是使用 MCU 解放端側算力。
通常情況下,我們做 RTC 直播時,觀眾看到的直播畫面是通過 RTMP 協議來完成的,這種情況下由於延遲的原因觀眾是無法參與到直播互動的。要增強觀眾的互動性,需要大家都加入 RTC 網路,每個端訂閱多個流對端的算力和網路流量都是非常大的負擔。
我們通過雲端的 MCU 把流合併,重新進入到 RTC 會議裡,這樣觀眾可以通過 RTC 方式看到直播流,非常方便進行互動,同時也無需消耗過多的端上資源。這種模式我們稱為互動低延時模式,已經是我們一個成熟的產品能力。
第二個場景,雲轉推。
這是一個我們打通阿里內部服務能力的例子,我們通過和阿里集團安全部的合作,將 RTC 的流通過內網和安全部的產品打通,減少了中間環節,實現低成本、低延遲的內容稽核。
第三個場景,雲特效。
相信這個場景大家已經看過,利用雲端的處理,我們實現了虛擬會議室,通過雲端的 MCU 將所有人進行摳圖 + 貼圖,來提升視訊會議時的參會體驗,這是阿里內部開會時已經可以運用到、並看到的技術。
上面展示的實時虛擬形象,是依託 GRTN 實時傳輸網路,將視訊流傳輸到雲端,雲端對視訊進行摳圖,變聲,卡通化等複雜的 AI 處理,終端只負責展示,從而實現了端側零處理。
“零處理“作為下一代實時互動解決方案,在雲廠商中率先推出,解決了新互動時代因端側算力受限而無法實現的虛擬互動場景難題,充分利用雲端一體的超精細算力,以雲特效構建實時虛擬場景,是全面開啟沉浸互動新世界的一項重要演進。
AliRTC 系列內容
阿里雲 RTC QoS 螢幕共享弱網優化之若干編碼器相關優化
阿里雲 RTC QoS 弱網對抗之 LTR 及其硬體解碼支援
「視訊雲技術」你最值得關注的音視訊技術公眾號,每週推送來自阿里雲一線的實踐技術文章,在這裡與音視訊領域一流工程師交流切磋。公眾號後臺回覆【技術】可加入阿里雲視訊雲產品技術交流群,和業內大咖一起探討音視訊技術,獲取更多行業最新資訊。