淘寶直播再升級!淘系自研GRTN 新一代多媒體傳輸網路

阿里巴巴淘系技術發表於2020-12-01

相信大家對網路直播已經不再陌生了。

2016年被稱為直播元年,基礎技術逐漸成熟,引出千播大戰。在紅海下,純粹的直播逐漸失去競爭力,不少企業開始走內容垂直化,跟秀場、遊戲、電商、廣電等內容特點深度結合。其中內容垂直化最為成功的,莫過於電商直播。據一些行業調查報告,2020年中國電商直播市場規模接近萬億元,年增長超過100%,增長勢頭強勁。2020年S1疫情爆發,電商為病毒隔離貢獻巨大,同時疫情也為電商直播購物按下了加速鍵。

電商體系中,多媒體傳輸網路處於關鍵位置,承載著內容中臺的基座。

image.png

電商內容體系架構圖

電商體系中,內容中臺為主要增長引擎。2020年淘寶雙十一GMV達到4982億,淘寶直播頻寬峰值超過7T,比去年增長超過1倍。直播玩法、使用者體驗、系統穩定性都比去年大幅提升,GRTN(Global Realtime Transport Network)新一代多媒體傳輸網路為雙十一的增長保駕護航,整個雙十一期間,系統如絲般順滑。

(淘寶直播專題內容正在更新,歡迎關注【淘系技術】公眾號)

GRTN新一代多媒體傳輸網路架構

多媒體傳輸網路,是不是就是CDN?答案當然是否定的,CDN只是傳輸網路的一部分。多媒體傳輸網路包括內容生產、編解碼、內容分發、觀看體驗、巨集觀控制。GRTN是一套從生產到消費,從功能到管控的完整的系統。

image.png

GRTN新一代多媒體傳輸網路架構

內容生產:讓直播更好玩

淘寶直播走到現在已經5個年頭,主播的能力有了很大提高,我們的權益互動也做了很多創新,今年我們更注重直播的內容,我們希望主播在直播賣貨的同時,也能產生很多很有趣的內容,讓大家買買買的同時,保持好心情。所以我們重點做了直播遊戲互動玩法,使得直播在賣貨的同時也能更加有趣好玩。

4444.gif 666.gif 777.gif

內容生產流內互動的系統主要分為3個部分:功能強大的素材玩法編輯器、靈活通用的指令碼編輯器、跨平臺渲染計算引擎。編輯器是內容生產的使用者介面,提供各種素材、玩法的編輯能力。然而,有時簡單的素材和玩法不能滿足需求,需要用一套指令碼來控制素材和玩法的執行,為了降低指令碼開發難度,指令碼必須靈活通用。最後所有的素材、玩法要在流裡面展現出來,必須依靠渲染計算引擎。

編解碼:成本更低,體驗更好

S265是直播成本極佳的編解碼方案

頻寬是直播運營中最大的成本,根據前瞻網估算算全行業2020年的CDN費用支出將超過300億元,在2025年接近1000億規模(https://bg.qianzhan.com/trends/detail/506/200715-ec767b9b.html),在保證視訊質量的前提下降低頻寬是成本控制中至關重要的一環。

相機採集到的視訊數字訊號通常是yuv格式,每個畫素點需要1.5個Byte來表示,以720p 25fps為例,頻寬有263.67Mbps,直播1小時總流量有124.4GB,如有100萬人觀看這場直播,CDN費用高達1.58億。好在視訊影像內部幀與幀之間存在非常高的相關性,採用視訊壓縮技術去除相關性後,可以將頻寬降低到原來的100-400倍;

視訊壓縮標準主要有ISO(國際標準組織)制定的MPEG系列和ITU(國際電信聯盟)主導的H.26X系列,2003年兩大組織組成聯合專家組(JVT),共同制定了AVC(H.264)編碼標準,2013年JVT釋出了HEVC(H.265)標準,HEVC 作為比AVC更新一代的視訊壓縮標準,相同畫質下可以節省一半位元速率.

S265是基於H.265標準實現的軟編碼器,具有高壓縮、高效率、適應場景廣三大特點,對比業界開源的X265可節約20%以上的位元速率且編碼速度提升100%-600%;目前已在淘寶直播、優酷視訊、阿里雲MTS、VMate、釘釘會議等業務中上線使用;

S265的優化思路包含兩個方面,一方面從位元速率控制、編碼工具兩個方向優化編碼質量,另一方面從快速演算法及工程優化兩方面優化編碼速度,下表可以看到,S265相比X265和X264都有更高的位元速率優勢或速度優勢;

image

下面是一個demo視訊,左邊是S265的壓縮結果,右邊是X265的壓縮結果。可以看到,同等位元速率下S265的地面瓷磚的紋理及水紋更清晰(語雀有二次壓縮,原片更明顯)

output.mp4

左邊S265,右邊X265

從另一個角度看,相同質量下,S265的位元速率可以大幅節省,從而降低頻寬成本。下圖左側是X264的壓縮2400kbps,右側是S265 1200kbps的結果,位元速率相差一倍,S265的質量還更好。

45_x264_ali265.mp4

過去一年,淘寶直播的線上規模增加超過一倍,而CDN的頻寬成本幾乎未增加,這還是在FY20相比FY19已經降低一倍的前提下發生,S265起到了至關重要的作用。

S265降低成本前提下不降體驗

雖然S265大幅降低了直播成本,但體驗並未降低。

在清晰度方面,淘寶直播S265 在720p解析度下的平均推流位元速率在 800kbs以下,但大盤監控的平均psnr大於42db。在今年雙十一還上線了1080p高清直播,滿足使用者極致高清的需求。

在流量控制方面,S265支援秒級位元速率調控,可以讓GRTN流量排程在1秒內完成對大盤流量的控制,實現CDN流量的全面掌控;

在編碼延時方面,S265實現了低延時壓縮模式,相比X265 Medium模式降低了70%的編碼延,且編碼質量幾乎不損失。

最後,伴隨著位元速率降低,網路傳輸的壓力也相應下降,使用者體驗的卡頓率和秒開指標都有顯著提升,過去一年淘寶直播的卡頓vv下降了25%,秒開率絕對值提升了1%,跟位元速率下降有直接的關係。

內容分發:二網合一的傳輸系統

在流媒體領域,提到直播技術,往往會想到RTMP、HTTP-FLV、QUIC-FLV、SRT,只有提到連麥、通話、視訊會議,才會想到RTC(webrtc)。如今淘寶直播架構整體升級,一改往日印象,將直播全鏈路跑在了RTC之上,實現了直播網和通訊網的融合,完成了二網合一。

統一架構後,實時音視訊通話和直播兩大業務,使用統一套程式碼,一套運維體系,減少維護成本。同時,淘寶直播針對業務特點,對融合網路架構進行了深度定製,自研了適合直播業務的擁塞控制演算法和網路傳輸策略。針對 WebRTC 中網路傳輸的核心,淘寶直播對擁塞控制演算法的探索層層深入。從基於特定網路場景的深度定製優化,到系統性的引數探測優化,再到基於神經網路的擁塞控制演算法相關的前沿探索,深度定製的優化落地,使得推流端卡頓總體下降 40% ,延遲也下降了 12%,主播推流更加平滑穩定;前沿探索的學術結果,也已經兩次由網路方向國際頂級會議 MobiCom 接收和發表。

低延遲傳輸是一個綜合性問題,對於直播來說要兼顧成本,體驗,延遲,需要客戶端,伺服器配合,基於線上資料不斷迭代。相關控制演算法從webrtc完整模組化剝離和重構,效能是webrtc原來實現的2倍以上,針對直播大的I幀場景深度定製優化,同時兼顧秒開和延遲,追求最大吞吐率。在網路小範圍抖動情況下不受影響,最大支援20%丟包和500ms內的抖動。相對於去年同期指標,卡頓率降低79%,卡頓VV降低44%,秒開率提升32%,延遲和首幀到達時間降低100多ms。

image.png

淘寶直播與其他直播應用對比

通過用秒錶內容推流,拍攝推流和播放內容的方式,測得端到端延時,手淘基本在2秒以下,而行業內大部分直播軟體還是FLV技術,延時通常在5秒以上。通過嚴格的AB測試證明,端到端延時降低,對促進GMV有正面效果。網路好時,對比卡頓沒有意義,大家卡頓率都為0,因此通過網損儀增加30%丟包、100ms延時測試,卡頓情況就不一樣了,由於RTC有擁塞控制、網路抗丟包策略,30%丟包完全無卡頓,而FLV直播則有較高的卡頓率。

後續會繼續在統一的直播通訊網上優化,不斷提高淘寶直播的使用者體驗,敬請期待。

觀看體驗:真實還原現場

阿里集團CTO程立分享了他購買古琴的經歷,買古琴不能通過常規的圖文描述來分辨古琴的好壞,賣家將程立引導到直播間,通過主播講解,在直播間聽聲音來分辨古琴好壞。買到琴後發現琴的聲音跟直播間裡聽到的完全一樣,CTO對淘寶樂器直播間的音質大加讚賞,這種所見即所得的感覺是直播最大的優勢。

“讓畫面更清晰,讓聲音更真實”,是淘寶直播的極致追求。淘寶直播通過自研3A、智慧降噪、高音質模式、窄帶高清等技術,克服生產裝置、觀看裝置及網路條件多樣性適配困難,為主播提供低成本直播方案,為觀眾打造高清音視訊體驗。

音樂直播間高保真體驗:

音樂直播間.mp3

電商直播中,講解聲音的清晰度直接影響溝通效率,因此要儘量遮蔽干擾聲音,降噪能力至關重要,淘寶直播團隊在智慧降噪上深入研究,在技術上創新,比傳統技術降噪能力更強,降噪後聲音可懂度更高。

降噪前原始語音:

原始語音.mp3

通過AliDenoise智慧降噪後的語音:

AliDenoise語音.mp3

在畫質上,淘寶直播團隊通過去抖、降噪、超分等技術,實現畫質增強。並且藉助S265編碼器高壓縮率的優勢,我們以業界720p的位元速率實現了1080P解析度的高清直播。

720p_1080p.mp4

左邊720P,右邊1080P

巨集觀控制:大象也能跳舞

無論怎麼設計,系統的複雜度都會逐漸增加,變成一頭臃腫的大象。一般的系統,牽一髮而動全身,平時已不敢隨意變動,更何況大促等關鍵時刻。然而淘寶直播今年打造了巨集觀控制系統,讓這頭大象靈活起來,資料系統如同大象的眼鏡、智慧策略系統如同大象的大腦、任務執行系統如同大象的四肢,而業務策略配置系統如同馴獸師手裡的指揮棍。

巨集觀控制系統將複雜系統閉環,使得整個系統能觀能控,增強了系統的魯棒性。巨集觀控制系統的輸入是當前主播的編碼位元速率和直播效果等;基於blink搭建的多資料來源自糾錯的實時資料平臺作為檢測環節將當前的線上主播數、線上觀眾數、CDN頻寬、以及預測的接下來一段時間內的各個資料清洗統計後輸入至決策系統;決策系統融合了限峰策略、時間策略和大主播策略等多種策略,結合資料平臺的反饋資料作出最優決策後通知執行模組進行調控;基於集團多維訊息群發中介軟體MASS與長連通道ACCS實現的執行模組會實時調控主播的編碼位元速率、觀眾觀看的清晰度等,實現提高頻寬利用率、提高使用者體驗、降低成本、確保穩定的目的;客戶端編碼器支援實時動態調整編碼位元速率和智慧碼控檔位,支援幀級實時調控,位元速率調控秒級生效。巨集觀控制系統讓資源管控更加彈性,在我們無法準確預見未來時,申請資源以及準備資源是一個大難題,有了巨集觀控制系統情況後,不用為資源預估不準而犯愁,巨集觀控制系統可以根據實時資料進行預測並且彈性地調整人均消耗的資源。

image.png

巨集觀控制對頻寬調整的效果

在今年雙十一期間,巨集觀控制系統通過上下調整位元速率等策略,實現了人均消耗頻寬在平時的0.5倍~1.5倍之間浮動。再也不用因為線上人數偏低而浪費頻寬,也不用因為線上人數偏高而導致部分使用者被限流,值班同學可以安心地邊吃零食邊看直播了。

內容生產通過AI等技術,產生更有趣的直播內容,然後通過高效率的S265壓縮演算法編碼,得到較低的音視訊位元速率,在然後通過去中心化的RTC網路分發到各個觀眾,最後通過高質量的觀看體驗,真實還原現場,整個系統需要巨集觀控制頻寬、質量,需要有一個系統從大局控制。

今年淘寶直播全方位升級換代,整個系統內容比較多,接下來將會對這一些列技術展開描述,敬請關注後續的子主題。

(淘寶直播專題內容正在更新,歡迎關注【淘系技術】公眾號)

相關文章