軟硬協同:基於倚天的影片雲編碼效能升級

阿里雲影片雲發表於2022-12-14
算力時代,靠吃「硬體紅利」便能搞定新應用場景的「甜蜜期」已經過去。

人類社會的每一次科技躍遷,其本質都是計算力的突破與演進。
 
算盤撥出農耕文明的繁榮,機械計算機催生出第一次工業革命的嫋嫋蒸汽,而云計算的發展讓萬物互聯成為真正可能。
 
在資料爆發式增長以及演算法日益精進的大背景下,屬於「算力」的時代儼然到來。

 
以音影片行業為例,趨近飽和的場景滲透率、使用者對體驗的極致追求、多元化的場景及技術需求,為底層算力和影片編碼能力帶來更大的挑戰。
 
然而,在算力需求暴漲的同時,摩爾定律的演進速度卻在放緩,「硬體紅利」已然見底。
 
對於整個影片雲賽道的算力困局,不僅需要上層軟體系統的最佳化,也需要在底層硬體基礎設施上,尋求破局之法。
 

01風口之下的算力困境

 
我們已經邁入社會影片化時代。影片無處不在,由此產生的流量已呈井噴式增長。
 
據《2022年中國網路視聽發展研究報告》披露,截至2021年12月,我國網路影片(含短影片)使用者規模達9.75億,較2020年12 月增長4794萬,佔網民整體的94.5%。
 
網路視聽正成為大眾的娛樂剛需,影片正在成為各行業連線客戶最廣泛的載體,也成為各巨頭搶佔風口的關鍵點。
 
而在5G時代,影片流量將進一步增長。

影片流量激增的另一大原因,是使用者對影片體驗的「不將就」。

在影片規模持續增長的同時,隨著網路和終端硬體裝置的迭代,使用者對影片清晰度體驗的追求持續提升;影片超高畫質化也是繼影片數字化之後的新一輪重大技術革新。
 
移動網際網路終端觀看解析度從最開始的360P,480P,快速提升到720P,1080P以及近年出現的4K/8K超高畫質影片。
 
當前,國家也連續出臺超高畫質產業支援措施並加速應用,如:5G+8K超高畫質技術在冬奧會和春晚實現商用;體育直播開始進入到4K HDR直播時代。
 
除了高解析度,沉浸式影片體驗還追求高幀率和寬色域,而每一次解析度的提升,幀率的提升,色域增加帶來的都是影片資訊量的成倍增加。
 
因此,需要技術解決方案能更快應對更高畫質晰度、更低時延的影片編解碼和轉碼,滿足高畫質、高幀率、寬色域影片所帶來的不斷“擴容”的音影片資料流。
 

02難以調和的「影片編解碼」矛盾

 
由於Raw(原始影像編碼資料)影片資料是非常大的,如果不進行編碼和壓縮,不論是影片的儲存還是傳輸,都將帶來很大的麻煩,影片編碼技術便是由此而來。
 
影片編解碼起源於廣播電視,從1951年第一部數字電視和廣播誕生起,廣播電視在很長一段時間裡是影片編解碼技術變革的核心推動力。
 
而到網際網路時代,隨著網際網路的高速發展,使用網際網路的使用者和影片流量出現井噴式增長,網際網路成為影片編碼的主戰場。
 
為了應對影片流量的不斷增長,影片標準組織一直在推動影片編碼技術的持續迭代。
 
從MPEG2開始,影片編碼標準壓縮率大約每10年提升50%,以2021年推出的h.266為例:相對於h.265壓縮率提升50%,但其編碼計算成本提升15倍。
 
圖片 1.png
 
然而,使用者對影片極致體驗的追求與影片編碼的演進其實存在著巨大的矛盾。
 
❖ 編碼標準升級速度遠慢於影片資訊量膨脹的速度:「十年磨一劍」的影片編解碼技術(10年50%壓縮率的提升)已經遠遠慢於影片化和體驗升級帶來的流量增長(過去3年音影片流量已高達68.9%的增速),而未來頻寬壓力會越來越大。
 
❖ 新編碼標準壓縮率的提升遠低於影片解析度提升的速度:每一代編碼標準的演進,都是在不斷探索極限壓縮率。新一代的編碼標準對比上一代的標準通常有50%的壓縮率提升。然而如果影片解析度每提升一檔,比如360P到720P,則會使資訊量增加4倍。
 
❖ 新編碼標準複雜度的增加遠高於CPU處理能力的增加:新一代的編碼標準對比上一代的標準大多增加10倍以上的複雜度,遠高於CPU處理能力的增強,而影片編碼的高複雜度導致編碼技術難以普惠,尤其在實時場景。
 
隨著AR,VR時代的到來,4K-8K高解析度,60-120FPS高幀率,10-12bit寬色域,讓影片的資訊量更是成倍增加;加之低延時意味著對編碼速度有更高的要求;而CPU晶片處理能力也不再遵循摩爾定律快速增長,影片體驗-頻寬-計算成本-編碼速度的矛和盾的衝突會越來越嚴重。
 

03軟硬協同,錨定效能升級

 
影片編碼與影片處理為計算密集型場景,面對影片雲賽道的算力困局,如何讓高壓縮率的編碼演算法,更加普惠?

解法是:軟硬協同+深度自研編碼核心。

在該方向,我們一直在持續最佳化、迭代,而倚天ECS的出現帶來更好的答案。
 
2021年雲棲大會,阿里平頭哥釋出首顆為雲而生的CPU晶片倚天710,該晶片針對雲場景研發,同時兼顧了效能與易用性。
 
經過一年的業務驗證,倚天710已大規模部署並提供雲上服務,算力價效比提升超30%,單位算力功耗降低60%
 
圖片1.5.png
 
搭載倚天710的ECS自設計初就是一款雲原生伺服器,憑藉其靈活、先進、彈性的雲原生晶片特性和優異的CPU算力,超低功耗,與影片雲的轉碼服務特點強匹配,為影片云云原生轉碼業務帶來更多可能。
 
圖片 2.png
 
基於倚天ECS,阿里雲影片雲與平頭哥資料中心解決方案團隊聯合,對s264、s265編碼器進行深度最佳化。
 
最終實現:相對於C7,轉碼效能提升30%,在8K直播場景中提升達到33%,助力更普惠,更高畫質的轉碼服務。
 

04四維最佳化,釋放「軟硬結合」最大效能

 
基於阿里自研的倚天710晶片進行最佳化,透過深度重構影片編碼資料結構、並行框架,重新調優快速演算法策略,從軟體、彙編、硬體層面跨層深度最佳化,打造ARM友好的影片編碼器的同時,塑造極致效能。
 
主要體現在以下四方面的核心最佳化:
 

計算密集型彙編最佳化

 
計算密集型函式透過彙編實現單指令多資料操作最佳化,除常規彙編指令最佳化外,基於倚天710的特點,在影片編碼中充分利用可伸縮向量指令集,mmla型別高併發指令的優勢,塑造更高的彙編加速比,總體效能提升40%
 
例如:在ME搜尋最佳化中,結合710 SVE暫存器預取特性,設計記憶體預取演算法以及暫存器訪問流程最佳化,大幅降低記憶體訪問次數,如一次六邊形搜尋,可以減少3.8倍行訪問次數。
 
圖片 3.png
 

計算函式並行最佳化

 
在計算密集型函式彙編最佳化基礎上,充分對有效能增益但原本序列處理資料的演算法(如SDH)進行並行處理最佳化,並實現基於ARM平臺的彙編版本程式碼,在壓縮效能基本一致的情況下函式速度效能提升約40%
 
圖片 4.png

偏控制函式最佳化

 
根據倚天710晶片特性,我們重構了影片編碼資料結構,並行框架,同時重新調優了快速演算法策略,聯合提升總體效能,例如快速演算法checkSkip,Earlyskip等,總體效能提升20%
 

系統層最佳化

 
在演算法最佳化的基礎上,針對影片轉碼特點,結合倚天710平臺和影片雲特有場景下進行系統配置最佳化,將二者結合的能力發揮到最大。
 
目前倚天ECS已經在影片雲點播上線,效能提升30%,壓縮率提升5%,同時阿里雲影片雲同步探索AI輔助影片編碼方向。
 
初步結果顯示:藉助倚天ECS的超強算力,倚天ECS在Saliencymap推理上成本低於G6ni 50%以上,在窄帶高畫質的普惠化方面展現出了巨大空間。
 
未來,我們將基於自研處理器展開預研,深度結合影片雲業務,沉澱影片雲技術能力,從架構、指令、訪存等方面最佳化設計。
 
同時,繼續與平頭哥開展深度合作,共建軟硬體結合自研晶片競爭力,演算法、加速庫、驅動、韌體一體化設計,不斷探索創新音影片技術,加強其在更多影片應用、更多終端裝置上的普適性。
 
將更多的技術普惠到廣大消費者,賦能千行百業的影片化需求,催生新興產品形態和業務模式,為客戶提供更快、更省、更低功耗、更高畫質、更實時的編碼力,併為廣大觀眾帶來更極致的視聽體驗和更創新的互動玩法。

相關文章