編解碼持續升級,「硬」實力鑄就影片雲最優解

阿里雲影片雲發表於2023-04-04
算力時代,影片雲需要怎樣的CPU?

在資料爆發式增長及演算法日益精進的大背景下,屬於「算力」的時代儼然到來。隨著影片成為網際網路流量的主角,日趨飽和的音影片場景滲透率、人類對“感官之限”的追求與突破、更多元化的場景探索及技術需求,為影片編碼能力和底層算力及硬體支援帶來更大的挑戰。

“影片雲作為音影片行業的基礎設施,能極大地簡化影片從採集、處理、編碼、傳輸到分發的全鏈路流程。”正如阿里雲影片雲技術負責人在《芯事》訪談中所提到的,阿里雲影片雲與倚天710一起,正在踏上影片普惠千行百業的新徵程。

點選連結檢視影片:https://www.eefocus.com/video/1462707.html

影片雲與倚天710的結合

2022年北京冬奧會,阿里雲承接了一項重要的任務,那就是支撐冬奧全面上雲。為此,阿里雲影片雲推出了全新的雲上創新解決方案——阿里雲聚“Alibaba Cloud ME”,這也是全球第一次在奧運會上實現異地全息會面,是一次打破時空之距的革命性創新。在感嘆雲上沉浸之旅的精妙之餘,我們不禁要問,阿里雲影片雲上路即狂奔的硬實力是什麼?除了使命必達的奮鬥精神和強大的軟體、演算法支撐能力以外,阿里雲影片雲技術負責人致凡還提到了倚天710

當我們將目光投射到倚天710上,會發現它誕生於2021年,是一款由平頭哥自研的雲晶片,經過一年多時間的硬體部署和業務驗證,倚天710例項已成功應用到阿里巴巴集團的核心業務中,並服務多家知名網際網路及科技公司。正是基於前期優良的表現,倚天710已在阿里雲資料中心部署,未來部署規模將繼續擴大。

當然,沒有一款晶片生來就如此強大,影片雲技術負責人談到:“影片雲和倚天710的結合是一段美好的旅程,但中間還是經歷了非常多的事情。”

回憶起這段旅程:“由於影片業務的增長速度是非常快的,研製一顆晶片的週期也非常長,不論是晶片研發、還是晶片落地後適配影片雲業務成長,都是極具挑戰的,但我們一起做好了正視挑戰、突破壁壘的準備。當第一版晶片流片回來後,晶片基本效能表現穩定,且由於Arm架構帶來的原生優勢,再加上阿里雲和平頭哥的同學雙方坐在一起,在瞭解晶片內部構成的基礎上去做了很多演算法調優後,能夠讓程式碼在晶片上跑得更快。

同時,倚天710還針對特定演算法場景進行了指令集加速與最佳化,比如像SVE等向量計算技術,其中BF16/INT8 mmla指令可實現高效的矩陣乘法運算,還支援Hash、CRC32等加速指令,可以讓單條指令並行處理更多資料,大幅提升影片編解碼、AI編解碼增強等場景效能,這是一個兩邊一起迭代的過程。”

所以,從最早的效能挑戰傳統架構CPU,到現在已經遠遠超過傳統架構CPU,倚天710的“蛻變”是一步一個腳印走過來的。影片雲技術負責人認為:“這是一個非常好的案例,阿里雲影片雲的業務跟平頭哥的晶片設計能夠完美地結合在一起,利用各自的優勢讓晶片設計出來,在影片行業中發揮更大的作用。”

談起平頭哥和阿里雲影片雲業務的這次合作,就不能不提到一個大的產業背景,即影片雲的爆發式增長。至於什麼是影片雲?“影片雲就像是音影片行業的水和電,是底層的基礎設施,可以大大簡化影片從採集、處理、編碼、傳輸到分發的鏈路。”這個比喻再恰當不過。

社會影片化在狂飆

從2017年開始,短影片的熱度持續上升,加上近三年疫情下直播、視訊會議、線上教學等領域的崛起,社會影片化成為一種大趨勢。根據CNNIC釋出的第50次《中國網際網路絡發展狀況統計報告》資料顯示,截至2022年6月,我國移動網際網路接入流量達1241億GB,同比增長20.2%;另根據思科釋出的資料顯示,影片內容約佔網際網路總流量的90%,佔行動網路總流量的64%。

結合這兩組資料,我們可以得出影片正在成為網際網路流量的主角,而爆炸性的資料量又將會對算力和儲存提出更大的挑戰。於是影片雲的價值被凸顯出來,並呈現出了一種不可逆的發展態勢。在這樣的大背景下,全球以網際網路公司為主的科技企業紛紛轉型,開啟影片雲技術的探索之旅,並在安防監控、遠端醫療、零售電商以及金融機構等典型場景中得到落地

當前,影片雲產業已經形成了相對穩定的頭部戰隊,包括微軟、AWS、阿里雲等主流雲廠商。關於國內影片雲的市場體量方面,根據IDC釋出的資料顯示,2022上半年中國影片雲市場規模達到50.5億美元,同比增長15.7%,預計到2026年,市場規模接近300億美元。值得一提的是,透過報告顯示,阿里雲影片雲連續5年佔據中國影片雲整體市場份額第一,並且滲透率還在不斷攀升。

影片產業倒逼技術迭代

對於影片雲產業來講,以線上影片為例,從最早國外的Livestream、國內的鬥魚直播到現在,已經經歷了25年的歷史,其實從技術的角度來看,整個行業發展的速度沒有想象中的快。比如,影片編碼從H.264到H.265,再到H.266,平均10年升級一代。為什麼速度不是很快?因為它要解決的問題比較多:算力、網路傳輸、標準等等。但是,我們看到今天的影片產業發展非常迅猛,這也倒逼技術要去完成快速迭代。這幾年已經初顯效果,比如現在編碼器的升級迭代速度是5年,以前是10年,預計後面可能是3年。

為什麼這裡要強調編碼?事實上,影片雲是一個算力密集型行業,影片資訊量很大,假如採用和文字、圖片一樣的壓縮模式,那麼還原度是不夠的,所以影片必須進行編碼處理。編碼要是做不好,不僅會損失影片質量,還會帶來傳輸難度高的問題。從MPEG2開始,每一代影片編碼的升級,其壓縮率大約可以提升50%,遠低於影片解析度每更新一代提升4倍的速度,即使這樣,每一代升級對CPU算力的需求,以及演算法複雜度都會提高至少10倍以上,這對晶片的架構、晶片底層的指令集最佳化、晶片的儲存器和cache結構都會帶來新的挑戰,很多核心的演算法要用新的指令集重新寫一遍,這意味著影片編碼和晶片成長是需要同步的

影片雲需要怎樣的CPU?

透過前面的介紹,我們瞭解到影片編碼對算力的要求很高,因為我們常常試圖用算力換儲存,用算力換傳輸頻寬,所以我們希望算力越高越好。

那麼如何提升CPU的算力?首先要選擇好的核心架構。在影片領域,傳統架構已經有三十幾年的歷史了,目前市佔率依然能達到90%以上的份額,但裹挾著沉重的向後相容包袱。而Arm作為一種精簡指令集,不僅沒有歷史包袱,還可以根據需求增加很多暫存器,同時從記憶體cache結構的設計和指令集的設計上面,能夠更貼合需要大算力的影片處理需求。此外,不管是Hyper-Threading還是其他,採用傳統架構的CPU走的都是提高主頻的路子,在影片處理時就會遇到一些問題,比如影片壓縮的時候會分成I幀、P幀、B幀,每一幀的算力並不是平均分配的,就會帶來對算力需求不穩定的問題。

所以為了讓晶片不跑超頻,就可能會做一些降頻處理,這時候它的算力就可能達不到相應的編碼需求。在實際業務中,由於影片業務不是單機執行的,會有很多的伺服器叢集配合來處理,為了防止CPU跑超等複雜情況的出現,就不得不把伺服器叢集的水位降低,這是傳統架構CPU比較大的問題。

然而,Arm整體的設計是比較穩定的,不管任務有多複雜,都能實現穩定輸出,做到良好的資源調配和水位調配,不用預留很多冗餘來防止晶片跑超,這對於to B業務來說非常重要。除了主頻高以外,傳統架構CPU的核不多,通常是兩個vCPU/HT共享一個物理核、1份ALU,但Arm可以實現128/256/512或更多的核,類似GPU的設計,如此一來,對於不同應用場景而言,就可以用少核應對低算力需求的場景多核應對高算力需求的場景,實現更優的業務調配,降低投入成本。以倚天710為例,內含128核CPU,主頻2.75GHz,可適配雲的不同應用場景。

與此同時,隨著資料上雲越來越多,對於資料中心而言,功耗效能也是非常重要的,對運營者來說,低功耗就意味著低成本,除了軟體層面的最佳化以外,倚天710能同時兼顧高效能和低功耗

以上要素疊加,就讓影片雲的頭部企業阿里雲與倚天710的結合看起來水到渠成。當前,倚天710已大規模部署並提供雲上服務,根據實踐反饋,倚天710讓阿里雲平臺的算力價效比提升了超30%,單位算力功耗降低了60%,這是一個相當大的進步。

探索一種平衡

縱觀影片雲產業,人們對體驗的極致追求,將成為影片雲持續深耕的動力。在雲應用場景下,CPU的發展之路將循著算力、I/O、網路協議適配、推理能力、從無到有的創造能力不斷演進下去。未來,Arm會成為影片雲中一種重要的架構,整體份額一定會增加,但不會是唯一的架構,傳統架構、異構的ASIC和FPGA都會有一席之地。而對於Arm架構而言,未來的改進方向是降低功耗、提高算力、做好專用性和通用性的選擇平衡

同時,我們要意識到,未來影片對算力的挑戰是非常高的,簡單地靠CPU的升級已經滿足不了需求,需要一些特殊的處理,包括越來越多的AI演算法、專用演算法,比如模型搜尋的演算法等,再把通用的模組部分地固化在晶片裡面,極大地提升影片處理的效率。

所以在影片雲市場,人們總是在做權衡,雲晶片廠商要處理好晶片能效和通用性的關係,雲服務商要在算力有限的情況下使用很多快速演算法。 而正如阿里雲影片雲技術負責人所強調的:“我們的願景都是一樣的,就是讓影片普惠各行各業,再反哺影片行業,實現更茁壯的發展。”

相關文章