騰訊全面上雲之後的首次春保:這裡的夜晚靜悄悄

騰訊雲原生發表於2023-02-06

除夕夜,是全國人民闔家團圓的日子,也是鵝廠這幫技術人最緊張的時刻——一年一度的春節重保

在這辭舊迎新的重要節點,全球十多億使用者透過微信和QQ拜年、發紅包,在朋友圈、QQ空間分享心情,透過微信影片號、騰訊影片等觀看春晚直播。

這些“新年俗”帶來的是秒級內增長几十倍甚至數百倍的流量洪峰,就像傳說中每年如約而至的“年獸”,稍有不慎,鵝廠系統就有被流量打崩的風險。

今年是騰訊自研業務全面上雲之後的首個春保,相比往年,不僅順利完成了護航任務,而且效率更高、質量更好、成本更低
究其原因,這與騰訊自研業務全面上雲、雲原生技術的大規模應用,以及多部門的統一協調密不可分。

百T流量,“雲”中排程

對於很多人來說,“看春晚”是除夕必做的事情。
無論是電視、電腦還是手機,春晚直播能夠做到高畫質、實時、順暢,都與直播平臺與直播技術提供方的技術保障密不可分。直播保障也是鵝廠技術團隊每年春保的重要任務之一。

如今,越來越多的人選擇透過微信影片號看春晚。加上今年豎屏春晚玩法升級,透過微信影片號豎屏看春晚的使用者達到了1.9億,相比去年1.2億的直播觀看人數有了大幅增長。

據測算,全網觀看直播的流量峰值在除夕夜達到近百T。微信影片號、騰訊影片等作為春晚的主要直播平臺,為應對瞬間的流量高峰,對網路速度和穩定性提出極高要求。

全面上雲之後,不管是微信影片號、騰訊影片等騰訊產品,還是騰訊雲支援的央影片等外部客戶,海量訪問流量都合併跑在騰訊雲直播平臺上。

相比起一條條小路各自設立紅綠燈和緩衝帶,這個統一的排程系統更為高效,大大提升了整體的資源利用率,也進一步降低了成本。平臺打造了完善的大盤監測系統,可以按秒級分析直播流的卡頓率、延遲情況與畫質清晰度等指標。

特別是在春晚精彩的抽獎環節、以及沈騰小品播出時段,面對陡然拉昇的流量衝擊,騰訊雲直播平臺建立了智慧化的調控方案。

其中,騰訊雲直播的極速高畫質能力,藉助AI自動適配網路情況,在網路不佳的時候降低直播位元速率。CDN 可透過智慧負載均衡系統,將使用者的直播訪問定位至最佳節點,避開網路擁塞,降低源站壓力。騰訊雲自研新一代 P2P 技術,則更好地利用了整體網路閒置頻寬,進一步降低 CDN 網路的壓力。

儲存有他,穩了

作為疫情防控進入新階段後的首個春節,節日氛圍分外濃烈。“團圓”來之不易,短暫的相聚讓數億使用者更加願意在朋友圈藉助圖片和影片分享喜悅之情,傳遞久違的年味兒。

相對應的,春節期間,資料的上傳下載量也遠超預期,除夕峰值達到平常均值的10倍以上。從技術層面來說,當微信使用者給朋友發圖片、影片,或者發表朋友圈、搶紅包的時候,不管是發出還是收到內容,背後都是騰訊儲存系統的一次讀寫。

過去,微信核心模組使用的是 TFS 儲存架構。這種架構雖然過去支撐不少騰訊產品打贏了“海量之戰”,但由於儲存叢集較小,無法充分調動不同叢集間的閒置資源,需要儲備大量資源用於故障恢復和應對突發。

全面上雲後,微信所用的物件儲存 COS,首次全面從TFS儲存引擎切換到最新的自研 YottaStore 架構。基於新一代儲存引擎 Yottastore,無論是儲存規模,還是 IO 能力都有比較大的提升:

作為一個雲原生的資料儲存系統,YottaStore 的一個叢集可以管理上千萬臺伺服器,叢集規模大了,叢集內的 IO 資源自然水漲船高。YottaStore 可以充分調動叢集內所有儲存節點 IO 能力,在春節影片和圖片這種高峰值的上傳下載場景中,能夠有效節省儲存資源,實現整體的降本增效。

同時,騰訊雲物件儲存 COS 結合自研業務的特點,充分發揮 YottaStore 引擎的優勢,提供了智慧分層、深度歸檔等儲存能力,在保障使用者體驗的前提下大大降低了儲存成本。

從“月”變為“天”

往年國慶一過,春保技術團隊的氣氛就開始緊張起來,收集業務需求,評估所需資源,進行機器採買和資源建設、系統擴容,加上必要的單機和全鏈路壓測,技術團隊的鋪排容災和柔性演習等,一般都需要持續好幾個月時間。

去年騰訊全面上雲之後,最直接的一個變化就是春保從一個需要嚴陣以待的大專案,變成了一份“尋常工作”。

比如,在資源準備階段,由於業務的資源由物理伺服器變為 CVM 虛擬機器,這讓資源準備週期大幅縮短,過去至少需要1個月時間申請採購、生產虛擬機器,現在只需1周就能完成。
同時,在運維效率上,藉助騰訊雲容器服務 TKE,應用的擴容也變得更加彈性,同樣擴容100萬核的資源並部署業務完成上線,時間從2周縮短到2天以內。

為了充分利用雲原生的特性,去年開始,微信核心模組全量部署在了騰訊雲容器服務平臺 TKE 上,進入容器化上雲階段。

透過全力容器化改造,採用多容器減少上T級的流量穿越、支援所有應用可排程提升故障例項恢復時效、多叢集多 workload 容災打散排程提高應用容錯能力、Quota 資源按需申請節省大量成本、容器監控和業務監控雙管齊下提升服務質量。

利用 TKE 超強的叢集管理、資源排程、容器編排,遮蔽了底層基礎構架的差異,簡化了分散式應用的管理和運維,根據微信業務的使用場景,建設了靈活高效的 DevOps 運營體系,整體效率提升了40%以上

當業務核心模組容器化後,單機異常、版本不一致等問題降為0。利用 TKE 的增強 HPA 彈性伸縮特性,當業務負載急劇飆升時,能夠快速擴容多個 Pod 副本;業務負載變⼩時,適當縮容來節省計算資源。整個過程⾃動化,不需要人工⼲預,應對突發時擴容更快、成本更低。

走向“無人駕駛”

在2013年之前,騰訊還沒有“春保”。PC 網際網路時代,春節的流量相對分散,高峰還不需要太大規模的技術保障。

2013年,微信群發拜年影片興起,六七倍的流量湧入,遠超技術團隊原先的儲備,只能靠系統硬扛。

2015年,微信紅包亮相春晚互動。原來只是幾萬人使用的紅包系統,緊急擴大到支撐十幾億人搶紅包。20點到次日凌晨零點48分的時間裡,春晚微信搖一搖互動總量達到了110億次。很多已經在家吃年夜飯的技術人員被緊急“召回”公司。

2020年,線上會議需求爆發,春節8天緊急擴容100萬核,騰訊會議創下了中國雲端計算史上的又一個記錄。

如今,負責“春保”的團隊規模越來越小,越來越多的同事又可以年三十跟家人一起吃年夜飯了。回望過去十年,從“被打的措手不及”,到“想方設法先扛住再最佳化”,騰訊春保如今迴歸“靜悄悄”。

與上雲前相比,此次春保的資源利用率提升1倍,CPU 峰均值利用率達45%以上;交付效率提升50%,擴縮容效率提升5倍以上。騰訊的全面上雲,為業務春保帶來了效率、容量、成本的全方位最佳化,也支撐了數以億計的使用者,度過了一個熱鬧祥和的春節。

“以前春保更多考慮的是系統會不會崩掉,怎麼能扛住一波接一波的流量高峰,而當全面上雲之後,能力足夠強大,不崩已經變成新的常態,我們未來需要考慮的是如何提升使用者體驗,並進一步降低成本,透過智慧化的容量預測、智慧化的排程,實現更精細的運營。”

騰訊雲副總裁、雲架構平臺部副總經理高向冉表示:“現在的春節保障相當於是人工在駕駛的,將來希望完全由機器來完成自動駕駛。”

【騰訊雲原生】雲說新品、雲研新術、雲遊新活、雲賞資訊,掃碼關注同名公眾號,及時獲取更多幹貨!!

相關文章