看世界盃直播?海外運維實踐瞭解一下

騰訊雲加社群發表於2019-03-01

歡迎大家前往騰訊雲+社群,獲取更多騰訊海量技術實踐乾貨哦~

本文由織雲平臺團隊 發表於雲+社群專欄

img

2018世界盃鏖戰正酣,在國內看直播的小夥伴想必也看得很過癮,那麼國內的小夥伴是如何收看到流暢、清晰的直播呢?騰訊視訊雲直播平臺作為助力本次世界盃國內直播的重要PaaS平臺,期待給大家帶來優質的體驗。下面我將從全球節點分佈建設、智慧路由、動態加速、混合雲管理以及質量監控上報等方面來詳細介紹我們是如何保障將資料在全球網路上高效穩定的傳輸。

修路(全球節點覆蓋)

有句話說得好,“要想富,先修路”,其實對於我們的直播平臺同樣適用,要想提供優質的服務質量,把‘車’開得又穩又快,首先要有高速的‘路’, 但是要想修好路也不是一件容易的事。

首先需要考慮如下問題:

• 海外國家+城市成千上萬,節點該建在哪裡

• 如何做到花更少的錢,做更好的事,平衡質量和成本

從這些方面來應對:

• 基於公有云廠商以及客戶需求分佈

• 綜合考慮政策成本質量等因素來調整排程分佈策略,eg:

中東地區:

首先杜拜被選覆蓋點,但是接入質量不是特別理想,因為杜拜是一個有GFW防火牆的國家,目前只是將杜拜覆蓋本地,接下來我們會在卡達或者伊朗選點覆蓋中東。

印度和印尼地區:

不僅國際出口不穩定,頻寬成本更是其他地區的好幾倍,所以目前只選擇覆蓋本地。

澳大利亞地區:

各大雲廠商主流在悉尼和墨爾本等。

目前我們已經建成了了包括香港,新加坡,韓國,泰國,印度,德國,俄羅斯,美西/美東,加拿大等10大海外獨立中心節點, 以及全球5大洲40多個上行加速節點:

img

選路(全網動態排程)

有了全球節點覆蓋, 我們還應該意識到就近不一定最優, 所以還需要選路,實施全網動態排程,保障使用者能夠通過最短路徑傳輸到源站,原理如圖:

img

1

如何選取最優接入點?

海外不像國內,運營商和地區要複雜得多,首先解析要準確,美國需要解析到美國,最好能具體識別到洲,越細粒度越好,美東不能接入到美西去。我們採用騰訊GSLB全球IP地址庫,可以精確到地區解析,質量較直接按國家級別來排程有很大提升,以美國地區為例:

img

同時,通過大資料分析撥測各個邊緣節點的質量,以便分配最優的點給到使用者。

2

如何選取最優傳輸路徑?

在智慧路由,全網排程方面又應該如何考量?大家都知道公網的網路經常波動,節點的容量和故障也都會影響傳輸質量, 所以一套能夠幫助大家實時分析當前路由、鏈路質量、以及節點負載容量情況的路由質量評測系統就非常有必要了:

img

然後根據分析結果實時干預,實現全網智慧排程:

img

修車(協議優化)

有了高速公路,以及最優路線圖,我們還需要有一倆效能優秀的‘車’,可以從如下幾個方面來改裝優化,幫助其加速:

• 基於TCP RFC的使用者態協議棧(保留公平性、友好性)

• 全鏈路加密,保證資料安全

• 多路複用(無Head-of-line blocking)

• RTT握手+祕鑰協商

• 平滑傳送(Pacing mechanism)

• 精準RTT測量。基於NACK的丟包發現

• TCP優化

• 連線無縫遷移

使用基於UDP的QUIC協議比使用標準的RTMP協議推流卡頓率更小,尤其是在網路丟包較大時, 卡頓率依然保持不變:

img
img

織雲混合雲管理

前面說到“修路”,“修車”的問題,作為一個多面手的運維Sir,我們還需要保障這些不同國家和地區運營商的“路”能夠統一升級、維護、有統一的運營標準。這裡就是接下來我們要說到的混合雲管理,那麼當前混合雲有哪些場景和各自的優缺點呢?

img

同時,這麼多的雲場景,給運維人員也帶來了很多挑戰,比如:

機器環境不統一問題

1 作業系統不一樣

2 網路卡命名不統一

3 內網IP衝突

資料無法上報問題

1 單機屬性上報

2 多維屬性上報分析

3 一致性上報

業務部署釋出問題

1 程式裝包和更新

2 配置下發

3 檔案下發

安全風險問題

1 外網ssh開放

2 登入、shell審計

3 入侵檢測

網路質量問題

1 跨網丟包延時大

2 網路抖動

3 監控告警

運維其他操作問題

1 防火牆修改

2 主機名修改

3 命令執行

4 檔案傳輸

為了解決這些問題, 騰訊織雲混合雲解決方案是這樣設計的:

1、功能設計:

img

2、整體架構:

img

騰訊視訊雲直播海外節點由多個雲環境組成,包括騰訊雲,騰訊自研環境、其他合作伙伴雲廠商等,通過使用織雲混合雲管理方案,已實現混合雲環境的自動化運維。比如包釋出功能,全球節點一鍵釋出:

img

在接到本次俄羅斯世界盃的緊急需求時,也能遊刃有餘的提供優質的服務。

織雲海外節點監控上報方案

解決了上面的問題, 還需要解決各個節點的資料上報、網路鏈路監控告警等問題,如下:

1、如何及時發現和跟蹤海外各個節點的資料是否異常:

img

2、基於鏈路的網路質量監控系統:

• 使用基於鏈路排程的監控方式來上報質量

• 將網路丟包、延時等監控資料入庫大資料分析網路情況,給到排程系統決策最優路徑

img
img

小結

通過前面的分析,我們可以看出,為了幫助使用者實現告訴穩定的傳輸,首先在使用者到邊緣節點這裡要全球部署,精準排程;其次,在加速節點之間要能智慧選路,全網動態排程,協議優化;最後,在加速節點到原站這裡,還要同城同運營商部署、智慧選取最優出口。做到以上三段加速,基本上大家的海外運維之路已經邁開腳步了。

問答

使用nlp進行句子壓縮?

相關閱讀

內行看門道:看似“佛系”的《QQ炫舞手遊》,背後的音訊技術一點都不簡單

2018世界盃使用者行為新趨勢洞察報告

低於0.01%的極致Crash率是怎麼做到的?

此文已由作者授權騰訊雲+社群釋出,原文連結:https://cloud.tencent.com/developer/article/1153388?fromSource=waitui

歡迎大家前往騰訊雲+社群或關注雲加社群微信公眾號(QcloudCommunity),第一時間獲取更多海量技術實踐乾貨哦~

海量技術實踐經驗,盡在雲加社群

相關文章