百萬線上的美拍直播彈幕系統架構實現

享飛的魚發表於2019-03-04

原文網址 : https://flycode.co/archives/278342

直播彈幕指直播間的使用者，禮物，評論，點贊等訊息，是直播間互動的重要手段。美拍直播彈幕系統從 2015 年 11 月到現在，經過了三個階段的演進，目前能支撐百萬使用者同時線上。比較好地詮釋了根據專案的發展階段，進行平衡演進的過程。這三個階段分別是快速上線，高可用保障體系建設，長連線演進。

一、快速上線

訊息模型

美拍直播彈幕系統在設計初期的核心要求是：快速上線，並能支撐百萬使用者同時線上。基於這兩點，我們策略是前中期 HTTP 輪詢方案，中後期替換為長連線方案。因此在業務團隊進行 HTTP 方案研發的同時，基礎研發團隊也緊鑼密鼓地開發長連線系統。

直播間訊息，相對於 IM 的場景，有其幾個特點

訊息要求及時，過時的訊息對於使用者來說不重要；
鬆散的群聊，使用者隨時進群，隨時退群；
使用者進群后，離線期間（接聽電話）的訊息不需要重發；

對於使用者來說，在直播間有三個典型的操作：

進入直播間，拉取正在觀看直播的使用者列表；
接收直播間持續接收彈幕訊息；
自己發訊息；

我們把禮物，評論，使用者的資料都當做訊息來看待。經過考慮選擇了 Redis 的 sortedset 儲存訊息，訊息模型如下：

使用者發訊息，通過 Zadd，其中 score 訊息的相對時間；
接收直播間的訊息，通過 ZrangeByScore 操作，兩秒一次輪詢；
進入直播間，獲取使用者的列表，通過 Zrange 操作來完成；

因此總的流程是

寫訊息流程是: 前端機 -> Kafka -> 處理機 -> Redis
讀訊息流程是: 前端 -> Redis

不過這裡有一個隱藏的併發問題：使用者可能丟訊息。

如上圖所示，某個使用者從第6號評論開始拉取，同時有兩個使用者在發表評論，分別是10,11號評論。如果11號評論先寫入，使用者剛好把6,7,8,9,11號拉走，使用者下次再拉取訊息，就從12號開始拉取，結果是：使用者沒有看到10號訊息。

為了解決這個問題，我們加上了兩個機制:

在前端機，同一個直播間的同一種訊息型別，寫入 Kafka 的同一個 partition
在處理機，同一個直播間的同一種訊息型別，通過 synchronized 保證寫入 Redis 的序列。

訊息模型及併發問題解決後，開發就比較順暢，系統很快就上線，達到預先預定目標。

上線後暴露問題的解決

上線後，隨著量的逐漸增加，系統陸續暴露出三個比較嚴重的問題，我們一一進行解決

問題一：訊息序列寫入 Redis，如果某個直播間訊息量很大，那麼訊息會堆積在 Kafka 中，訊息延遲較大。

解決辦法：

訊息寫入流程：前端機-> Kafka -> 處理機 -> Redis
前端機：如果延遲小，則只寫入一個 Kafka 的partion；如果延遲大，則這個直播的這種訊息型別寫入 Kafka 的多個partion。
處理機：如果延遲小，加鎖序列寫入 Redis；如果延遲大，則取消鎖。因此有四種組合，四個檔位，分別是

一個partion, 加鎖序列寫入 Redis, 最大併發度:1
多個partition,加鎖序列寫入 Redis, 最大併發度:Kafka partion的個數
一個partion, 不加鎖並行寫入 Redis, 最大併發度: 處理機的執行緒池個數
多個partion, 不加鎖並行寫入 Redis，最大併發度: Kafka partition個數處理機執行緒池的個數

延遲程度判斷：前端機寫入訊息時，打上訊息的統一時間戳，處理機拿到後，延遲時間 = 現在時間 - 時間戳；
檔位選擇:自動選擇檔位，粒度:某個直播間的某個訊息型別

問題二：使用者輪詢最新訊息，需要進行 Redis 的 ZrangByScore 操作，redis slave 的效能瓶頸較大

解決辦法:

本地快取，前端機每隔1秒左右取拉取一次直播間的訊息，使用者到前端機輪詢資料時，從本地快取讀取資料；
訊息的返回條數根據直播間的大小自動調整，小直播間返回允許時間跨度大一些的訊息，大直播間則對時間跨度以及訊息條數做更嚴格的限制。

解釋：這裡本地快取與平常使用的本地快取問題，有一個最大區別：成本問題。

如果所有直播間的訊息都進行快取，假設同時有1000個直播間，每個直播間5種訊息型別，本地快取每隔1秒拉取一次資料，40臺前端機，那麼對 Redis 的訪問QPS是 1000 * 5 * 40 = 20萬。成本太高，因此我們只有大直播間才自動開啟本地快取，小直播間不開啟。

問題三:彈幕資料也支援回放，直播結束後，這些資料存放於 Redis 中，在回放時，會與直播的資料競爭 Redis 的 cpu 資源。

解決辦法:

直播結束後，資料備份到 mysql；
增加一組回放的 Redis；
前端機增加回放的 local cache；

解釋：回放時，讀取資料順序是: local cache -> Redis -> mysql。localcache 與回放 Redis 都可以只存某個直播某種訊息型別的部分資料，有效控制容量；local cache與回放 Redis 使用SortedSet資料結構，這樣整個系統的資料結構都保持一致。

二、高可用保障

同城雙機房部署

分為主機房和從機房，寫入都在主機房，讀取則由兩個機房分擔。從而有效保證單機房故障時，能快速恢復。

豐富的降級手段

全鏈路的業務監控

高可用保障建設完成後，迎來了 TFBOYS 在美拍的四場直播，這四場直播峰值同時線上人數達到近百萬，共 2860萬人次觀看，2980萬評論，26.23億次點贊，直播期間，系統穩定執行，成功抗住壓力。

使用長連線替換短連線輪詢方案

長連線整體架構圖如下

詳細說明：

客戶端在使用長連線前，會呼叫路由服務，獲取連線層IP，路由層特性：a. 可以按照百分比灰度；b. 可以對 uid，deviceId，版本進行黑白名單設定。黑名單：不允許使用長連線；白名單：即使長連線關閉或者不在灰度範圍內，也允許使用長連線。這兩個特性保證了我們長短連線切換的順利進行；
客戶端的特性：a. 同時支援長連線和短連線，可根據路由服務的配置來決定；b. 自動降級，如果長連線同時三次連線不上，自動降級為短連線；c. 自動上報長連線效能資料；
連線層只負責與客戶端保持長連線，沒有任何推送的業務邏輯。從而大大減少重啟的次數，從而保持使用者連線的穩定；
推送層儲存使用者與直播間的訂閱關係，負責具體推送。整個連線層與推送層與直播間業務無關，不需要感知到業務的變化；
長連線業務模組用於使用者進入直播間的驗證工作；
服務端之間的通訊使用基礎研發團隊研發的tardis框架來進行服務的呼叫，該框架基於 gRPC，使用 etcd 做服務發現；

長連線訊息模型

我們採用了訂閱推送模型，下圖為基本的介紹

舉例說明:使用者1訂閱了A直播，A直播有新的訊息

推送層查詢訂閱關係後，知道有使用者1訂閱了A直播，同時知道使用者1在連線層1這個節點上，那麼就會告知連線層有新的訊息
連線層1收到告知訊息後，會等待一小段時間（毫秒級），再拉取一次使用者1的訊息，然後推送給使用者1.

如果是大直播間（訂閱使用者多），那麼推送層與連線層的告知/拉取模型，就會自動降級為廣播模型。如下圖所示

我們經歷客戶端三個版本的迭代，實現了兩端（Android 與 iOS）長連線對短連線的替換，因為有灰度和黑白名單的支援，替換非常平穩，使用者無感知。

總結與展望

回顧了系統的發展過程，達到了原定的前中期使用輪詢，中後期使用長連線的預定目標，實踐了原定的平衡演進的原則。從發展來看，未來計劃要做的事情有

針對某些地區會存在連線時間長的情況。我們如何讓長連線更靠近使用者。
訊息模型的進一步演進。

MySQL 高擴充套件架構構建百萬線上系統實踐
2018-06-13
MySql套件架構
短視訊系統原始碼，直播間實現彈幕的自動傳送
2022-04-19
原始碼
線上直播系統原始碼，彈出警告/提示類彈窗
2021-10-27
原始碼
vue pc端實現直播功能+彈幕
2019-05-26
Vue
線上直播系統原始碼，橫向無限迴圈滾動的單行彈幕效果
2021-11-01
原始碼
直播系統聊天技術(六)：百萬人線上的直播間實時聊天訊息分發技術實踐
2022-01-06
如何實現彈性架構
2018-09-18
架構
線上直播系統原始碼，迴圈滾動RecyclerView的實現
2022-12-20
原始碼View
線上教育系統軟體架構
2024-12-11
架構
線上直播系統原始碼，flutter 巢狀滑動實現
2021-11-03
原始碼Flutter巢狀
呼叫支付介面，實現直播帶貨系統原始碼的線上支付
2021-09-09
原始碼
線上直播系統原始碼，滑鼠懸停後彈出氣泡
2021-11-12
原始碼
基於Java+SpringBoot+Mysql線上簡單拍賣競價拍賣競拍系統功能設計與實現三
2024-11-23
JavaSpring BootMySql
基於Java+SpringBoot+Mysql線上簡單拍賣競價拍賣競拍系統功能設計與實現十一
2024-11-27
JavaSpring BootMySql
線上直播系統原始碼，vue實現搜尋文字高亮功能
2023-11-02
原始碼Vue
美團配送系統架構演進實踐
2018-07-27
架構
新零售SaaS架構：線上商城系統架構設計
2024-03-21
架構
技術架構分享：美團配送系統架構演進實踐
2018-07-29
架構
模仿UP主，用Python實現一個彈幕控制的直播間！
2021-12-02
Python
線上直播系統原始碼，平臺彈窗自適應裝置
2021-12-02
原始碼
線上直播系統原始碼，LinearLayout下多個ListView實現滾動
2021-11-02
原始碼View
乾貨 | 攜程線上風控系統架構
2018-12-04
架構
線上直播系統原始碼，簡單實現Android應用的啟動頁
2023-09-28
原始碼Android
人人都是 Serverless 架構師 | 彈幕應用開發實戰
2022-02-07
Server架構
百萬年薪架構師之路：談應用系統架構設計
2020-11-09
架構
【生產實踐總結】支撐百萬連線的系統應該如何設計其高併發架構？【石杉的架構筆記】
2019-03-07
架構筆記
? 鬥魚彈幕php實現
2018-12-12
PHP
線上直播系統原始碼，Node.js中使用Koa實現上傳圖片功能
2023-04-18
原始碼Node.js
線上教育直播系統開發_教育行業線上直播平臺搭建
2020-03-14
行業
蜂鳥運單系統架構及實現
2018-12-29
架構
線上直播系統原始碼，實現翻頁載入、下拉滾動載入
2021-12-09
原始碼
線上直播系統原始碼，實現搜尋後介面顯示商品列表效果
2022-12-13
原始碼
線上直播系統原始碼，個人主頁使用者標籤新增實現
2021-10-12
原始碼
線上直播系統原始碼，使用ValueAnimator實現view放大縮小動畫效果
2022-07-06
原始碼View動畫
線上直播系統原始碼，當前版本號頁面呈現
2021-09-26
原始碼
從零開始實現線上直播
2018-04-19
短視訊直播系統，Vue實現element-ui彈框可以拖拽
2022-06-16
VueUI
Laravel 廣播入門，彈幕的實現
2019-10-26
Laravel

百萬線上的美拍直播彈幕系統架構實現

相關文章