關於實時推送系統的那點事

無痕幽雨發表於2018-03-02

原文網址 : https://blog.csdn.net/wuhenyouyuyouyu/article/details/79419094

出處：

http://mp.weixin.qq.com/s?__biz=MjM5NTU2MTQwNA==&mid=401006254&idx=1&sn=d69a0efc740e04ddefe3cdca14d56eb0&mpshare=1&scene=1&srcid=0302M9o0GjqZL27d4bRUBB1X#rd

於小波，系統架構師，2011年加入魅族，主要從事服務端後臺開發工作，專注於系統高併發，分散式等解決方案。

直播實錄關於實時推送系統的那點事

大家好，我是於小波，2011年加入魅族，現在在魅族移動網際網路部門，主要負責服務端後臺架構設計和開發工作。

很感謝ChinaUnix給的這個機會，非常榮幸可以和大家在這裡分享我們魅族的一些技術。下面，我們進入今天的主題：關於實時推送系統的那點事。

今天的內容主要分4個方面：系統介紹、架構設計&微服務、踩過的坑&心得、監控和灰度釋出。重點介紹一下第三點，也就是一個心得分享。

我們先介紹一下這個系統。

魅族推送系統主要為魅族使用者提供以下服務：系統&應用升級、查詢手機、聯絡人同步、應用商店、線上音樂、閱讀、遊戲中心等，這裡就不一一列舉了。

我們實時線上使用者是2500W左右，日PV 50億，在現有資源的情況下，推送速度最快可以到600W/分鐘。

這個是我們的系統架構圖。

從邏輯上劃分了4層，最下面的是接入層，為使用者提供TCP長連線的接入和http服務。

第二層是訊息分發層，主要功能是上行業務訊息的分發到各個service，下行推送訊息路由到使用者所接入的接入伺服器，再由接入伺服器傳送到指定的使用者。路由表就是用來儲存使用者的長連線資訊和所在的接入伺服器的位置。Webservice的功能後面會提到。

第三層是業務邏輯層，主要處理不同的業務邏輯。

第四層是儲存層，儲存使用者的離線訊息和訂閱訊息。

還有兩個比較獨立的監控平臺和服務管理。

這個系統的是由很多小的服務，每一個服務功能都比較單一，而且是獨立的叢集，可以單獨部署。這裡的服務都是非同步無狀態，要求高併發訊息處理延遲低於1ms。

還有一個推送平臺，不在今天的討論範圍。

我們在開發這套系統的過程中，碰到了很多問題，下面列了幾個比較典型的問題和大家一起分享。

首先，是微服務的問題：

因為所有服務都要求高效能，所以我們開發了一套RPC框架在魅族內部叫kiev。kiev碰到了兩個問題：

1、同步呼叫

最開始我們這套框架都是同步呼叫，使用簡單，服務的開發效率高。可是隨著使用者量的增多，效能已經滿足不了我們的要求。而且同步呼叫，我們為了提高效能使用了多執行緒，很多多執行緒的問題隨之而來。於是我們改進了我們的框架，使用非同步。

2、非同步問題

非常多的回撥函式，一套完整的業務邏輯被打散在各個回撥函式來實現，程式碼的可維護性差，開發效率也不高，而且還有一個很突出的問題，我們在專案中使用了redis、mongodb、mysql的lib庫，而這些庫都是同步的，如果要做成全非同步那工作量會非常大。後面我們參照go語言用C++實現了一個協程版本的kiev，hook系統的IO呼叫比如 send，recv等，把這些系統呼叫改成非同步，達到的效果就是同步的呼叫，非同步的效能。

我們碰到的第二個問題就是手機功耗問題。主要有兩個點：

1、手機流量消耗

這裡就涉及到選擇怎樣的協議，傳統的方式就是XMPP和sip 這兩個協議是純文字協議，非常多的開源元件，能夠快速的搭建一套系統，但是這兩個協議都是網際網路時代的產物，非常消耗流量。協議本身也非常複雜、冗餘，單標準文件就是幾十頁。

為了降低流量，我們的系統使用的是自定義的二進位制協議，可以高度定製，編解碼的速度是上面兩個協議的10倍以上，流量節約了50%-70%。

2、手機電量消耗

因為我們是tcp長連線服務，手機端為了保持這個長連線需要定期的傳送心跳來維持。

一般的做法就是固定3分鐘或者5分鐘發一次心跳。因為傳送心跳需要喚醒手機，如果心跳訊息太頻繁就會導致電量的消耗比較大，如果太久發一次心跳又沒法保證連線的穩定性。

所以我們根據不同的網路情況指定了一套智慧心跳模式，根據當前的網路情況來設定傳送心跳訊息的間隔。

還有我們有一個延遲推送的策略。其實很多訊息對實時性的要求並沒有那麼高，比如說系統升級的推送，使用者早幾分鐘或者晚幾分鐘收到升級的推送並沒有多大的影響。針對這種情況，我們對於實時性要求不高的訊息可以在手機處於喚醒狀態才推送，那問題來了，服務端怎麼知道手機是喚醒的呢？其實很簡單，收到使用者的心跳包，再推送訊息。

第三個問題訊息重複問題。

行動網路的特點是不穩定、高延遲。服務端傳送訊息給客戶端，客戶端收到訊息返回應答，如果應答返回失敗了，服務端沒有收到這個應答怎麼辦？