彈性伸縮服務實戰：我是如何節省80%的機器成本的

haolujun發表於2017-12-21

前言

今年一直在做的事情就是成本優化，今天分享的是如何打造一個彈性可伸縮服務。

why？為什麼需要彈性伸縮？

一個網站，通常流量大小不是每時每刻都一樣，有高峰，有低谷，如果每時每刻都要保持能夠扛住高峰流量的機器數目，那麼成本會很高。一個誘人的想法就是根據流量大小自動調節機器的數量，這就需要我們開發彈性伸縮服務。

How？怎麼實現彈性伸縮？

我們公司使用的是阿里的ECS，而它提供彈性伸縮組機器，按秒計費，可以隨時申請隨時釋放，它是我們能夠進行彈性伸縮的最基本條件。由於這個How內容較多，接下來就詳細說一下這個How如何實現。

彈性伸縮服務

這塊著實是做了不少的工作，前前後後經歷了大半年的時間，接下來一一詳述。

工作模式由“推”改“拉”

我們的彈性分配策略依賴實時的qps，需要實時的獲取流量大小，所以必須能夠在某個地方獲取當前請求的QPS，自然而然會想到使用訊息佇列，我們可以使用佇列提供的介面，獲取某段時間內的qps，並根據速率調整我們的機器服務數，這涉及到服務的改造。由於我們的一些服務都是以RPC呼叫進行互動（即“推”模式），所以勢必要改造這些服務，使其主動從佇列中拉取訊息並處理。如下圖所示。
彈性伸縮服務實戰：我是如何節省80%的機器成本的

服務拆分，機器降配

我們的計算服務使用的高配置機器（16核16G），而阿里雲伸縮組的機器配置很低（最高配置4核，記憶體大小可調），所以一些計算型服務需要拆分，使其能夠在低配機器執行。如下圖，是我們做的一個拆分示意。
彈性伸縮服務實戰：我是如何節省80%的機器成本的

服務快速部署

由於需要隨時增加和減少機器，這需要服務有快速部署上線和下線的能力，所以可以使用docker。具體使用方法本文不贅述。

日誌收集

由於彈性伸縮服務隨時上下線，但是日誌不能扔。需要日誌收集服務跟隨業務服務一同部署，同樣可以利用docker，日誌隨時收走。

實時分配演算法

完成了如上3個基本工作，接下來就好辦多了，我們設計一個彈性分配演算法：根據佇列中進去的訊息速率來決定機器數目。

每個服務都需要有一個配置檔案

[strategy]
#一個服務能夠扛多少qps
speed_ratio = 2.5
#部署一個服務大概需要多少秒
start_time = 300
#每次部署多少個，至少為1
incr_num = 2
#固定機器有多少個
persistence = 16

演算法大致流程：

取一段時間間隔內佇列中訊息速率，假設為A。
獲取當前正在執行的服務數S。
計算當前已經啟動的服務（固定+彈性分配）能夠扛住的速率B（B=S*speed_ratio）。
假設佇列中速率波動幅度C（通過觀察流量波動寫死的固定值）。
如果A>B+C，則申請新機器，根據配置檔案，申請incr_num個機器，並部署服務。
如果A<B-C，則釋放機器，根據配置檔案，釋放incr_num個機器，並下線服務。
注意要保持至少persistence指定的機器數，這些機器不能釋放，它主要是應付平時低谷時的流量。

問題：

可不可以根據佇列中unack的數目來分配機器？
答案是不行。能夠唯一表示當前請求大小的指標只有qps，而我們服務可以提前知道的只有效能資料：即單臺機器能扛多少qps，而不是單臺機器能夠減少多少個unack。此外如果使用unack為分配指標，當服務出現bug，大面積當機時，unack累積非常快，會導致演算法分配無限多的機器，而此時解決問題的正解為：回滾服務-查詢bug-修正-上線，而不是分配更多的機器，因為新分配的機器部署的服務可能也會當機。
如何應對流量突增？
本演算法主要應對正常情況下的機器分配，對於突增流量分為兩種情況。1：正常可預測的突增（比如淘寶雙11，雙12），這種情況下我們可以先提前準備好大量固定機器，然後把配置中的incr_num調的儘可能大，這樣只要流量上漲，可以一次增加幾百臺甚至上千臺機器扛過突增流量。2：異常突增，這種情況對於各種部署方式的服務（即使隨時隨地保證扛過平時正常情況下的流量峰值）都可能造成危害，並不是只有彈性分配的服務專有，這個時候的正解的是防攻擊、流量過濾、降級。
阿里雲機器分配集中造成介面失敗
當短時間內頻繁呼叫阿里雲的機器分配介面，會返回錯誤資訊，造成分配失敗。解決方法為，呼叫加入時間間隔（比如每隔1s呼叫一次機器分配介面），並且進行失敗重試。
阿里雲ECS啟動失敗
有的時候機器申請成功，但是啟動失敗，情況有兩種，1：啟動時間過長，2：根本啟動不起來。解決這兩種問題的方法為，嘗試啟動一段時間，超過一定時間（比如start_time）後果斷放棄，重新申請新機器，防止整個服務啟動過程過長跟不上qps的上漲速度。

總結

如今，彈性伸縮服務穩定執行半年有餘，節省了大概60%~70%的機器成本，加上前面兩個演算法優化《我是如何利用跳錶優化搜尋引擎的？》，《最長公共子序列與最小編輯距離-你有更快的演算法麼？》，使得我們負責的服務機器成本下降了80%以上。這也導致了阿里雲的小夥伴對我們產生了質疑，懷疑我們正在逐步把服務遷出阿里雲，但是這真的是冤枉了我們，誰規定使用阿里雲的ECS就不能對服務進行優化了。對於同樣使用雲ECS的小夥伴，可以考慮用彈性伸縮節省成本，這將是一件很有意思並且富有挑戰的事情。

Serverless：基於個性化服務畫像的彈性伸縮實踐
2023-03-16
Server
RDS for MySQL Serverless公測上線：彈性伸縮，最高可降成本超80%
2024-03-04
MySqlServer
在騰訊雲容器服務 TKE 中利用 HPA 實現業務的彈性伸縮
2020-12-07
如何使用 Kubernetes 實現應用程式的彈性伸縮
2023-02-24
EMQX Operator 如何快速建立彈性伸縮的 MQTT 叢集
2022-09-13
MQQT
彈性佈局（伸縮佈局）
2020-11-01
免運維、彈性伸縮、按需付費...Serverless還有多少驚喜是我不知道的？
2020-05-19
運維Server
Knative Autoscaler 自定義彈性伸縮
2023-02-10
CSS-彈性佈局3-伸縮屬性
2017-06-18
CSS
Fluid 給資料彈性一雙隱形的翅膀 -- 自定義彈性伸縮
2021-04-20
UI
我們總結了彈性伸縮的五個條件與六個教訓
2022-09-05
js滑鼠懸浮水平彈性伸縮的導航選單
2017-04-08
JS
如何基於容器網路流量指標進行彈性伸縮
2024-03-06
指標
SpringCloud 應用在 Kubernetes 上的最佳實踐 —— 高可用（彈性伸縮）
2020-10-09
SpringGCCloud
雲端乾貨｜降本必備—彈性伸縮的基本原理
2021-11-16
基於 Raft 構建彈性伸縮的儲存系統的一些實踐
2016-10-11
Raft
伺服器租用能節省哪些成本
2022-02-14
伺服器
Node.js的可伸縮性
2019-02-26
Node.js
Twitter如何使用Redis提高可伸縮性
2014-09-17
Redis
降低彈性雲伺服器成本，聊聊宿主機管理
2023-11-02
伺服器
AI降成本利器！阿里雲彈性加速計算例項來了，最高節省50%推理成本
2020-10-14
AI阿里
一個社交App是如何構建高伸縮性的互動式系統
2015-07-14
APP
大型網站的可伸縮性架構如何設計？
2019-04-29
網站架構
KubeVela + KEDA：為應用帶來“與生俱來”的彈性伸縮能力
2021-05-13
Kubernetes彈性伸縮全場景解讀（五） - 定時伸縮元件釋出與開源
2019-05-07
元件
機器人客服是如何改變企業服務的
2022-01-24
機器人
使用 tke-autoscaling-placeholder 實現秒級彈性伸縮
2021-01-26
如何將離線計算業務的成本降低65%——彈性容器服務EKS「競價例項」上線
2021-01-07
資料成本：雲端儲存成本高嗎如何節省資料儲存成本
2022-05-12
微服務-分解應用程式從而實現更好的部署特性及可伸縮性
2014-06-08
微服務
網站架構的伸縮性設計
2016-10-31
網站架構
JVM效能優化,提高Java的伸縮性
2015-03-19
JVM優化Java
可伸縮性和重/輕量，誰是實用系統的架構主選？
2004-08-02
架構
阿里云云計算ACP認證重點梳理3—彈性伸縮
2019-02-13
阿里
華為雲彈性雲伺服器ECS搭建FTP服務實踐
2021-09-11
伺服器FTP
雲原生的彈性 AI 訓練系列之三：藉助彈性伸縮的 Jupyter Notebook，大幅提高 GPU 利用率
2021-10-18
AIGPU
節省數億IT成本，B站FinOps實踐
2023-03-03
彈性伸縮：高可用架構利器（架構+演算法+思維）
2024-06-20
架構演算法