全鏈路壓測(4):全鏈路壓測的價值是什麼?

老_張發表於2022-01-08

前言

在前面的幾篇文章中,介紹了全鏈路壓測的背景、在企業中的立項流程以及落地的一些技術方案。

在開始真正的介紹落地實踐過程以及相關案例之前,我想和大家聊聊,我對全鏈路壓測的一些認知,即:全鏈路壓測在技術團隊中的定位,以及它的價值是什麼。

 

業務和技術是什麼關係?

在聊這個topic之前,先回想下我在第一篇文章中闡述的一個觀點:全鏈路壓測創造了什麼價值?我當時的觀點: 

技術角度:降低成本、提升系統SLA、技術練兵&團隊協作&快速響應;

業務角度:提升使用者體驗、更快的發現和驗證目標、更好的達成業務運營目標;

現在我要表述的觀點依然不變,從更高的維度來說,技術和業務的關係可以用下面一句話概括:

技術是為業務達成目標提供支撐和效率工具,業務目標更好的達成會對技術有更高的要求!

 

技術的目標:支撐業務運營

業務本身的特性主要有如下幾點:

1.精細化運營(需要準確的資料);

2.成本和效率(更低的成本和更高的收益);

3.更好的服務使用者(需要快速高效的解決使用者的痛點問題);

4.新的業務可以快速落地驗證(需要高效的技術響應和技術支撐);

而上述幾點業務的特性,都對技術提出了很多的要求!

 

技術如何支撐業務運營增長

從上圖可以看出,常見的業務運營流程中,每個階段每個環節都對技術部門提出了挑戰:

1.從需求提出到釋出:研發成本、研發效率、交付質量;

2.從下單到訂單履約:提高業務成交履約率(撮合交易/成單匹配/留存轉化);

3.業務活動的營銷推廣:活動搭建、抽獎&優惠券&營銷簡訊等方面的快速響應;

4.線上故障的快速發現解決:監控告警、問題定位、風險評估、線上服務的SLA; 

 

業務的目標:運營業務增長

前面簡略的聊了技術對業務運營的重要支撐性作用,這裡我們來看看常見的業務場景,具備的幾種特性:

1.業務可視:業務的可視,簡單理解就是業務的狀態,處在什麼階段,目前的效果可以直觀的以視覺化的狀態來呈現。

常見的場景就是業務監控大盤(想想監控大盤需要技術做什麼?資料採集/資料儲存/資料展示)

2.業務可管:最常見的就是一些促銷活動的配置,比如:

活動時間、涉及的商品/優惠券、使用者型別以及標籤體系(這裡又需要技術做什麼呢?活動會場搭建工具/優惠資訊快取/活動訊息推送)

3.業務可控:業務可控也可以通過字面意思理解,即:各個業務維度的執行監控/業務配置釋出回滾以及防資損;

4.業務可優:這一點,我們現在最常見的有電商的千人千面,短視訊的智慧推薦、針對不同等級會員的優惠營銷體系等;

 

技術支撐業務運營增長案例

上面講了這麼多業務的特性以及技術對業務運營支撐的重要性,這些內容可以用下面這張圖概括:

 

穩定性保障面臨的六大挑戰

上面第一部分的內容介紹了技術和業務的關係,業務的運營增長目標想要達成,線上系統的穩定性也是至關重要的。
那麼如何保障線上系統的穩定性呢?穩定性保障面臨哪些挑戰?我們以電商最典型的大促來舉例說明。
從上圖可以看到,大促時候的線上系統穩定性保障,面臨六大挑戰,分別是:

系統容量

大促的典型特點是流量大,對系統的衝擊比較高。那麼精準的測量線上系統的容量,對處理能力薄弱的節點進行擴容升配,優化效能就是很有必要的。
且現在很多的系統都是分散式或微服務架構,這種複雜的技術體系面臨大流量衝擊時,需要精準的容量評估和容量規劃。
想要達成這種能力,就需要一種很好的技術手段來不斷驗證。生產環境全鏈路壓測,就是目前業內的最佳實踐。

硬體成本

前面聊到了容量評估和容量規劃,這和硬體成本有什麼關係呢?可能很多同學都不知道,
現在的網際網路企業,最大的成本支出都是哪些?成本支出主要是這三方面:人力研發成本、營銷成本和雲資源成本。
其中,人力研發成本的優化是很複雜的一件事,營銷成本是企業最主要的品牌曝光和拉新運營手段。雲資源成本,也可以理解為雲伺服器或者機房的硬體成本。
這三部分成本中,雲資產/硬體成本是可以通過技術手段來降低的。技術手段,實際上上面已經講到了,就是精準的容量評估和容量規劃。

系統穩定

系統的穩定性,如何衡量?目前業內大多從下面這幾個維度來衡量:
1.線上服務可用時常
服務可用時常即我們常說的SLA(即服務等級協議,全稱:service level agreement)。SLA對網際網路公司來說就是網站服務可用性的一個保證。
9越多代表全年服務可用時間越長服務更可靠,停機時間越短,反之亦然。全年拿365天做計算,看看幾個9要停機多久時間做能才能達到!
1年 = 365天 = 8760小時
99.9 = 8760 * 0.1% = 8760 * 0.001 = 8.76小時
99.99 = 8760 * 0.0001 = 0.876小時 = 0.876 * 60 = 52.6分鐘
99.999 = 8760 * 0.00001 = 0.0876小時 = 0.0876 * 60 = 5.26分鐘
2.故障響應解決耗時
這一點目前業內有個口號是:1-5-15。什麼意思呢,就是:一分鐘發現問題,5分鐘定位問題,15分鐘解決問題,線上業務恢復正常運營。
要做到上述的指標需要很強的技術能力以及不斷的演練才能達到,主要是如下幾點:
發現問題:強大完善靈敏的監控體系;
定位問題:對業務和技術實現的熟悉程度以及高效的定位分析工具;
解決問題:故障的自愈能力以及對異常情況的穩定性預案甚至故障演練;
3.故障導致的業務資損
這一點很好理解,即線上故障對業務造成的損失。這一點業內在故障定級評估覆盤時,大多采用最近一天/一週同時段的業務營收來做對比。
當然,其中還可能包括使用者的客訴以及賠償的優惠券等維度。

技術能力

要保障線上服務穩定性,除了容量評估、故障演練和全鏈路壓測之外,還需要很多其他的技術手段,比如:
彈性擴縮容能力;
監控告警追蹤能力;
限流降級熔斷能力;
故障識別響應和技術優化;

大促效率

我們以電商的大促舉例子,要做到保障大促平穩度過,需要很多團隊和角色的協調配合才能達成。可以通過下圖來看看,大促保障涉及的團隊和要做的事情:

 

這種跨團隊的協調配合,往往需要動員很多人力資源,而且特別耗時。

溝通協同

為什麼這裡要講到溝通協同呢?看看上一個標題我所描述的內容,相信大家在日常工作也有感觸:
和不同的角色溝通需求、目標、時間節點,協調資源、風險評估、解決問題,是一件特別費力費腦的事情。
 

全鏈路壓測對穩定性保障的價值

聊了這麼多,回到文章頂部,我所要表達的內容,全鏈路壓測的價值是什麼?
在我看來,全鏈路壓測不僅僅是一種很好的效能測試和優化手段,而是在整個穩定性保障中,起到了串聯全過程的能力。
通過生產全鏈路壓測,可以串聯穩定性保障的全流程,解決線上系統穩定性保障面臨的種種挑戰,它所帶來的價值如下:

 

總結回顧

這篇文章介紹了我對技術和業務關係的理解,線上穩定性保障面臨的挑戰以及全鏈路壓測在其中的價值。
通過前面的幾篇文章,從認識全鏈路壓測到專案立項以及技術調研和測試驗證,我試圖從另一個視角來為大家揭祕全鏈路壓測的另一面。
下篇文章,我會為大家介紹,全鏈路壓測落地實踐的整體流程。 
 

建了一個全鏈路壓測溝通交流群,目前群人數已超過100,想加群的同學請公眾號回覆關鍵字:全鏈路壓測。

新增我好友,我邀請進群,加群請備註說明來意。——公眾號二維碼在我部落格主頁右上角。

 

相關文章