【京東技術雙十一】大資料平臺紅藍對抗——磨利刃,淬精兵!
目前大促備戰常見備戰工作:專項壓測(全鏈路壓測、內部壓測)、災備演練、降級演練、限流、巡檢(監控、應用健康度)、混沌演練(紅藍對抗),如下圖所示。隨著平臺業務越來越複雜,紅藍對抗的作用愈來愈明顯,下面將詳細介紹大資料平臺在本次雙十一大促備戰工作中是如何開展紅藍對抗的。
圖1.大促備戰常見工作示意
紅藍對抗介紹
藍方代表攻擊方,紅方代表防守方。紅藍對抗模擬了真實的網路攻擊和防禦過程,在受控的環境中進行,藍方透過模擬各類威脅和攻擊手段,對紅方進行攻擊,測試其防禦能力和系統高可用情況。紅方則負責防禦和應對,尋找並修復系統中的問題,並且收集關於攻擊者的資訊。

紅藍對抗的好處
紅藍對抗可幫助產研驗證監控告警的配置有效性,通知及時性,資訊準確性。
紅藍對抗透過識別可能導致系統發生錯誤的潛在問題,幫助提高系統的可靠性。
紅藍對抗透過識別可能被惡意攻擊者利用的潛在弱點,幫助降低發生線上問題的相關風險。

圖4.紅藍對抗實踐主要包括六個部分
4.1 演練公告
主要包括兩個部分:
第一、本次紅藍對抗主負責人組織對抗演練啟動會、確定對抗演練時間範圍、指定實時/離線演練介面人。
圖5.紅藍對抗演練公告
4.2 人員指定與任務分配
最後,分別指定實時和離線側演練監測員。一般為測試人員,主要是記錄演練過程中發出的告警資訊(mdc、ump)以及複核演練記錄文件。
圖6.紅藍對抗人員指定與任務分配
4.3 演練前場景收集
4.3.1 確定演練應用範圍
演練應用建議優先選取應用等級L0和L1的應用,具體可根據業務需要進行選取。另外,在京東可透過以下兩種方式快速查詢對應的應用:
詳細演練應用列表由實時/離線介面人(經過C3領導複核透過)提供,輸出:攻方批次注入場景收集
圖7.演練應用範圍
4.3.2 收集演練故障場景
jdos應用 主要是藉助【混沌工程】平臺進行故障注入,採用以下演練場景:
底層叢集 主要是運維人員透過指令碼、命令等方式進行故障注入。主要包括以下演練場景:
4.4 紅藍對抗過程
有了演練場景,產品也傳送了演練通知郵件後,就可以進行紅藍對抗了。這裡要說明幾點:
① 不能將具體的攻擊時間“透露”給藍方;
4.4.1 【主負責人】演練前通知
主負責人在藍方攻擊方正式演練前提前在群裡發訊息,模板如下:
@全體成員
【重要通知】
今天17:30~21:30大資料平臺(實時+離線)進行紅藍對抗演練,不定時進行故障突襲。請各位同學將跟進處理過程在本群進行同步。分三個階段:問題發現、原因分析診斷、故障處理。
每個環節(問題發現、故障診斷、故障處理)確定後立馬發訊息,不要最後發總結!
每個環節(問題發現、故障診斷、故障處理)確定後立馬發訊息,不要最後發總結!
1、問題發現
【問題發現】
產品-服務名稱:
(1)收到電話/咚咚告警,告警內容xxx
或
(2)雷達大屏飄紅,截圖xx 開始排查處理
2、原因分析
【故障診斷】
產品-服務名稱:xx問題原因已查到,原因概要描述。
3、故障處理
【故障處理】
產品-服務名稱::xx問題已處理,已恢復,並給出告警恢復/監控截圖。
4.4.2 【藍方】建立&執行演練任務
圖8.藍方建立任務
說明以下幾點:
① 底層叢集的攻擊主要透過命令、指令碼實現,這裡暫不詳細敘述。
② 網路延遲、丟包故障可能演練失敗,原因:限制網路故障演練(該宿主機核心版本存已知BUG不能演練) "4.18.0-80.11.2.el8_0.x86_64"。
③ 記憶體利用率100%場景,因為linux記憶體滿了會觸發oom kill,所以建議設定90%。
4.4.3 【紅方】防守修復故障
藍方發起攻擊後,紅方會收到內部辦公app報警,按照既定預案進行故障修復。部分截圖如下:


4.4.4 【紅方】系統恢復
4.4.5 【紅方+藍方】演練結束
紅藍對抗演練結束後,紅藍雙方均填寫“紅藍對抗演練場景”文件,藍方填寫:混沌任務連結、混沌演練場景、演練狀態、混沌演練執行開始時間、混沌演練執行結束時間。紅方填寫:排查人、告警資訊、根因、排查到原因時間、排查過程描述(包含排查過程,使用工具,輔助決策判斷)、計劃解決方案&應急預案、預估影響處理時間。如下圖所示:
圖11.演練結束後文件填寫示意
4.5 演練結果收集主負責人複核演練結果、梳理分離演練問題,讓紅藍雙方儘早完善。主要存在以下問題
圖12.演練存在問題
4.6 演練覆盤
① 告警級別需要自查修正。目前部分告警級別配置偏低,cpu利用率大於90%時,報【警告】,建議改為【緊急】。
② 延長攻擊時間。找某幾個應用,攻擊時間為30+分鐘,驗證防守人員是否真正摘流量。
③ 混沌演練常態化。可透過混沌工程平臺-常態演練進行,並結合值班表增加演練頻次,以戰養兵。
④ 分步演練【警告】、【緊急】場景。第一步先攻擊10分鐘觸發【警告】的場景,第二步再攻擊10分鐘觸發【緊急】的場景。
期望混沌平臺的支援:
① 混沌工程平臺支援一次批次選擇多個應用建立、啟停混沌演練任務。可提高建立任務效率,目前的批次建立演練任務功能,只能一個一個的新增應用進行建立。
② 混沌工程平臺提供常態化混沌演練api。方便使用者自定義建立常態化演練任務。
③ 混沌工程平臺支援在平臺內檢視mdc、ump告警。減少使用者在多個平臺系統來回切換。
透過本次紅藍對抗演練,既有效的增強了大資料平臺系統應用的抗風險能力,降低了生產環境系統發生故障的機率,又大大的提升了研發人員解決問題故障的能力,也沉澱了一套快速高效的演練的方案。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70027827/viewspace-2996092/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 腳踏esbuild祥雲,胸懷tsx利刃,身披scss羽衣,追尋前端的本質前端CSS
- 實時化與Serverless是開源大資料3.0時代的必然選擇Serverless
- 【2023雲棲】劉一鳴:Data+AI時代大資料平臺建設的思考與釋出人工智慧
- PostgreSQL技術大講堂 - 第34講:調優工具pgBagder部署PostgreSQL
- 網易Q3財報:《逆水寒》手遊等多款新品突破預期,加快AI技術落地應用人工智慧
- Voicebot.ai:深度偽造技術和語音克隆之消費者情緒報告人工智慧
- 執行緒剖析 - 助力定位程式碼層面高耗時問題|得物技術
- 面向企業的人臉屬性檢測技術方案
- 提升提測質量之研測共建 | 京東雲技術團隊
- 美創科技與南京大資料安全技術有限公司達成戰略合作
- 使用Python呼叫API介面獲取京東關鍵詞詳情資料Python
- 視野修煉-技術週刊第62期
- 鈉離子電池的技術突破可能是電動汽車未來發展的關鍵
- 如何採用雲原生技術加速數字化轉型
- 開普勒人形機器人正式釋出 硬核技術加持開啟共創機器人新紀元
- 達達埋點遷移京東子午線實踐
- Embedding技術與應用(4): Embedding應用工程探析
- PMC如何藉助數字化技術提升崗位價值?
- 資料創新加速產業發展∣企企通亮相2023浙北CIO峰會,以技術驅動數智升級
- 【2023雲棲】陳守元:阿里雲開源大資料產品年度釋出