【京東技術雙十一】大資料平臺紅藍對抗——磨利刃,淬精兵!
目前大促備戰常見備戰工作:專項壓測(全鏈路壓測、內部壓測)、災備演練、降級演練、限流、巡檢(監控、應用健康度)、混沌演練(紅藍對抗),如下圖所示。隨著平臺業務越來越複雜,紅藍對抗的作用愈來愈明顯,下面將詳細介紹大資料平臺在本次雙十一大促備戰工作中是如何開展紅藍對抗的。
圖1.大促備戰常見工作示意
紅藍對抗介紹
藍方代表攻擊方,紅方代表防守方。紅藍對抗模擬了真實的網路攻擊和防禦過程,在受控的環境中進行,藍方透過模擬各類威脅和攻擊手段,對紅方進行攻擊,測試其防禦能力和系統高可用情況。紅方則負責防禦和應對,尋找並修復系統中的問題,並且收集關於攻擊者的資訊。
紅藍對抗的好處
紅藍對抗可幫助產研驗證監控告警的配置有效性,通知及時性,資訊準確性。
紅藍對抗透過識別可能導致系統發生錯誤的潛在問題,幫助提高系統的可靠性。
紅藍對抗透過識別可能被惡意攻擊者利用的潛在弱點,幫助降低發生線上問題的相關風險。
圖4.紅藍對抗實踐主要包括六個部分
4.1 演練公告
主要包括兩個部分:
第一、本次紅藍對抗主負責人組織對抗演練啟動會、確定對抗演練時間範圍、指定實時/離線演練介面人。
圖5.紅藍對抗演練公告
4.2 人員指定與任務分配
最後,分別指定實時和離線側演練監測員。一般為測試人員,主要是記錄演練過程中發出的告警資訊(mdc、ump)以及複核演練記錄文件。
圖6.紅藍對抗人員指定與任務分配
4.3 演練前場景收集
4.3.1 確定演練應用範圍
演練應用建議優先選取應用等級L0和L1的應用,具體可根據業務需要進行選取。另外,在京東可透過以下兩種方式快速查詢對應的應用:
詳細演練應用列表由實時/離線介面人(經過C3領導複核透過)提供,輸出:攻方批次注入場景收集
圖7.演練應用範圍
4.3.2 收集演練故障場景
jdos應用 主要是藉助【混沌工程】平臺進行故障注入,採用以下演練場景:
底層叢集 主要是運維人員透過指令碼、命令等方式進行故障注入。主要包括以下演練場景:
4.4 紅藍對抗過程
有了演練場景,產品也傳送了演練通知郵件後,就可以進行紅藍對抗了。這裡要說明幾點:
① 不能將具體的攻擊時間“透露”給藍方;
4.4.1 【主負責人】演練前通知
主負責人在藍方攻擊方正式演練前提前在群裡發訊息,模板如下:
@全體成員
【重要通知】
今天17:30~21:30大資料平臺(實時+離線)進行紅藍對抗演練,不定時進行故障突襲。請各位同學將跟進處理過程在本群進行同步。分三個階段:問題發現、原因分析診斷、故障處理。
每個環節(問題發現、故障診斷、故障處理)確定後立馬發訊息,不要最後發總結!
每個環節(問題發現、故障診斷、故障處理)確定後立馬發訊息,不要最後發總結!
1、問題發現
【問題發現】
產品-服務名稱:
(1)收到電話/咚咚告警,告警內容xxx
或
(2)雷達大屏飄紅,截圖xx 開始排查處理
2、原因分析
【故障診斷】
產品-服務名稱:xx問題原因已查到,原因概要描述。
3、故障處理
【故障處理】
產品-服務名稱::xx問題已處理,已恢復,並給出告警恢復/監控截圖。
4.4.2 【藍方】建立&執行演練任務
圖8.藍方建立任務
說明以下幾點:
① 底層叢集的攻擊主要透過命令、指令碼實現,這裡暫不詳細敘述。
② 網路延遲、丟包故障可能演練失敗,原因:限制網路故障演練(該宿主機核心版本存已知BUG不能演練) "4.18.0-80.11.2.el8_0.x86_64"。
③ 記憶體利用率100%場景,因為linux記憶體滿了會觸發oom kill,所以建議設定90%。
4.4.3 【紅方】防守修復故障
藍方發起攻擊後,紅方會收到內部辦公app報警,按照既定預案進行故障修復。部分截圖如下:
4.4.4 【紅方】系統恢復
4.4.5 【紅方+藍方】演練結束
紅藍對抗演練結束後,紅藍雙方均填寫“紅藍對抗演練場景”文件,藍方填寫:混沌任務連結、混沌演練場景、演練狀態、混沌演練執行開始時間、混沌演練執行結束時間。紅方填寫:排查人、告警資訊、根因、排查到原因時間、排查過程描述(包含排查過程,使用工具,輔助決策判斷)、計劃解決方案&應急預案、預估影響處理時間。如下圖所示:
圖11.演練結束後文件填寫示意
4.5 演練結果收集主負責人複核演練結果、梳理分離演練問題,讓紅藍雙方儘早完善。主要存在以下問題
圖12.演練存在問題
4.6 演練覆盤
① 告警級別需要自查修正。目前部分告警級別配置偏低,cpu利用率大於90%時,報【警告】,建議改為【緊急】。
② 延長攻擊時間。找某幾個應用,攻擊時間為30+分鐘,驗證防守人員是否真正摘流量。
③ 混沌演練常態化。可透過混沌工程平臺-常態演練進行,並結合值班表增加演練頻次,以戰養兵。
④ 分步演練【警告】、【緊急】場景。第一步先攻擊10分鐘觸發【警告】的場景,第二步再攻擊10分鐘觸發【緊急】的場景。
期望混沌平臺的支援:
① 混沌工程平臺支援一次批次選擇多個應用建立、啟停混沌演練任務。可提高建立任務效率,目前的批次建立演練任務功能,只能一個一個的新增應用進行建立。
② 混沌工程平臺提供常態化混沌演練api。方便使用者自定義建立常態化演練任務。
③ 混沌工程平臺支援在平臺內檢視mdc、ump告警。減少使用者在多個平臺系統來回切換。
透過本次紅藍對抗演練,既有效的增強了大資料平臺系統應用的抗風險能力,降低了生產環境系統發生故障的機率,又大大的提升了研發人員解決問題故障的能力,也沉澱了一套快速高效的演練的方案。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70027827/viewspace-2996092/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 大資料平臺紅藍對抗 - 磨利刃,淬精兵!大資料
- 紅藍對抗之資訊收集
- 京東AI走過雙十一:在技術時代建立信賴樣本AI
- 【京東技術雙十一】記一次線上問題引發的對 Mysql 鎖機制分析MySql
- 京東城市時空資料引擎JUST亮相中國資料庫技術大會資料庫
- 京東資料庫智慧運維平臺建設之路資料庫運維
- 京東物流資料同步平臺“資料蜂巢”架構演進之路架構
- 珠海,我們來啦 |《資料安全與紅藍對抗》即將開課
- 京東技術中臺的Flutter實踐之路Flutter
- 京東技術中臺Flutter實踐之路(二)Flutter
- 教你用ActiveReports報表控制元件分析京東雙十一資料的價值控制元件
- 紅藍對抗,學習整理 -------雷神眾測
- 安全意識成紅藍對抗第一要素
- 乾貨 | 京東技術中臺的Flutter實踐之路Flutter
- 京東智聯雲:技術整合的旌旗下,智慧抗疫的戰場中
- 京東APP百億級商品與車關係資料檢索實踐 | 京東雲技術團隊APP
- 京東雙11超級工程:AI成為交易平臺備戰主力AI
- 京東重構技術版圖
- 京東零售大資料雲原生平臺化實踐大資料
- 雲端計算平臺上的大資料技術解讀!大資料
- 京東金融將釋出重量級技術與資料產品 招募合作伙伴共拓藍海市場
- 唐朝的大資料平臺 - 大案牘術大資料
- 容器技術的未來——京東雲技術專訪
- 大資料平臺架構技術選型與場景運用大資料架構
- 京東首次對外展示技術全景圖,扮演產業網際網路中臺的角色產業
- Oracle ADW業務資料平臺點亮DTCC2019資料庫技術大會!Oracle資料庫
- 京東:2020年春節消費大資料大資料
- 大資料引擎技術:2020版大資料教程Flink實時旅遊平臺限時送大資料
- 2021天貓,淘寶,京東雙十一什麼時候開始 天貓,淘寶,京東雙11活動時間表彙總
- 基於 Kubernetes 的企業級大資料平臺,EMR on ACK 技術初探大資料
- 全棧出征,京東技術基石如何為“618”大促護航?全棧
- 如何設計實時資料平臺(技術篇)
- “滲透測試”與“紅藍對抗”有什麼不同之處?
- 淺談LocalCache | 京東雲技術團隊
- JOIN US | 京東雲誠聘技術精英
- 清華-福州資料技術研究院釋出人才大資料智慧服務平臺大資料
- 京東大資料:高溫天氣夏日清涼作戰大資料大資料
- 大資料揭祕雙十一:廣東人最愛買、天秤座是購物狂大資料