實踐400+私有云打造的雲安全高可用架構詳解

安恆雲發表於2021-08-26

1.1  總體架構說明

安恆云云安全管理平臺提供安全產品的統一管理和運營功能,使用者可以在雲安全管理平臺上對已開通的安全產品統一進行管理。安恆云云安全解決方案總體架構分為:安恆云云安全管理平臺、集中型共享安全能力引擎以及分佈型專享安全能力元件。

    提到高可用,一直以來都是使用者關心的重點問題,針對高可用的現狀,安恆雲基於400+私有云的實踐經驗,錘鍊了一套成熟的高可用能力,在使用者的每個業務層面都做了保障。


實踐400+私有云打造的雲安全高可用架構詳解

安恆雲解決方案高可用能力圖

1.2  安恆雲安全管理平臺高可用

1.1.1  主備模式

在主備模式下,安恆雲安全管理平臺在不同區域部署兩套環境,透過安恆自研高可用技術“AHCloud HA”實現資料同步、主備切換,使用者只需要訪問浮動Ip即可訪問安全門戶服務。AHCloud HA實現主備模式下高可用方案需要滿足以下三個條件:

1)心跳鏈路:透過心跳鏈路監測主機和備機的執行狀況

2)浮動IP:一旦心跳鏈路發現主機遇到故障,則將對外服務的IP漂移至備機,並由備機提供服務

3)共享儲存:備機能夠正常工作的基礎和前提是和主機保持相同的業務資料,通常我們使用共享儲存或者專用的複製元件來保證這一點

實踐400+私有云打造的雲安全高可用架構詳解

1.1.2 叢集模式

安恆云云安全管理平臺的核心功能模組均支援分散式叢集部署。為保證安恆雲安全管理平臺的高可用性、或當單機管理平臺的安全裝置納管能力達到上限的時候,可以透過叢集模式將雲安全管理平臺後端模組分別部署在多個計算節點上,既可避免單點故障,又能充分挖掘計算資源的使用效率,從而提供高負載下的水平擴充套件能力。

實踐400+私有云打造的雲安全高可用架構詳解

採用分散式叢集部署,還可以充分利用雲環境中的負載均衡SLB、彈性伸縮Auto Scaling等服務,這都可以根據您的特定環境而選用針對性的技術方案

1.3 共享安全能力高可用實現

共享安全能力中,與業務強相關的WAF等共享安全能力引擎預設為主備LB叢集高可用方式+多節點分散式引擎方式部署;與業務非強相關的堡壘機、EDR管理中心、漏洞掃描等共享安全能力,支援多節點分散式引擎部署。

1LB叢集

WAF為例,共享WAF安全能力引擎透過一組LB裝置、透過VRRP實現主備模式。如下圖所示,兩個LB透過vrrp協議配置虛擬代理地址,在使用共享WAF安全能力時,只需要使用該虛擬地址作為業務IP,對目標站點進行代理或引流即可實現防護。當其中一臺LB故障時,vrrp協議會將虛擬地址切換到另外一臺LB裝置上。流量經過LB叢集后,可以將將洪峰流量攻擊處理為不含網路層攻擊的小流量回源到後端掛載的WAF引擎


實踐400+私有云打造的雲安全高可用架構詳解

2)多節點部署

WAF為例,透過在LB叢集后端掛載多節點WAF引擎,當LB叢集接收到業務流量上自動負載排程到多個WAF引擎上,同時LB叢集與WAF引擎之間透過心跳檢測維護鏈路狀態,當檢測到WAF引擎節點故障時自動繞開該節點,,保證訪問流量的通暢。

實踐400+私有云打造的雲安全高可用架構詳解

1.4  專享安全能力高可用實現

1.4.1  網路高可用

1.4.1.1  鏈路聚合

安恆云云安全解決方案中,交換機側介面採用動態聚合模式(透過Link Aggregation Control Protocol即鏈路聚合控制協議實現)與物理伺服器網路卡採用的bond4模式(透過IEEE 802.3ad動態連結聚合協議實現)形成資料鏈路的聚合,將多條物理鏈路聚合成一個邏輯鏈路,實現網路高可用。

實踐400+私有云打造的雲安全高可用架構詳解


1.4.1.2  流量BYPASS

流量遷移到安全資源池時,透過配置NQA健康性檢測,週期性地探測安全資源池與業務網路之間的連通狀態;同時配置Track項,當連續探測失敗的次數達到指定的閾值時,即當檢測到業務網路與安全資源池之間發生網路故障時,NQA將通知Track監測物件出現異常,Track項同時使引流配置失效,流量自動切換至預設路由轉發。同時安全資源池內部也使用健康性檢測機制,當流量從防火牆引如到WAF上時,防火牆會探測WAF狀態,探測的機制包括ICMPTCPHTTP等等,如發現WAF故障,則流量自動跳過WAF,優先保證業務連續性。


實踐400+私有云打造的雲安全高可用架構詳解

1.4.2  儲存高可用

安恆云云安全解決方案中,每臺超融合一體機節點都使用多塊物理硬碟元件RAID1陣列。部分物理磁碟發生損壞時,系統可以自動切換到映象磁碟上讀寫,保證業務高可用。同時安恆云云安全解決方案中,所有伺服器的SSD硬碟組建獨立的SSD儲存池Pool,所有伺服器SAS硬碟組建為獨立的SAS儲存池Pool。儲存池中資料切片儲存3副本,當某個資料切片丟失時,另外兩副本備份可保證業務資料不丟失。其中,每個資料切片打散到不同儲存節點上,當其中一個儲存節點資料故障,該節點資料可以透過其他節點副本同步到新節點,保證資料持續三副本儲存。故在一個資源池內,出現兩個節點或兩塊磁碟同時故障,整個系統不會丟失資料,不影響業務正常使用

實踐400+私有云打造的雲安全高可用架構詳解


同時,超融合一體機支援對接基於IPFC網路的SAN儲存網路,依託SAN儲存網路的本身的冗餘設計實現儲存高可用。

1.4.3  虛擬化平臺高可用

1.4.3.1 虛擬化平臺管理高可用

超融合一體機中提供多管理節點物理機高可用功能。當其中任何一個管理節點失聯,秒級觸發高可用切換,從而保障管理節點持續提供服務。

安恆云云安全解決方案中, 超融合叢集執行獨立的高可用程式,負責實時監控管理節點上的關鍵服務(包括:管理節點服務、UI服務、資料庫服務),當任何一個關鍵服務出現當機,立即透過Keep Alived觸發VIPVirtual IP)遷移,然後嘗試恢復當機服務。

實踐400+私有云打造的雲安全高可用架構詳解

1.4.3.2 虛擬化例項業務高可用

安恆云云安全解決方案中,一組伺服器主機合併為一個具有共享資源池的叢集,而安恆云云安全管理平臺和安全例項皆以虛擬化例項形式存在。叢集內所有的伺服器主機與虛擬機器執行狀況會持續進行檢測,一旦某臺伺服器當機後,會立即在叢集內另一臺伺服器上重啟所有受影響的虛擬機器,保證業務的連續性。

實踐400+私有云打造的雲安全高可用架構詳解

同時安恆云云安全管理平臺和安全例項皆支援資料備份功能,可以將配置、資料庫、日誌等資料定期備份,故障時重新匯入備份資料即可恢復。


1.4.4 安全元件高可用

1.4.4.1 安全元件監控與告警

安恆云云安全解決方案中,透過豐富的效能評估因子形成對整個安全資源池的運維態勢感知。基於Web的視覺化安全資源池運維態勢感知大屏可以動態顯示安全元件CPU、記憶體利用率,磁碟利用率及網路資料流量吞吐,使用者可以檢視近五小時以內安全元件資源的使用情況,對安全元件效能進行實時監控。

實踐400+私有云打造的雲安全高可用架構詳解


同時,視覺化的運維態勢感知大屏針對安全元件資源利用率異常升高、安全元件網路失聯等狀況可以做出瞬時告警,能夠有效減少業務故障故障時間,最大限度確保核心業務的連續性。

實踐400+私有云打造的雲安全高可用架構詳解

1.4.4.2 安全元件業務高可用

安恆云云安全解決方案中,安全元件普遍支援業務層面HA功能配置。以下以下一代防火牆舉例說明。

主備模式是指實現HA的兩臺裝置中, 一臺作為主裝置, 另外一臺作為備裝置。主裝置在進行業務的同時,將相關的配置和資料資訊實時同步到備裝置。當主裝置出現故障或主裝置的鏈路中斷時,備用裝置成為主裝置,接管原主裝置的工作,實現網路業務的無縫切換。在主備模式下,主裝置響應各類報文請求,並且轉發網路流量;備用裝置不響應報文請求,也不轉發網路流量。主備裝置之間透過HA心跳線同步狀態資訊,配置資訊以及特徵庫檔案。

實踐400+私有云打造的雲安全高可用架構詳解


相關文章