遠離“人禍”,關於安全運維,我們建了個系統……

博雲技術社群發表於2020-02-28

近日,微盟“刪庫”事件引起廣泛關注,再次給廣大企業敲響 運維安全及資料 安全 警鐘。面對日漸複雜的企業IT系統,完善企業運維安全體系,讓運維自動化、規範化,消除潛在風險,是企業當前急需解決的問題。  

BeyondBSM自動化運維平臺是為企業資訊部門提供的建設運維自動化體系的一體化解決方案, 經過多年實踐經驗積累, 能夠幫助企業適應隨業務發展而逐漸複雜的IT系統, 實現企業運維流程標準化、規範化、通用化,幫助 企業系統運維更加高效、 安全, 支撐企業業務安全 穩定的快速發展。

構建企業運維安全體系

隨著數字化的高速發展,企業業務系統承載 巨大 價值的業務資料,運維安全不言而喻,而 惡意破壞或誤操作而導致的運維安全事件卻屢見不鮮。 此類事件一旦發生,將給企業運作帶來巨大影響及重大的經濟損失。 面對運維安全的潛在威脅,企業如何做到防患於未然? 如何降低運維和資料安全風險,避免“刪庫跑路”或誤操作等“人禍”再次發生?

作為曾經的資訊保安專業學生,目前負責運維繫統建設和交付的工程師,雖然不能深入給大家介紹怎麼弄個蠕蟲、木馬、病毒等,但是可以先跟大家介紹下資訊保安的體系結構。

面向目標的安全體系結構

資訊保安的三個最基本目標(CIA 三元組):機密性(Confidentiality)、完整性(Integrity)、可用性(Availability)。

面向應用層次的安全體系結構

程式導向的資訊保安保障體系

OSI(開放系統互聯)安全體系結構

當然,整個資訊保安體系是個非常龐大的課題,在每個主題下,都有很細很深的知識點,比如密碼、網路、認證體系、訪問控制、入侵檢測、數字水印等,但是各位只要粗略的瞭解上面的幾個安全維度,就可以很直觀地把這次事件出現問題的大致定位,方便下文針對此次事件的回顧反思。

從安全目標三要素上來看,  這次事件破壞了系統的可用性 ,造成300萬使用者中的核心7萬多使用者的服務不可用,微盟市值蒸發10多億,由於服務中斷對使用者間接損失暫不可估。

從安全基本要素來看,  基本上系統、資訊和人員三要素都有不同程度的缺失 ,比如執行安全和資料安全以及人員管理不到位等,這個後文細說。

從安全過程上來看,系統能夠在故障後幾分鐘內識別告警處理,整體響應和恢復過程也還算迅速,因此  主要的問題還是發生在事前的保護環節 。

企業運維安全核心要點

不要把雞蛋放在一個籃子裡——備份的重要性

在伺服器業務系統的日常執行過程中,可能會存在人為誤操作或者一些無法預見性的事件發生,最終導致資料丟失。為了減輕對業務系統影響,需要最大程度的減小資料丟失,在最短的時間內恢復資料,透過定期執行合理、完善的備份策略,可以在必要時最大限度的減少業務停機時間以及資料丟失所帶來的影響。

無論是磁碟RAID陣列、磁帶冷備份資料,還是兩地三中心的實時備份業務架構,只要能夠定期執行、並保證介質安全(注意,很多企業恢復的時候才發現備份的資料有問題),相信對業務的影響應該有限。

很不幸,這次事件之所以損失如此之大,原因就是生產的備份資料也被刪除了!

顯然,這個核心人員許可權足夠大。

許可權控制的重要性

針對訪問許可權過大的問題,業內使用訪問控制(Access control)來管理使用者對資源的訪問許可權,其核心要素是  訪問控制策略的制定 。

訪問控制的策略模型通常有DAC(自主訪問控制)、MAC(強制訪問控制)、RBAC(基於角色的訪問控制模型)三種。

自主訪問控制模型 :特權使用者為普通使用者分配訪問許可權,可以授予或收回普通使用者的許可權,靈活性較高,但是特權使用者的使用者許可權太高。

此次事件,這位核心運維人員顯然擁有過高的操作許可權了。

強制訪問控制模型 :相較於DAC,增加了多級訪問控制,每次訪問的主體(提出資源訪問的實體)和客體(被訪問資源實體)都有對應的等級,透過主客體之間的登記比較,決定主體對客體的訪問形式。

基於角色的訪問控制模型 :引入了組合角色的概念,將主客體進行進一步抽象,是目前大部分系統中常用的解決方案;RBAC模型遵照三個基本模型:

  • 最小特權原則

  • 最小洩露原則

  • 多級安全策略

如果基於角色訪問控制,備份資料和生產資料的訪問許可權分開,狀況就會好很多。

操作審計

除了事前控制,在運維過程中,也需要進行審計,最好能實時審計,這樣才能防止有人不遵守規範,從而帶來損失。例如:

  1. 透過遠端運維審計系統,增加堡壘機進行伺服器管理;
  2. 採用動態令牌等身份ID認證,實現抗抵賴性;
  3. 運維審計系統可以設計高危指令禁止或提醒確認機制;

人員管理

任你技術通天、嚴防死守,抵不住內部人員一頓操作猛如虎! 所以,最大的風險永遠不是規章制度、技術手段,而是——人。

所有的流程規則、技術控制,也都是為了防止人的風險:

  • 加強人員的技術培訓和管理培訓,增強安全意識、培養職業道德;
  • 對員工以應有的尊重,大多數技術崗位人員,沒有什麼深仇大恨不會做這麼絕;
  • 適當分工,小公司為了節約成本,一個人幹兩個人甚至多個人的活兒,連自己的分內事兒都容易忙中出錯,更別提有人員分擔工作或者A/B互補了;

所有以上建議,無非就是滿足資訊保安裡的:可追溯性(Accountability)、抗抵賴性(Non-repudiation)、真實性(Authenticity)、可控性(Controllable)這些原則而已。

血淚經驗做成一個自動化運維產品

上面的這些建議可不是信口開河,都是從血與淚的經驗中總結出來的。

關於自動化運維,我們認真做了個產品!

BeyondBSM自動化運維繫統中不光  沉澱了多個客戶多年的運維使用經驗  ,而且自己在實際過程中也深有體會,因為在運維一旦自動化後,原來的效益會指數級放大,同樣的,風險也會指數級放大! 

在設計上,BeyondBSM自動化運維繫統有以下幾個考慮:

基於BRAC模型的許可權控制和認證管理

針對不同角色分配系統、選單、按鈕許可權; 人員和角色可以靈活配置:

所有按鈕操作的許可權都可進行細化,防止不具有許可權的人進行操作:

所有指令碼執行,均納入審批流程,防止單個人員完成整個運維操作:

靈活的認證方式

系統指令碼執行引擎與各維護資源均採用互信方式,防止密碼洩露。

提供針對特定場景的獨立主機認證方式管理(只有建立人有許可權,密碼採用不可逆加密儲存)。

相對隔離的上下游資料

系統的使用者資料均對接企業內部sso、ldap,防止後門賬戶。

所有操作的資源物件,都是由上游資產管理等類CMDB系統提供,保證了資料的準確性和一致性;同時阻止了未納入系統的資源控制。

人機隔離和安全審計

系統底層透過自動化執行引擎worker訪問機器,隔離了人直接操作機器;

圖形化編排引擎

所有指令碼執行均儘量透過圖形化選擇、編排等形式完成,最大可能避免引入人為錯誤;

同時所有操作(無論系統內部操作還是運維執行)均有審計日誌;

實時檢視指令碼執行結果:

對於指令碼中含有的高危命令,具有  事前識別  的機制 :

支援定時任務:

內建備份恢復等常用場景:

後記

有了自動化運維繫統的幫助,相信很多企業的員工可以從多個方面減少出錯的機會和機率,降低了被刪庫跑路的風險。

以BeyondBSM自動化運維產品為核心的運維繫統已經交付多個金融行業客戶使用,其中包括中國某知名卡機構,該套系統在生產環境平穩執行三年多,極大地提高了運維人員的工作效率和便利性 ,支撐企業業務快速穩定發展。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69923336/viewspace-2677625/,如需轉載,請註明出處,否則將追究法律責任。

相關文章