RSA 2021如期線上上舉行,大會主題為:Resilience(彈性),強調可恢復性和健壯性。該主題在如今世界疫情導致的混亂大背景下非常貼切,這或許也是駭客&威脅、風險管理相關內容在本屆主題中佔比最大的原因之一。當然,作為具有世界影響力的資訊保安大會,傳統安全所關注的一系列相關問題仍是討論熱點。很多參展廠商針對安全領域持續關注的課題提出了自己的思路,其中大部分是再次強調過去實踐驗證有效的成功經驗和方法,另一部分則是創新嘗試。
大資料場景下,威脅資料分析和威脅狩獵一直是國家相關監管部門和企業主要的安全應用場景,也是RSA一定會涉及的主題。內容往往涵蓋宏觀的威脅框架和業務流,以及具體的行之有效的演算法應用和資料處理方法等。綠盟君透過梳理本屆參展廠商彙報演講內容,對海量資料背景下部分廠商的資料處理分析和威脅模型構建思路進行總結。
一. 海量多模態資料的處理方法
大資料場景下,威脅安全分析一開始需要面對的問題就是如何有效處理接入的海量告警。在一個典型的大資料場景下,接入的資料往往是海量且異構的。
這一階段的核心訴求在於,一方面希望接入一切能夠接入的資料以保證威脅特徵的完整性,這些資料通常包括終端資料、各種網路流量探針資料、威脅情報甚至研判人員發出的相關日誌等。而另一方面,又希望接入的資料能夠得到有效整合和篩選,凸顯出真正值得關注的少量資料,從而保證威脅特徵的有效性。一定程度上這兩個需求互相矛盾,但利用行之有效的正規化化方法和特徵關聯篩選之後,仍然可以同時被滿足。
來自Fortinet 的Roy Katmor和Udi Yavo在演講中列出他們在資料處理階段的一些關鍵步驟,包括資料正規化化、特徵提取、關聯和富化。
IBM的Xiaokui Shu和Jiyong Jang在介紹他們的開源專案Kestrel時,將他們的威脅狩獵業務流定義為2個關鍵環節:多模態告警資料的模式化,以及基於該模式的分析模型。
需要指出的是,Xiaokui Shu所說的多模態資料的模式化是基於威脅特徵層面的模式化,而非是簡單的資料(record)層面,這是他們後續進行基於實體(entity based)的威脅分析模型構建的基礎。
此外,基於初始資料進行有效的關聯擴充套件(Scoping)和上下文的富化(conetxt enrich)可以有效補充更多的威脅特徵,以支撐後續威脅模型的訓練和推理。
在如何有效聚焦和篩選資料方面,Stamus Networks的兩位專家給出了他們的思路。
首先,他們認為可以基於真實的具體威脅源、C&C等型別,或者一系列TTP層面的要素組合方式進行篩選,而非簡單根據量化的危險程度篩選。另外,從目標資產視角來進行篩選也是不錯的思路。
綜上所述,大資料場景下的海量多模態資料處理思路可以總結為幾個關鍵環節:多源資料的採集、資料的正規化化、資料的特徵富化以及基於特徵的篩選。每一個關鍵環節的具體做法往往依賴於具體安全業務場景和需求,更取決於後續威脅模型的具體資料要求。
二. 威脅模型構建方法
大資料場景下的威脅模型構建往往繞不開各種人工智慧演算法的參與,但與當年機器學習(尤其是深度學習)剛取得突破性進展時“機器學習無所不能”的氛圍不同,近年來,包括資訊保安在內的各個行業對於人工智慧,特別是機器學習的侷限性等問題越來越清晰,Fortinet 的兩位專家在他們的《Applying Artificial Intelligence to the Incident Response Function》中就指出,在事件響應方面AI不能完全取代人工。
因此,目前絕大多數研究人員不再盲目相信智慧演算法,而是轉而尋求人工深度參與的“半智慧”方法,將專家知識和智慧演算法進行結合,從而提升演算法的可控性和可解釋性。
Fortinet的兩位專家透過在分類模型的訓練資料中引入模擬攻擊資料來進一步加強對分類模型的人工干預,並基於細化的威脅特徵場景來進一步構建不同的分類模型,降低對分類模型的過度依賴,提升分類模型的可控性。
而IBM的Xiaokui Shu和Jiyong Jang則提出了另一個相對較為新穎的思路:基於行為特徵構建的威脅實體,結合專家構建分析模型進行推理。
這個方法有一個前提,就是前文提到的利用行為特徵模式化多模態資料,將海量多源異構資料轉化為威脅實體,從而能從接近行為的層面進行關聯推理。
他們還進一步提出,可以參照STIX的框架進行對應,將STIX中的域物件和關係物件對應威脅實體和推理生成的關聯邊,從而極大地提升模型的共享和匯入能力。
三. 綠盟科技相關研究
綠盟科技平行實驗室一直持續關注大資料場景下多模態資料的感知理解和威脅模型構建方面的研究。與上文所介紹的幾個廠商的研究者方法類似,我們基於對威脅安全的認知,構建了綠盟科技威脅安全知識圖譜,並基於圖譜本體,將大資料平臺接入的多模態資料正規化化理解為威脅實體,依託知識圖譜儲存的威脅語義知識,在實體層面擴充並關聯事件語義,結合專家知識和攻擊鏈等模型對事件進行整合及篩選。
在威脅模型構建方面,透過抽取事件及相關上下文語義特徵,與圖譜中APT組織、惡意程式碼家族進行特徵向量相似度計算,對威脅事件的攻擊團伙進行歸因。
此外,綠盟科技構建以威脅源為核心的特徵圖模型,並利用圖計算進行多次迭代的聚類,從而發現隱藏於海量事件中的團伙活動。團伙特徵也會在簡單研判之後儲存至圖譜團伙知識庫中,團伙知識庫同樣支援STIX格式的匯入和匯出。
四. 小結
透過梳理本屆RSA中大資料場景下的資料分析和威脅模型構建相關方面的研究彙報,我們發現一些傳統的思路沒有改變,如儘可能接入可能包含威脅特徵的多源資料,在保留威脅特徵的前提下進行資料的正規化化和篩選等。威脅情報引入、上下文語義的富化等處理方法也逐漸被更多廠商提及。
另外,值得一提的是,隨著業界對於包括機器在內的人工智慧演算法的理解逐漸趨於理性,幾乎不再看到單純依靠人工智慧演算法支撐安全業務的情況,更多安全研究者正在考慮進一步分解安全業務,並加強專家知識的主動干預,從而在有效利用人工智慧演算法高效處理能力的基礎上,提升演算法的可控性和可解釋性。