終於有人把安全知識圖譜技術講明白了(上篇)
知識圖譜是下一代可信人工智慧領域的關鍵技術組成之一。圍繞知識的歸納抽取、演繹推理等處理與分析過程,諸多關鍵問題逐步被攻克,大幅推動了機器認知技術的發展。在網路空間安全領域,防禦技術的智慧化升級也亟需成熟、有效的網路空間安全領域知識圖譜(以下簡稱:安全知識圖譜)技術體系,為應對強對抗、高動態環境下的攻防博弈提供知識要素與推理智慧支撐。為了歸納總結安全知識圖譜的關鍵技術研究進展,本文將分上下兩篇,透過技術概述的方式,嘗試回答以下幾個問題,期望為讀者提供較成體系化的安全知識圖譜研究現狀總結。
Q1:什麼是安全知識圖譜,有哪些類別的安全知識圖譜?
Q2:安全知識圖譜的技術棧包括什麼?
Q3:安全知識圖譜有哪些典型技術研究與應用場景?
Q4:安全知識圖譜應用中的技術挑戰與研究趨勢有哪些?
一、網路安全智慧化發展趨勢
隨著雲端計算、5G、物聯網、工業網際網路等資訊基礎設施關聯技術的發展,網路空間已串聯起工業物理系統、人類社會系統以及網路資訊系統,成為社會數字經濟發展的基石。與此同時,網路空間攻擊面隨之延伸和擴充,網路空間攻防雙方資訊的不對稱性現象愈發明顯。伴隨著攻防對抗態勢的升級,自動化、智慧化技術與攻防技術的融合已成為網路安全技術發展的必然趨勢之一。
圖1 網路安全智慧化發展趨勢
回顧網路空間安全智慧化發展歷程,我們可以將智慧驅動的安全防禦技術發展大致劃分為四個階段,如圖1所示,包括專家系統階段、感知智慧階段、認知智慧階段以及決策智慧階段。以下分別進行簡要介紹:
專家系統階段。在該階段,防護裝置與系統的自動化和智慧化,主要基於專家經驗與知識驅動的專家系統。面向不同的應用場景,需要專家編寫指定的檢測規則系統、響應規則系統等。這些以列表結構、樹結構、圖結構簡單組織的規則邏輯結構,能夠有效自動化響應特定分析場景下的攻擊行為。從專家系統的外部來看,該系統確實能夠表現出智慧分析的效果。然而,隨著攻防技術的快速迭代和升級,攻防場景與流程的更細,此類專家系統一方面,系統分析邏輯的完備性在大資料場景下迎來關鍵挑戰,針對攻擊的誤報率、漏報率和整體準確性效能衰減很快;另一方面難以有效自適應演化,過度依賴專家資源,可維護性低,能夠支撐的場景愈發受限。
感知智慧階段。隨著機器學習、深度學習技術的研究開展,網路安全防禦中面臨的諸多檢測和分類問題,也迎來新的解決方案——智慧感知,即從大規模資料中,進行識別、檢測和分類,挖掘出異常的、惡意的攻擊行為。例如,識別惡意流量、惡意樣本、惡意郵件、異常業務識別等場景,透過資料驅動的演算法能夠實現高效的實現資料統計規律建模,挖掘惡意行為/樣本與正常行為/樣本之間的關鍵區分性特徵。雖然在諸多威脅感知場景下,基於統計機器學習的智慧分析方法取得了重要的突破,但在面對高度動態複雜的網路行為分析時,感知層輸入往往缺乏有安全語義的規範化建模,資料層次異常而非真實惡意攻擊的誤報情況難以避免。此外,多維度單點的感知分析結果,仍需要深度的專家參與的研判與關聯分析,才能完整還原攻擊行為全貌,限制了APT等高階複雜攻擊技戰術的分析的自動化水平的提升。
認知智慧階段。面向複雜網路環境、複雜攻擊技戰術組合以及多層次多源異構的資料融合,網路空間安全防禦亟需具有能夠實現深度理解分析能力的認知智慧技術方案。不限於感知層的孤立的識別範圍和分析深度,認知層主要負責實現資料、情報、知識、環境等多維度資料的自動關聯、語義消歧,構建更完整、更豐富的資料湖基礎設施,進而基於資料湖,實現威脅溯源歸因、攻擊意圖識別與行動預測等與安全專家相媲美的自動化分析能力。在認知智慧階段,自然語言處理技術、知識圖譜、因果推理、意圖理解等認知層次的智慧技術與安全場景、安全資料的融合水平,成為認知智慧技術發展的關鍵因素。
決策智慧階段。網路安全防禦系統的決策效果,將影響到資訊業務系統、物理裝置甚至社會組織的穩定執行狀態,是經濟、安全、政治攸關的。因此,在感知和認知的基礎上,只有具備決策智慧的網路安全防禦系統,才能夠進一步在安全防禦策略自主構建、自適應脆弱性修復、攻擊事件響應與緩解等傳統完全依賴系統負責人與安全專家部署的策略制定過程中實現自動化。決策的過程受到諸多方面的影響,包括資訊收集的精確性評估、策略知識的完備性識別、系統風險的整體量化以及決策系統的效果預測等等。這些關鍵能力的構建,都依賴於負責、魯棒、透明的可信任安全智慧技術基礎設施。
網路安全智慧化的發展,正隨著多維度感知智慧技術的演進,向認知智慧和決策智慧化方向演進。在這個過程中,安全知識圖譜技術,已成為整個技術體系的基礎性核心工作。安全知識圖譜技術,一方面,透過本體建模、實體對齊、連結構建等方式,為認知、決策過程提供超融合的資料基礎設施,是大規模異構資料來源統一分析的基礎;另一方面,基於知識圖譜的推理,包括表示學習、關聯分析、事件溯源、行為預測等能力,是認知智慧的主要組成部分;最後,圍繞知識圖譜構建的逐層推理與分析,為指定場景下決策智慧的達成提供了關鍵輸入要素和策略構建框架。
推進網路空間安全知識圖譜的構建與基於知識圖譜的推理技術成熟,已成為網路安全智慧從專家系統、感知智慧,邁向認知智慧、決策智慧的必由之路,亦是應對網路空間高階、持續、複雜威脅與風險不可或缺的技術基礎。
二、 安全知識圖譜技術內涵
圍繞知識的識別、抽取,圖譜的構建、推理及應用,知識圖譜技術體系能夠在、知識歸納推理知識固化、人機協同等多個方面促進網路空間安全檢測、溯源、預測、響應等關鍵能力的智慧化與自動化水平。本部分將首先介紹網路空間安全知識圖譜的技術的核心內涵、技術優勢與技術框架。
概念內涵
知識圖譜是是通用人工智慧與專用人工智慧領域的關鍵技術組成之一。透過語義化的知識組織結構,知識圖譜將機器演算法與領域知識充分融合,極大的促進了知識工程方向智慧化的發展速度。在智慧推薦、智慧搜尋、通用認知推理、人機互動問答、智慧決策支援等應用場景中,知識圖譜得到的廣泛的應用與實踐。知識圖譜本質是由實體(概念)及實體(概念)間關係,以及關聯屬性組成的一種語義網路,透過結構化的資料組織結構,以有效地表示實體(概念)之間的語義關聯關係,可形式化表示為:
其中每個三元組代表一個知識單元,表示了源實體Subject與目的實體Object之間,具有關係Relation。一個典型的知識圖譜中,主要可劃分為模式層與資料層。模式層是整個知識圖譜構建的基礎,是資料組織的正規化,一般透過本體庫的設計實現。本體,是結構化知識庫的概念模板,描述了資料的元資訊與元結構。資料層,是根據模式層本體模板正規化生成的實體、關係及屬性的例項集合,這些例項描述某一類或某一個概念的知識事實。
從知識範疇、應用場景來看,知識圖譜可劃分為通用知識圖譜和領域專用知識圖譜。通用知識圖譜,例如Freebase、Wikidata、DBpedia等大規模知識庫,主要應用於普適性的智慧搜尋、推薦場景中,提供具有廣度的、基本的知識關聯基礎設施。領域專用知識圖譜,則基於某知識子領域,構建具有深度的知識空間,服務於該知識領域內特定的查詢、推理分析需求。
安全知識圖譜是面向網路安全空間的威脅建模、風險分析、攻擊推理等攻防需求,基於網路和安全知識庫、情報庫、資產庫、行為日誌中關鍵實體(概念)及關係構建的大規模語義網路,是網路安全領域專用知識圖譜。
圖2 基於惡意軟體知識圖譜的分類可解釋性示例
安全知識圖譜作為網路安全的領域知識圖譜,能夠充分發揮安全知識與經驗與資料的融合下,人工智慧技術的巨大潛在價值,加速網路安全技術領域的智慧化與自動化。這是因為,網路環境本身具有典型的圖結構,網路安全知識、資訊、資料依照知識圖譜的形式組織起來,首先,能夠充分發揮圖資料的結構優勢,將基於圖的統計、分析、推理方法融入到知識挖掘的過程當中來。其次,知識圖譜中的各類實體(概念)之間的關係,保留了明確的語義資訊,即各型別的上下游資訊依賴關係。基於語義資訊的關聯與推理技術,是認知智慧與決策智慧技術的關鍵步驟。此外,網路安全場景下的推理分析結果將最終指導安全團隊的應急與響應工作,需要推理的過程的透明度與可解釋性,來提升人類對機器推理的可信任程度。知識圖譜正是可解釋人工智慧技術的重要組成。透過前述結構與語義的關聯網路,知識圖譜能夠輔助給與運營團隊符合安全領域知識框架的分析結果,支撐威脅的研判、取證與響應任務的開展。例如,透過惡意軟體知識圖譜,來解釋針對惡意文件的機器學習分類器分類的關鍵特徵結果,能夠透過關聯的知識,而非孤立的特徵數值,來反映惡意文件的與正常文件之間的關鍵特徵差別。
圖譜分類
從學術研究和工業應用語境來看,狹義的安全知識圖譜一般特指基於安全知識庫,如ATT&CK、DE3FEND、CAPEC等構建的圖譜化知識庫及相關分析技術,而廣義的安全知識圖譜泛指透過屬性圖、RDF等型別圖形式組織起來的圖譜化網路安全資料基礎設施及相關分析技術。本文將以廣義的安全知識圖譜技術作為安全知識圖譜的定義。
在不同的應用場景下、在不同的資料來源構成下,安全知識圖譜可以有多種不同的型別。以下介紹幾類較為常見的安全知識圖譜型別及其分類原則。值得注意的是,以下劃分方法從知識的採集源、知識的應用目標出發,不同型別知識圖譜之間可能存在資料層次的交叉。
環境知識圖譜
“環境”可以定義為防護網路空間內的各類實體和實體的屬性(基本資訊、脆弱性、合規資訊等),以及實體之間的關聯關係。環境資料圖的構建,需要資產管理、脆弱性管理、風險評估等工具和服務的支撐,也需要類似企業組織資訊、IT系統架構資訊、人力資源資訊等業務資料來支援環境實體的豐富和關係建立。環境知識圖譜是高度動態的知識圖譜。
圖3 Cauldron基於圖的漏洞分析[1]
安全防護不僅僅是構建更厚的防火牆,制定更多預算抵禦可能隨時發生的DDoS攻擊,對資產、資產脆弱性、使用者資訊、IT架構資訊等自身攻擊面資訊的掌控程度,往往決定了網路空間防禦能力的上限。特別是在雲、物聯網、移動網際網路迅速發展的時代背景下,資產數量劇增,型別更加豐富,脆弱性暴露的形勢也更加嚴峻。“知己”比“知彼”顯得更加關鍵,無論是暴露在公網的資產還是邊界內未納入管理的“黑資產”,都將大幅增加安全防護風險。為應對無孔不入的威脅,需要發現安全防護的關鍵實體、關鍵關係,在威脅事件發生的前後,對威脅的潛在影響範圍、影響深度進行全面地評估,以保證攻擊面的準確識別。
行為知識圖譜
“行為”可以定義為可收集的、可檢測的所防護網路空間內實體的動作,可以是DIKW資料層的各類原始日誌,也可以是資訊層的各類檢測告警日誌、聚合的推斷告警日誌。UEBA和SIEM的綜合方案能夠滿足行為資料收集的需求。
圖4 終端溯源圖譜[2]
行為資料圖的重要性不言而喻,從端點到網路,從主動到被動,從邊界到內部,從規則到統計機器學習,等等多維度的行為收集,能夠全面刻畫網路空間實體的行動蹤跡,是識別、歸類、響應、溯源任務的基本前提。透過多行為序列的聚合規則,生成新的告警事件的推理方法已在多種場景中應用起來。不過,行為的關聯不應止於針對單個實體的行為聚合,多實體長時間區間的行為關聯,才是行為資料分析的目標。從處理和儲存效率上來看,將多實體的行為向量組織成圖模型結構是行為關聯的必由之路。行為採集的粒度很大程度上由已有的採集和檢測能力決定,在這一點上,在保證歸一化和體系化的基礎上,“來者不拒”應該是行為收集的一個特點。行為知識圖譜與環境知識圖譜和知識情報知識圖譜的主要特性差異,是行為知識圖譜的時效性更短,更新和新增頻率更高。合理的構造行為資料的本體模型、實體關係,設計行為與環境、情報、知識的互動能力,並管理行為知識圖譜資料的生命週期,是行為知識圖譜發揮最大價值的關鍵所在。
情報知識圖譜
不同型別的“威脅情報”,可能會造成對情報概念的不同解讀。在此,對情報的定義可參考2014年Gartner的《安全威脅情報服務市場指南》:“威脅情報是一種基於證據的知識,包括情境、機制、指標、影響和操作建議。威脅情報描述了現存的或者是即將出現的針對資產的威脅或危險,並可以用於通知主體針對相關威脅或危險採取某種響應。”以此定義為基礎,可以說威脅情報與各類知識庫各有側重又相互交叉。一個典型的安全知識圖譜模式層本體結構如圖5所示。STIX(Exchange Cyber Threat Intelligence)是網路空間威脅情報的一種描述語言與資訊組織結構。STIX 2.0版本的本體(在STIX中稱為STIX Domain Objects, SDO)主要包括如圖所示的多種實體(概念)及其之間的語義互動關係。該本體結構,即給定了描述威脅情報資訊與知識的一種語義結構範本。
圖5 STIX2.0的模式層
威脅情報,能夠擴充套件安全團隊的威脅視野,透過更多威脅上下文提升安全事件研判能力。現階段,威脅情報已經成為重要的戰略和商業資源,廣泛地應用於安全運營、態勢感知、威脅分析、風險評估、攻擊溯源等多個領域。值得注意的是,不同的威脅情報提供商本身對威脅情報理解的維度和深度不同,構建可用的情報資料圖,威脅情報勝在豐富、準確和時效性,選擇符合特定業務場景的威脅情報源構建專用的情報知識圖譜,是提升效率和可用性的關鍵。
知識庫知識圖譜
知識與情報在不同的情景內常常出現概念的交叉。在這裡,我們將歸納的、可用於推理的、與時間弱相關的安全資料稱為知識資料,包括各類知識庫,如ATT&CK[3]、CAPEC[4],以及各類列舉庫,如CWE[5]、CNNVD等等。知識庫的構建往往依賴於專家經驗、威脅情報的收集、驗證和凝練,所抽象的概念和關係是通用的建模基礎。當前,知識庫的構建和共享已成為安全行業的共識,知識資料圖能夠提供特定環境和場景下威脅行為的關聯知識,評估威脅行為的影響範圍和深度,對潛在威脅做出預警,並給出合理的應對方案。
圖6 ATT&CK與CAPEC的知識關聯
知識庫知識圖譜賦能下的威脅事件分析,能夠擴充行為、環境、情報知識圖譜關聯實體的概念和資料上下文,以支援推理的語義富化關聯。相對於更商業化的威脅情報,知識庫可以基於公開或開源的專案資料,國內外許多機構也正致力於建設更廣泛、更專業的威脅關聯知識庫,如CAPEC、CWE、CNNVD、ATT&CK等等,也可以透過知識圖譜、自然語言處理技術,從多源資料中自動化抽取和構建知識圖,並透過關係推理等方式對知識圖進行擴充。
相關文章
- 終於有人把網路爬蟲講明白了2019-04-10爬蟲
- 終於有人把隱私計算講明白了2022-05-07
- 終於有人把工業資料採集講明白了2022-05-10
- 終於有人把Web 3.0和元宇宙講明白了2022-05-07Web元宇宙
- 終於有人把能把資料採集給講明白了2022-04-28
- 終於有人把BungeeCord群組服搭建教程方法講明白了2022-04-28
- 瞧!終於有人把智慧製造與工業4.0講明白了2022-04-28
- 終於有人把雲端計算、大資料和 AI 講明白了2018-11-21大資料AI
- 終於有人把MYSQL索引講清楚了2020-09-15MySql索引
- 終於有人把雲端計算、大資料和人工智慧講明白了2018-05-19大資料人工智慧
- ClickHouse與Hive的區別,終於有人講明白了2022-12-29Hive
- MPP大資料系統架構,終於有人講明白了2023-03-30大資料架構
- 前端基礎技術知識講解-面試圖譜2019-01-05前端面試
- 面試圖譜:前端基礎技術知識講解2018-07-23面試前端
- 終於有人能把c#樂娛LEY介面的作用講明白了2022-05-12C#
- 資料視覺化的設計技巧,終於有人講明白了!2023-01-09視覺化
- 大資料基礎架構Hadoop,終於有人講明白了2022-12-21大資料架構Hadoop
- 終於有人把ERP和OA的區別講清楚了!2024-11-21
- 分析即服務(AaaS)到底是什麼?終於有人講明白了2022-03-30
- 知識圖譜技術的新成果—KGB知識圖譜介紹2019-10-22
- 知識圖譜技術如何賦能智慧安全運營2021-03-15
- 終於有人把不同標籤的加工內容與落庫講明白了丨DTVision分析洞察篇2022-09-08
- NLPIR技術運用知識圖譜技術應用於智慧金融2019-12-31
- 這一次終於有人把MySQL主從複製講全面了!!!2021-05-12MySql
- 終於有人把15個JavaScript的重要陣列方法給講出來了2022-04-28JavaScript陣列
- 知識圖譜——技術與行業應用2022-10-14行業
- 五險一金終於有人給講清楚了2024-03-08
- 5000字長文分享!資料倉儲的建設與框架終於有人給講明白了2021-09-10框架
- 終於有人把Java記憶體模型說清楚了2019-04-28Java記憶體模型
- C#:終於有人把 ValueTask、IValueTaskSource、ManualResetValueTaskSourceCore 說清楚了!2020-12-03C#
- 乾貨 | 知識圖譜的技術與應用2019-11-20
- sql學習:終於把sql case語句使用講明白了,一看就懂2024-05-12SQL
- 終於有人把機器學習中的文字摘要解釋清楚了!2019-04-19機器學習
- 【教程】終於有人把Java記憶體模型說清楚了!2018-08-02Java記憶體模型
- 基於知識圖譜的問答系統關鍵技術研究 #042017-06-19
- 知識圖譜|知識圖譜的典型應用2022-10-18
- 知識圖譜01:知識圖譜的定義2020-10-05
- 美團知識圖譜問答技術實踐與探索2021-11-05