網路安全公開資料集Maple-IDS,惡意流量檢測資料集開放使用!

catlee發表於2024-08-31

Maple Dataset 楓葉資料集
Maple Dataset楓葉資料集由東北林業大學網路安全實驗室(https://maple.nefu.edu.cn/lab/)公開發布,是用於入侵檢測評估的資料集,其目的在於提升異常基礎入侵檢測系統(IDS)以及入侵預防系統(IPS)的效能與可靠性。在網路攻擊愈發複雜的當下,擁有一個可靠且緊跟時代的資料集,對於測試和驗證 IDS 及 IPS 解決方案是極其重要的。

且如今的網路攻擊手段多樣,攻擊者常常採用混合式攻擊,如同時結合病毒、木馬和網路釣魚等方式。在這種情況下,如果沒有高質量的資料集來對 IDS 和 IPS 進行測試,就難以確保其能有效地抵禦這些複雜攻擊。又如,新出現的零日攻擊等未知威脅,更需要藉助最新的資料集來訓練和驗證防護系統,以便及時發現和防範。

楓葉資料集旨在提供最新的、多樣化的攻擊資料,以幫助研究人員和開發者更好地評估和改進他們的入侵檢測和預防系統。我們在大量的服務上生成並採集了惡意流量,包含了最新的 CVE,以及真實世界中存在著的惡意攻擊型別。

資料集官網:https://maple.nefu.edu.cn/

資料集性質:供科研學術可免費公開使用,但請引用我們的官網或論文。

資料集列表:

DDoS: HTTP (Plain/gzip/random), TCP, UDP, ReCOIL, LOIC
DNS: DoH, DoQ, DoT (coming soon)
ICMP: Normal ICMP, Smuggled ICMP
MySQL: CVE-2012-2122
Nginx: CVE-2017-7529
OpenSSL: CVE-2022-0778, HeartBleed, Normal traffic
Windows OS: Windows 10 provision, Windows Update
VPN: Cisco AnyConnect, DNS Leak, Trojan traffic (coming soon)
如何使用
直接使用 CSV 檔案
資料集中提供的 CSV 已經符合了 CIC-IDS 中的列與元資訊。
改動 Python 中載入 *.csv 的名稱即可。
從流量檔案手動生成 CSV
準備好上方下載完的資料集流量檔案(*.pcap)。
使用 CICFlowMeter (https://github.com/ahlashkari/CICFlowMeter) 開啟。
選取離線模式,匯出為 CSV 檔案。
研究背景
傳統的評估資料集的攻擊流量和利用方式,往往內容過時、流量多樣性不足、攻擊種類不足、特徵不足。重要的是,隨著 HTTPS/TLS 加密的普及了,惡意流量被層層加密,無法被安全裝置解析。

因此,楓葉資料集提供了一個全面、現代的資料集來供機器學習人員學習惡意流量特徵,用於入侵檢測研究。

相容使用CIC-IDS資料集的程式碼
如果你的程式碼或模型是用 CIC-IDS 資料集訓練或者編寫的,那麼可以直接更換到楓葉資料集上,我們的格式相容了 CIC-IDS。

您可以直接使用 CICFlowMeter 這個工具來生成 CSV 檔案,輸入到機器學習模型中。

無需重寫程式碼或進行其他改動。

資料集類別概覽(包含內容)
內容:資料集包含最新的常見攻擊,類似於真實世界的網路流量(PCAP/PCAPNG 格式)。
流量分析:使用 CICFlowMeter 進行的網路流量分析結果,標記基於時間戳、源和目標IP地址、埠、協議和攻擊型別的流,儲存在CSV檔案中。
DDoS 攻擊:資料集包括 DDoS 攻擊,這些在真實世界的網路流量中很常見。並且由於隨機內容,資料集更加多樣化。GET、POST、HEAD 和 OPTIONS 是最常見的 HTTP 方法。
對每種服務細分的流量包和資料集 :我們對於每種服務(HTTP、HTTPS、SMTP、IMAP、POP3、FTP、SSH、RESTful API、gRPC、WASM)都提供了資料集。
多樣的流量 :對於 ping 或者 HTTP,DDoS 的形式就多種多樣,TCP,UDP, SYN 攻擊,還有 ICMP 走私,我們的資料集都有覆蓋到。
N-day 漏洞:資料集包括 n-day 漏洞,如 OpenSSL 中存在的著名漏洞 HeartBleed,日後打算囊括更多的 CVE 漏洞。
更多功能即將推出
DPDK、PF_RING 支援
如果您有任何問題或建議,請給我們反饋。

資料生成
與完全隨機的流量不同,我們根據真實世界中使用者、端點和流量的行為模式,對流量的結構進行編排配置。在流量加密方法上,基於了 HTTP、HTTPS與SM3/4等進行資料包構造。 模擬了對於 SSH、RESTful API、gRPC、WASM 流量的,這些現代協議及其各種實現等,組成了本資料集的主要部分。

處理工具
在建立資料集的過程中,我們使用了許多自己開發的工具。
它們是開源的,可以從 GitHub 上免費下載。
大部分工具的倉庫中都有教程。

聯絡我們
有任何問題或需要幫助,請隨時與我們聯絡:

電子郵件:maple@nefu.edu.cn
GitHub:github.com/maple-nefu
QQ 群:631300176

東北林業大學實驗室官網:https://maple.nefu.edu.cn/lab/

相關文章