ISCXTor2016資料集(Tor-nonTor dataset)介紹
簡介
ISCXTor2016資料集是UNB(University of New Brunswick)釋出的Tor流量有標籤資料集。這個大學釋出了很多網路安全領域的資料集,包括廣泛使用的NSL-KDD資料集和CICIDS2017資料集。本文對該資料集進行儘可能詳細的介紹。
資料集生成
為了生成現實世界流量的代表性資料集,作者定義了一組任務,以確保資料集具有足夠的多樣性和條目數。作者為使用者Alice和Bob建立了帳戶,以便使用Skype,Facebook等服務。資料集包含來自超過18種代表性應用程式(例如,facebook,skype,spotify,gmail等)的以下8種型別的流量(browsing, chat, audio-streaming, video-streaming, mail, VOIP, P2P 和 File Transfer)。
Tor流量捕獲場景如圖1所示。圖出自參考文獻中的論文。
工作站通過閘道器虛擬機器連線到Internet,後者又通過Tor網路路由所有流量。通過此配置,在工作站虛擬機器上使用Tor網路變得透明。作者同時捕獲了工作站和閘道器處的傳出流量,並收集了兩個.pcap檔案:一個常規流量(工作站)pcap檔案和一個Tor流量(閘道器)pcap檔案。捕獲的流量通過以下兩步進行標記。 首先,對在工作站捕獲的.pcap檔案進行處理:作者提取了流,並確認大部分流量是由應用程式X(skype,ftps等)生成的,X即流量捕獲的物件。然後,作者將來自Tor .pcap檔案的所有流標記為X。這種標記Tor流量的方法背後的原因是,Tor是一種面向電路的協議:從閘道器到入口節點的所有流量都將被加密並通過相同的連線傳送。
資料集中定義了8種類別,即Browsing, Email, Chat, Audio-streaming, Video-streaming, File Transfer, VoIP和P2P。具體定義可以看文獻。同時,作者定義了一系列特徵,詳見文獻。
作者考慮了兩種場景:
- Scenario A: Tor流量檢測。為了建立這種場景,作者合併了兩個不同的資料集,即本文中介紹的Tor資料集和Draper-Gil等人生成的加密流量公開資料集,其包含了同一網路上的相同應用。作者根據pcap檔案生成了流,並從每個資料集中提取了所提出的基於時間的特徵,並將來自Tor資料集的所有流標記為Tor,並將來自Draper-Gil等人的資料集的所有流標記為NonTor。作者合併了兩組帶標籤的流,並將它們用作場景A實驗的輸入。在這種場景下,用例是一個給定從加密流量(輸入)中提取的一組基於時間的特徵,分辨出是否屬於Tor(輸出)流量的應用。
- Scenario B: Tor流量中的應用鑑別。在這種場景下,僅使用了本文介紹的Tor資料集。根據在閘道器處捕獲的.pcap檔案生成了流,並根據工作站上執行的應用程式對它們進行了標記(Browsing, Audio, CHAT, Mail, P2P, FILE TRANSFER, VOIP, 和Video)。此場景中的用例是一個應用程式,給定從Tor流提取的一組基於時間的特徵(輸入),該應用程式將檢測(標記)在該流中執行的應用程式型別(輸出)。
實驗部分不做介紹了,感興趣的可以去看原文獻。
資料集檔案
共有兩個壓縮包,即TorCSV.zip和TorPcaps.zip。
- TorCSV.zip中有Scenario-A和Scenario-B兩部分,其中Scenario-A中檔案如圖2所示,Scenario-B中檔案如圖3所示。資料集中的時間為UDP流的timeout時間(生成流時,TCP根據FIN包確定結束時間,UDP流根據timeout時間結束)。
- TorPcaps.zip中有nonTor和tor兩部分,其中nonTor中檔案如圖4所示,tor中檔案如圖5所示。nonTor應該就是Draper-Gil等人生成的加密流量公開資料集,tor為作者捕獲的資料。
寫在最後
由於水平有限,不足之處,還請批評指教。另外,由於一些眾所周知的原因,可能官網下資料集比較慢。我把資料集下下來存到onedrive上了,需要的可以聯絡我分享onedrive連結。
參考文獻
Arash Habibi Lashkari, Gerard Draper-Gil, Mohammad Saiful Islam Mamun and Ali A. Ghorbani, “Characterization of Tor Traffic Using Time Based Features”, In the proceeding of the 3rd International Conference on Information System Security and Privacy, SCITEPRESS, Porto, Portugal, 2017.
相關文章
- MNIST資料集介紹
- nuPlan資料集介紹
- Cora 資料集介紹
- echarts使用dataset資料集建立單軸散點圖Echarts
- 資料庫介紹資料庫
- 影象識別及處理相關資料集介紹
- 資料集簡介
- 人臉識別資料集 - Multi-Task Facial Landmark (MTFL) dataset
- 人臉識別資料集 - Large-scale CelebFaces Attributes (CelebA) Dataset
- Redis介紹、使用、資料結構和叢集模式總結Redis資料結構模式
- HSQL 資料庫介紹(1)--簡介SQL資料庫
- 在DataSet資料集中 DataView篩選資料View
- 資料庫介紹--初識資料庫資料庫
- 【Redis】資料型別介紹Redis資料型別
- MySQL資料庫鎖介紹MySql資料庫
- camunda相關資料介紹
- hhdb資料庫介紹(4)資料庫
- Rust 資料型別介紹Rust資料型別
- Bootstrap Blazor 元件介紹 Table (三)列資料格式功能介紹bootBlazor元件
- L10資料庫——資料庫介紹資料庫
- AI研發者福利!谷歌推出資料集搜尋專用引擎Dataset SearchAI谷歌
- ClickHouse 邏輯叢集介紹
- Redis 漸進叢集介紹Redis
- 資料庫安全知識介紹資料庫
- 資料倉儲基礎介紹
- HSQL 資料庫介紹(2)--使用SQL資料庫
- 大資料崗位介紹-引子大資料
- QuestDB時序資料庫介紹資料庫
- H2 資料庫介紹(1)--簡介資料庫
- 海思HI3519a晶片資料資料介紹晶片
- Docker 資料卷,資料卷容器詳細介紹Docker
- Django-ORM---查詢集介紹DjangoORM
- MT8163 Platform datasheet資料介紹Platform
- MT6357 PMIC Datasheet資料介紹
- 大資料 Hadoop介紹、配置與使用大資料Hadoop
- 經典資料分析應用介紹
- 大資料和Hadoop平臺介紹大資料Hadoop
- InfluxDB—資料保留策略(Retention Policies)介紹UX