ISCXTor2016資料集(Tor-nonTor dataset)介紹

wisemanchen發表於2021-01-01

簡介

  ISCXTor2016資料集是UNB(University of New Brunswick)釋出的Tor流量有標籤資料集。這個大學釋出了很多網路安全領域的資料集,包括廣泛使用的NSL-KDD資料集和CICIDS2017資料集。本文對該資料集進行儘可能詳細的介紹。

資料集生成

  為了生成現實世界流量的代表性資料集,作者定義了一組任務,以確保資料集具有足夠的多樣性和條目數。作者為使用者Alice和Bob建立了帳戶,以便使用Skype,Facebook等服務。資料集包含來自超過18種代表性應用程式(例如,facebook,skype,spotify,gmail等)的以下8種型別的流量(browsing, chat, audio-streaming, video-streaming, mail, VOIP, P2P 和 File Transfer)。
   Tor流量捕獲場景如圖1所示。圖出自參考文獻中的論文。
圖1 Tor流量捕獲場景

圖1 Tor流量捕獲場景

   工作站通過閘道器虛擬機器連線到Internet,後者又通過Tor網路路由所有流量。通過此配置,在工作站虛擬機器上使用Tor網路變得透明。作者同時捕獲了工作站和閘道器處的傳出流量,並收集了兩個.pcap檔案:一個常規流量(工作站)pcap檔案和一個Tor流量(閘道器)pcap檔案。捕獲的流量通過以下兩步進行標記。 首先,對在工作站捕獲的.pcap檔案進行處理:作者提取了流,並確認大部分流量是由應用程式X(skype,ftps等)生成的,X即流量捕獲的物件。然後,作者將來自Tor .pcap檔案的所有流標記為X。這種標記Tor流量的方法背後的原因是,Tor是一種面向電路的協議:從閘道器到入口節點的所有流量都將被加密並通過相同的連線傳送。
   資料集中定義了8種類別,即Browsing, Email, Chat, Audio-streaming, Video-streaming, File Transfer, VoIP和P2P。具體定義可以看文獻。同時,作者定義了一系列特徵,詳見文獻。
   作者考慮了兩種場景:

  • Scenario A: Tor流量檢測。為了建立這種場景,作者合併了兩個不同的資料集,即本文中介紹的Tor資料集和Draper-Gil等人生成的加密流量公開資料集,其包含了同一網路上的相同應用。作者根據pcap檔案生成了流,並從每個資料集中提取了所提出的基於時間的特徵,並將來自Tor資料集的所有流標記為Tor,並將來自Draper-Gil等人的資料集的所有流標記為NonTor。作者合併了兩組帶標籤的流,並將它們用作場景A實驗的輸入。在這種場景下,用例是一個給定從加密流量(輸入)中提取的一組基於時間的特徵,分辨出是否屬於Tor(輸出)流量的應用。
  • Scenario B: Tor流量中的應用鑑別。在這種場景下,僅使用了本文介紹的Tor資料集。根據在閘道器處捕獲的.pcap檔案生成了流,並根據工作站上執行的應用程式對它們進行了標記(Browsing, Audio, CHAT, Mail, P2P, FILE TRANSFER, VOIP, 和Video)。此場景中的用例是一個應用程式,給定從Tor流提取的一組基於時間的特徵(輸入),該應用程式將檢測(標記)在該流中執行的應用程式型別(輸出)。

  實驗部分不做介紹了,感興趣的可以去看原文獻。

資料集檔案

  共有兩個壓縮包,即TorCSV.zip和TorPcaps.zip。

  • TorCSV.zip中有Scenario-A和Scenario-B兩部分,其中Scenario-A中檔案如圖2所示,Scenario-B中檔案如圖3所示。資料集中的時間為UDP流的timeout時間(生成流時,TCP根據FIN包確定結束時間,UDP流根據timeout時間結束)。

Scenario-A

圖2 Scenario-A

Scenario-B

圖3 Scenario-B
  • TorPcaps.zip中有nonTor和tor兩部分,其中nonTor中檔案如圖4所示,tor中檔案如圖5所示。nonTor應該就是Draper-Gil等人生成的加密流量公開資料集,tor為作者捕獲的資料。

nonTor

圖4 nonTor

tor

圖5 tor

寫在最後

  由於水平有限,不足之處,還請批評指教。另外,由於一些眾所周知的原因,可能官網下資料集比較慢。我把資料集下下來存到onedrive上了,需要的可以聯絡我分享onedrive連結。

參考文獻

Arash Habibi Lashkari, Gerard Draper-Gil, Mohammad Saiful Islam Mamun and Ali A. Ghorbani, “Characterization of Tor Traffic Using Time Based Features”, In the proceeding of the 3rd International Conference on Information System Security and Privacy, SCITEPRESS, Porto, Portugal, 2017.

相關文章