As a reader --> NetDiffus: Network Traffic Generation by Diffusion Models through Time-Series Imaging

阿洛萌萌哒發表於2024-04-09
  • 📌論文分類Ⅲ:
    • 論文名稱 NetDiffus: Network Traffic Generation by Diffusion Models through Time-Series Imaging
    • 作者 Sivaroopan N, Bandara D, Madarasingha C, et al.
    • 期刊名稱 arXiv preprint arXiv:2310.04429, 2023.
    • 簡要摘要
      網路資料分析現在幾乎是所有網路解決方案的核心。儘管如此,由於現代網路的複雜性、商業敏感性、隱私和監管限制等諸多原因,對網路資料的有限訪問一直是一個持久的挑戰。這項工作探索如何利用擴散模型(DM)的最新進展來生成合成的網路流量資料。開發了一個端到端框架——NetDiffus,它首先將一維時間序列網路流量轉換為二維影像,然後為原始資料合成具有代表性的影像。實驗證明,NetDiffus優於基於GAN的最先進的流量生成方法,生成資料的保真度提高了66.4%,下游機器學習任務的保真度提高了18.1%。在七種不同的流量軌跡上評估了NetDiffus,並表明利用合成資料顯著改善了流量指紋、異常檢測和流量分類的效果。
    • 關鍵詞
    • ✏️論文內容
      為了克服流量資料的現有問題,合成資料生成已成為一種有希望的替代方案。雖然有許多用於資料包生成的技術和工具,如NS3[21]和iPerf[17],以滿足給定的模型或分佈,但它們無法模擬真實軌跡的複雜性。
      基於ML的方法能夠從痕跡中學習以克服這一限制[18,20,25,38,40]。其中,基於生成模型的解決方案,如DoppleGanger[20]、NetShare[40]和CTGAN[38],在表示實際網路約束和問題方面表現出了優異的效能。然而,作為許多最先進(SOTA)網路流量生成工具基礎的GAN存在模式崩潰、梯度消失和不穩定性,除非超引數選擇得當[8]。
      這項工作探索瞭如何利用擴散模型(DM)架構的最新進展來生成合成網路流量。與生成模型(如GAN)相比,DM表現出了出色的效能,特別是與如Dall-E模型的受控影像生成相比[22]。控制生成輸出的能力使DM非常適合用於訓練ML模型的合成資料生成,因為它允許生成平衡的資料集。這將導致生成更健壯和準確的訓練模型。然而,還沒有對DM產生網路流量進行研究。據我們所知,這是利用擴散模型生成網路資料的第一次嘗試。
      • 本文提出NetDiffus,這是一個使用DM利用時間序列成像來實現高保真合成資料的網路流量生成框架。首先,我們將1D網路軌跡轉換為一種稱為Grammian Angular sum Field (GASF)的特定影像格式[37],以捕獲1D網路軌跡的重要特徵。GASF影像可以編碼諸如資料包大小、包間時間等特徵,最重要的是將1D時間序列樣本之間的相關性編碼到2D空間的影像上,使其成為ML模型的豐富資訊源。第二,減少計算量,改進特徵學習過程,在GASF影像上應用了一些簡單的影像處理技術,如對比度調整和影像大小調整。最後,這些增強的資料用於訓練DM,來自訓練模型的合成資料用於改進各種下游ML任務。
      • 這項工作的目標是生成2D GASF格式的網路流量特徵,無論是原始的(例如,資料包大小)還是預處理的(例如,一組資料包下載的位元組數[3]),並將其直接用於改進下游ML任務[12,31,36,37]。請注意,與最近的工作不同[20,40],NetDiffus在此階段不生成後設資料。
      • 利用廣泛的網路流量資料:影片、網路和物聯網,實驗結果表明標準DM可以生成比基線更高保真度的資料。例如,與基於SOTA GAN的模型DoppelGanger[20]和NetShare[40]相比,NetDiffus的保真度分別提高了28.0%和85.6%。此外,利用這些合成資料來訓練與不同網路相關任務相關的ML模型,例如流量指紋、異常檢測和資料有限場景下的分類。即使不與原始資料結合,NetDiffus在這些任務中也可以達到與原始資料幾乎相同的精度或提高1-57%的精度。與上述基線相比,NetDiffus合成資料在相應的ML任務中可以提高4.7-32.3%的分類效能。
      • 【內容1】
        • 💡related work
          合成網路流量生成:在資料生成領域已經做了大量的工作[7,13,18,20,40]。
          馬爾可夫模型和遞迴神經網路通常用於先前的網路流量生成模型[20,25]。儘管它們提供了泛化效能,但它們在特定領域生成任務中的保真度仍然有限。在最近的工作中,基於生成對抗網路(GAN)的模型已經徹底改變了網路流量合成,提供了強大的功能。GAN中使用的生成器和鑑別器架構可以有效地提取網路軌跡特徵,並進一步修改以保持時間屬性[13,18,20,38,40]。儘管GAN前景光明,但仍存在模式崩潰、訓練不穩定和不靈活等主要問題[8,20]。
          成像時間序列資料:將一維資料轉換為二維影像在許多著作中得到了廣泛的研究[11,27,33,34,37]。
          這種轉換的一個動機是在下游分析任務中效能的提高,特別是在基於ML的分類中[37]。此外,這種影像表示具有豐富的ML任務資訊[34]。文獻[37]的作者利用格拉曼矩陣和馬爾可夫躍遷場(MTF),將一維資料轉換為特定的影像格式,稱為格拉曼角和場(GASF)和格拉曼角差場(GADF)。這些資料格式是格拉曼角場(GAF)的導數,透過將時間序列轉換為極座標系並對映一維樣本之間的相關性而生成。
          DM及其在資料生成中的前景:DM屬於基於似然的方法,在訓練中具有更大的分佈覆蓋率、可擴充套件性和穩定性,是GAN模型中模式崩潰、不穩定性和靈活性較差等問題的解決方案[8,15,26]。在前向傳遞中,DM逐漸在輸入影像中加入高斯噪聲,直到其成為純噪聲。然後訓練DNN模型對影像進行去噪,恢復原始影像。這個訓練好的深度神經網路作為一個生成模型,從純噪聲分佈中產生影像。最近的許多工作已經在影像、音訊、文字到影像和影像到文字生成等任務中使用了DM,但尚未在各種網路流量型別的網路流量生成中使用[6 - 8,42]。
        • 與之前的工作不同,本文演示瞭如何透過將時間序列分佈轉換為2D GASF影像來使用DM生成網路流量。這些影像準確地捕獲特徵分佈,包括1D樣本點之間的相關性,進一步支援下游ML任務。
      • 【內容2】
        • 💡NETDIFFUS實現
        • 1.Capturing important feature attributes 重要特徵屬性捕獲


          • dnn可以學習輸入資料的隱藏特徵。然而,識別樣本之間的相關性、一維訊號或時間序列中的頻率相關模式等細微特徵需要複雜的模型和嚴格的訓練過程。在模型訓練之前手動提取這些特徵是非常重要的,因為它可以使模型有效地學習這些特徵並提高資料保真度。為了實現這一點,在NetDiffus中,按照[37]中的方法將1D訊號轉換為2D影像格式GASF。GASF影像將振幅、包間間隙和時間相關性等特徵對映到一個二維空間上。
            給定網路特徵的一維訊號(例如,bytes dl(downloaded)),首先將其轉換為極座標,然後建立相應的Grammian矩陣。這裡,Grammian矩陣的元素表示極座標系統中時間序列樣本的餘弦角之間的內積,這是GAF的基礎。透過取內積,矩陣進一步表示一維軌跡中取樣點之間的關聯圖[37]。然後,透過對行和列方向上的所有元素對求和來建立GASF影像,以消除對GAF資料中半徑的依賴。附錄A進一步解釋了GASF轉換。圖1b為GASF影像樣本。寬度(𝑊)和高度(𝐻)等於軌跡長度。影像的主對角線對應於時間序列訊號,包含編碼的特徵幅度、包間間隙等。
        • 2.Highlighting hidden features 突出顯示隱藏特徵


          • 二維域中操作時,增強GASF影像的對比度可以進一步突出DM可以有效學習的細微特徵變化,並提高保真度。
            根據公式對原始GASF影像進行標準伽瑪校正,𝐼𝑐= A∗𝐼𝑟^γ,其中𝐼𝑟,𝐼𝑐,A和γ分別是伽瑪校正影像,原始影像,常數和伽瑪變數。經驗地設定了γ = 0.25,A= 1。圖1a顯示了樣本原始影像和伽瑪校正影像的直方圖分佈。注意到,該過程將畫素值分離到不同的範圍,增加了影像對比度並強調了特徵變化。
        • 3.Supporting fast and stable training 支援快速穩定訓練
          • DM通常需要很高的計算能力和時間。因此,保持GASF影像大小與跟蹤長度相似可能會導致更長的訓練時間和資源不足。作為一種解決方案,將影像大小調整為固定的較小解析度,併為DM訓練提供低解析度影像。
            將OpenCV.resize()方法與INTER_AREA插值方法結合使用,INTER_AREA插值方法基於面積關係對影像畫素進行重新取樣,是影像抽取的首選方法[23]。根據經驗決定影像大小,而不影響下游ML效能,因為影像大小調整可能會從影像中刪除高頻資訊。此外,將GASF畫素範圍最大歸一化為[0,1],將每個畫素除以全域性最大值255。這使得DM的訓練過程更快、更穩定。實現過程利用Python-numpy中的向量化操作來加速這些畫素級操作。
        • 4.Overall design of NetDiffus “NetDiffus”的總體設計


          • 從相關資料集的時間序列特徵提取和最大歸一化開始。然後,將一維訊號轉換為GASF影像,透過伽馬變換和調整影像大小進一步增強GASF影像。最後,使用這些原始GASF影像來訓練DM。
            除非另有說明,否則從每個資料集中,使用前80%的資料用於合成資料生成,並將剩餘的資料作為下游ML任務的測試資料集。將擴散步驟設定為1000,並將標準的U-Net模型設定為5層,用於去噪過程。合成的GASF影像結合原始GASF資料用於改進各種下游ML任務。後續將釋出所有的模型細節與元件。
          • 觀察到一個基本的DM架構足以生成高保真的GASF影像。實驗沒有從GASF影像中構建相應的1D軌跡進行下游分析,一方面,對於各種基於ML的分析,2D影像是一種合適的格式[12,31,36,37]。另一方面,觀察到2D GASF資料與1D資料相比,ML分類效能有所提高。然而,1D軌跡的重建可以透過應用公式輕鬆完成!
      • 【內容3】
        • 💡evalution & results
        • dataset:收集了兩個主要資料集(D1)和(D3),並選擇了一個公開可用的資料集(D2)來解決網路中存在的各種情況。
          D1流媒體影片:從YouTube (YT), Stan和Netflix上選擇影片,各20個,時長為3分鐘,並對每個影片進行多次流,產生100條痕跡。在流式傳輸時,被動捕獲網路資料包,將其分成不重疊的0.25 s的bin,提取每個bin中的Total bytes dl特徵。分幀可以突出網路軌跡中不同的影片特定特徵(例如,質量交換),並提高下游ML任務的效能。預期的ML任務是將給定的痕跡指紋歸類到來自給定平臺的20個影片之一中。
          D2訪問網頁:從[32]中選擇了公開可用的網頁衝浪資料集,該資料集有20個網站。提取的特徵包括資料包方向(即uplink(+1)和downlink(-1)資料包),包間間隙。每個軌跡有5000個固定數量的樣本。軌跡超過5000個樣本,它被截斷,否則填充0到5000個樣本。每個流量軌跡被歸類為20個類(即網站)中的一個,作為網站指紋任務。
          D3物聯網智慧家居裝置產生的流量:透過被動監控兩種智慧家居輔助裝置Google home[14]和Amazon alexa[1]的網路流量來收集該資料集。使用者為每個裝置提供10個不同的命令,裝置與雲伺服器通訊以執行相關活動。透過重複每個命令,收集了1000條軌跡,並且每個軌跡保持在300資料包長度,遵循D2中相同的軌跡截斷和0填充方法。捕獲的特徵包括資料包大小、方向和包間間隙。ML任務是將每個軌跡分類為一個活動。
          • 選擇的資料集包含廣泛的特徵,例如從原始資料包大小到彙總的總位元組dl值,這些資料集可以用於廣泛的ML任務。這進一步驗證了NetDiffus對不同網路相關特徵生成的魯棒性,以及基於GASF的合成資料對下游任務的有效性。
          • 如何利用資料進行機器學習訓練,有三種主要場景:I) original:只使用原始資料;ii) synth:只使用合成資料;iii) ori+synth:將原始資料與合成資料結合。
            除非另有說明,否則將來自每個資料集的每個類的資料(即網路流量軌跡)分為80%-20%的訓練測試分割,用於訓練和測試資料生成中的DM和下游任務中的ML模型。
        • benchmark models:DoppelGanger(DG)[20], NetShare[40]. DG和NetShare的表現優於許多其他基於機器學習和統計方法[4,10,39,41],因此,將其他GAN方法和基於機器學習的方法排除在比較之外。由於兩個模型合成的為1D資料,在比較之前需要將模型的1D合成軌跡轉換為GASF影像。
          DoppelGanger (DG)[20]:一種基於GAN的方法,它可以生成後設資料和軌跡的流量特徵,同時找到它們之間的相關性。本文使用他們的一個資料集,維基百科網路流量(WW)來訓練NetDiffus,首先,將DG與NetDiffus進行比較,同時保留其原始屬性,其次,展示NetDiffus對不同資料集的魯棒性。
          NetShare[40]:基於SOTA GAN的包/流報頭生成方法,與表格格式相比,將其作為時間序列資料。雖然考慮的基本模型是DG,但作者聲稱,透過提出的包/流資料EPOCHS合併機制,生成的可擴充套件性得到了提高,合成資料的保真度得到了提高。使用D3-Google和D3-Alexa資料集訓練Netshare,因為這些資料集與Netshare中的資料包級資料生成是相容的。
        • analysis:
          • ①data fidelity 資料保真度


            • 使用度量FID (Frechet Inception Distance)[5]來評估合成軌跡的保真度(較低的FID分數意味著原始影像和合成影像具有接近的分佈)。雖然沒有對GASF轉換後1D域的NetDiffus保真度進行評估,但2D GASF格式的高保真度也表明了1D域的高保真度。
          • ②Performance in downstream ML models 下游ML模型中的效能表現


            • 在所有ML模型中,NetDiffus的準確率都超過了DG,平均為4.67%。對於D3-Google和D3-Alexa資料集,NetDiffus的平均效能分別優於Netshare 32.3%和17.3%。這些結果表明NetDiffus可以優於許多SOTA資料生成模型。
            • 進一步表明NetDiffus合成資料也可以用於評估不同的下游ML演算法。在使用合成資料來調整負載平衡、叢集排程等模型時,這一點非常重要[20]。要實現這一目標,合成資料的一個關鍵特性是,在不同演算法下,合成資料應具有與原始資料相似的精度趨勢。【對這一部分的解釋保持懷疑?】
              除了圖3b-底部的D3-Alexa-MLP評估外,NetDiffus合成資料在所有其他情況下都遵循與其原始資料相似的精度模式。例如,在圖3a中,CNN、XGBoost和MLP在原始資料和NetDiffus資料上都顯示出更高的分類精度,而在NB上兩個資料集都顯示出較低的分類精度。
          • ③Improved ML performance in use-cases 改進用例中的ML效能
            • ML在網路流量監控中得到了廣泛的應用,但由於訓練資料的不足,其效能有限。
            • 第一個用例分析了NetDiffus合成資料如何最佳化流量指紋任務。


              利用三種分類型別下的分層ML分類器:L1:流量型別(例如,影片,網路或物聯網),L2:平臺型別(例如,YT, Stan)和L3:個人類(例如,個人影片,網站)。
              table1 報告了分類準確率。觀察到在原始和合成資料場景中,L1和L2都提供了95%以上的準確性。與L1和L2相比,L3是一項具有挑戰性的任務,因為類的數量更多,並且類之間的軌跡相似。在D1影片指紋任務中,由於合成資料的高保真度,可以看到合成場景中D2和D3的準確率比原始資料平均下降了5.83%,但參考最近的文獻[20,40]並考慮到任務的難度,認為這樣的準確率水平仍然是可以接受的。而透過將原始資料與合成資料相結合,實現了比原始場景提高1-8%的精度。
              有限數量的原始軌跡是一個具有挑戰性的場景,它阻礙了上述ML效能。為了看到NetDiffus對提高下游ML精度的支援,改變了NetDiffus資料生成的原始軌跡數量,並新增了生成的合成軌跡來訓練ML模型。從圖4可以看出,在原始軌跡數量有限的情況下,NetDiffus合成軌跡可以超過原始資料的精度。在圖4a中,D2-DF synth與原始場景相比,精度提高了12.4%,在圖4b中,D3-Google synth與原始場景相比,精度提高了57.5%。這與表1中synth場景中較低的效能形成對比,並突出了NetDiffus在資料有限的用例中的優勢。
            • 第二個用例分析異常檢測,通常難以收集足夠的惡意資料來訓練模型。


              在L3分類任務中擴充套件D1影片指紋,同時在訓練ML模型時模擬真實世界的異常檢測,建立類不平衡環境。假設隨機選擇的兩個類具有有限數量的軌跡是異常的,而另一個包含所有可用訓練軌跡的五個類是合法的。
              i)子案例1:合法類和異常類均可獲得真實資料。在這種情況下,簡單地計算異常軌跡分類的精度。為了模擬較短的持續時間並進一步推廣異常行為,將軌跡長度從180秒(完整軌跡)限制為前45秒。
              ii)子案例2:基礎真值標籤僅對合法類可用。在測試階段,採用深度整合方法,基於分類結果的熵來衡量分類的不確定性[29]。對於正常軌跡和異常軌跡,預期的不確定性分別較低和較高。
              與僅使用原始資料相比,新增合成軌跡分別提供54.6(±18.3)%和48.5(±9.0)%的平均增益;合成軌跡減少了合法樣本預測的不確定性(例如,1600個合成軌跡的平均不確定性為0.75),然而,異常樣本的不確定性仍然很高。這個較高的不確定性分數是決定給定軌跡是否為異常的指示[29]。
            • 第三個用例分析了NetDiffus對近實時分類的支援,表示只提取部分網路軌跡而不等待整個軌跡的場景。


              假設可以識別出網路軌跡的起始點。對應的GASF影像是透過從代表有限資料的1D軌跡的底部和右側方向裁剪初始GASF影像來生成的。使用L3分類,為不同的軌跡長度(D1的軌跡長度、D2和D3的資料包百分比)訓練了不同的分類器。
              圖6(a)顯示,D1資料在只有45s資料的情況下,在ori+synth場景下可以達到92%以上的精度,比原始精度提高了5.7%。
              在圖6(b)和圖6(c)的D2和D3資料中,雖然synth精度低於原始場景,但ori+synth精度始終優於原始場景。
              ​另一方面,synth精度在original和ori+synth中都遵循相同的增長趨勢,最終與original的精度差距減小,如D2。
              ​根據經驗,GASF轉換需要毫秒範圍內的時間(即大約10毫秒),而不會影響整個推理過程。
          • ④Comparison with 1D DM 與1D DM的比較
            • 結果表明,NetDiffus中的二維DM比其一維DM效能更好。
    • 總結
      • 提出NetDiffus,一個基於擴散模型(DM)的網路流量生成工具。它將時間序列網路流量資料轉換為稱為Grammian Angular Summation Field (GASF)的特定影像格式。在解決與合成網路流量生成相關的多個挑戰以實現更高的資料保真度的同時,還展示了GASF格式的合成資料在各種下游ML任務中的有效性,以提高其分類效能。此外,NetDiffus的效能超過了基於SOTA GAN的方法和1D DM。

相關文章