換了馬甲也能認出“你” | 有了這個資料集，AI有望揪出變種勒索軟體

量子位發表於2018-04-25

原文網址 : https://blog.csdn.net/yh0vlde8vg8ep9vge/article/details/80088494

Root 發自凹非寺
量子位出品 | 公眾號 QbitAI

去年5月，惡意勒索軟體WannaCry大面積爆發，全球不少國家機構、企業、個人終端電腦中招，電腦檔案被鎖。

要想恢復重要資料，就必須向黑客支付300到600美元等值的比特幣。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

儘管微軟早在去年3月14號就釋出了針對該勒索軟體所利用的漏洞的補丁，但不久又出來個Wannacry 2.0變種版本，導致更多電腦陷入魔爪。

由於勒索軟體和殭屍網路不斷“換馬甲”，傳統網路安全公司只能疲於奔命，被動地一一應付。考慮到AI強大的學習能力，擅長“以暴制暴”的黑客型網路安全公司Endgame想借助AI之力，幫助他們及時地識別出變種的惡意軟體。

640?wx_fmt=png

可是有個問題：目前缺少可供訓練的資料集。

像影像識別或自然語言處理領域，都已經有龐大的開源的資料集來訓練演算法。但幫助AI識別勒索軟體的資料集，還沒有。

誰適合來做這件事呢？想來想去，擁有豐富防禦黑客經驗的Endgame決定自己上。

網路安全公司Endgame

其實，網路安全方面的資料從來都不缺。但因為資料總會涉及到個人的隱私，以及網路金融密碼等資訊，所以網路安全領域一直缺乏合適的資料集。

上週，Endgame宣佈開源Ember（Endgame Malware BEnchmark for Research）資料集，其中含有防毒軟體VirusTotal 2017年檢測到的110萬個便攜可執行檔案（PE檔案）的sha256雜湊值，供研究惡意軟體。
640?wx_fmt=png
為了避免洩露個人隱私，Endgame特地沒有在Ember裡放這些PE檔案本身。但這個資料集包含後設資料（metadata），也就是PE檔案裡提取出的特徵，以及基於這些特徵訓練得出的基準模型。

有了開源的基準資料集之後，研究人員就可以量化AI技術的學習效果了。

關於資料

這110萬個樣本里，有90萬個是用於訓練的，剩下的拿來測試。

訓練的樣本里，惡意軟體、無害軟體、未標註軟體的樣本數相等，都是30萬。測試樣本里的惡意軟體和無害軟體等比。

每個樣本都包含了PE檔案的sha256雜湊值，檔案初次瀏覽月份，標註, 以及從檔案提取出的特徵。

從下圖可以看出，訓練資料和測試資料的比例。

640?wx_fmt=png

橫座標指代訓練/測試時間段，這個資訊對於隨時識別“換臉”的惡意軟體來說非常重要。這個資料集的目標，就是能識別出沒有見過的惡意軟體。

不過，公開這個資料集，Endgame要冒很大的風險。畢竟一旦公開之後，黑客也能接觸到。訓練樣本被篡改後，識別模型就完蛋了。

除了資料，Endgame還在GitHub上建了一個儲存庫，方便大家使用這些資料。Ember庫定義了基準模型的訓練工作環境，大家也可以拿這些資料反覆地訓練模型。

Endgame還提供Jupyter notebook（https://github.com/endgameinc/ember/blob/master/resources/ember-notebook.ipynb），上面有模型表現的資訊。程式碼裡還特地有一段是定義特徵的提取過程，詳細介紹瞭如何從PE檔案裡算出特徵。

有了這些資源，任何一個人都能下載到基準模型，然後用庫重新分類新的PE檔案。

關於模型

Ember基準模型，是一個梯度提升決策樹（GBDT）。在預設模型引數的基礎上，用LightGBM訓練的。該模型在測試集的表現可以看下圖。

對比二值分類器，一個比較好的方法是模型評估指標AUC。

Ember模型的測試成績達到了0.9991123分。用同一個GBDT演算法，也還有很多簡單的辦法提高這個分數，比方說優化模型的引數，進一步篩選特徵，或者再提取出更好的特徵。

Ember相當於一個測量參照，看模型訓練的效果有沒有不斷靠近理想目標。
640?wx_fmt=png

OMT

雖然挺好用的，但Endgame建議不要用Ember模型作為抗病毒的引擎。這只是個研究階段的成果，和Endgame旗下成熟的產品MalwareScore還不一樣。

Ember模型還沒有更多地優化，也沒有持續地更新資料，理論上來說沒有現有的大部分防毒軟體表現那麼好。

Endgame模型的目的，是提供對比資料，也給未來的研究提供一個支撐點。

最後，Ember資料庫的傳送門：
https://github.com/endgameinc/ember

Endgame原文
https://www.endgame.com/blog/technical-blog/introducing-ember-open-source-classifier-and-dataset

論文：
https://arxiv.org/abs/1804.04637

640?wx_fmt=png

△ 網上盛傳的WannaCry的“進階版”

— 完 —

活動報名

加入社群

量子位AI社群16群開始招募啦，歡迎對AI感興趣的同學，加小助手微信qbitbot6入群；

此外，量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募，面向正在從事相關領域的工程師及研究人員。

進群請加小助手微訊號qbitbot6，並務必備註相應群的關鍵詞~通過稽核後我們將邀請進群。（專業群稽核較嚴，敬請諒解）

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號(QbitAI)對話介面，回覆“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態

有了這款外掛，EXCEL也能處理大資料
2020-07-29
Excel大資料
AI也能種黃瓜了，你想嚐嚐嗎？
2019-01-10
AI
有了它，Golang 也能 Eval 了
2021-06-05
Golang
換個角度，智慧硬體也能這樣玩
2018-03-06
“你把這個遊戲停掉，就什麼事也沒有了”
2020-06-01
遊戲
Astaroth木馬新變種來了，可繞過防毒軟體檢測
2019-09-03
AST防毒
AI 在用 | 有了這個超級提示和Claude 3，不聽播客也能搞定節目內容
2024-03-29
AI
學會了這些，玩轉直播賣貨系統你也能遊刃有餘
2021-04-08
有了這款顯微鏡不用出門也能看世界
2022-07-21
老黃終於不穿皮衣了，分享一個AI換裝AI試衣軟體！
2024-05-13
AI
揪出企業潛藏威脅，認清這些暗資料
2019-07-09
軟體測試這些誤區你有過嗎?快收藏避雷了!
2022-10-27
資料視覺化│用了這個軟體我終於不禿頭了
2022-03-18
視覺化
你有 Apple Watch嗎？這個用處可大了
2020-11-30
APP
圖床失效了？也許你應該試試這個工具
2019-05-09
圖床
DataOps和DevOps這對CP，能讓軟體和資料變天!
2024-01-30
dev
馬上要到30歲，你也被催婚了嗎
2019-06-15
榮耀MagicOS 9.0來了個全域性智慧體，AI手機方向變了
2024-10-23
智慧體AI
有這個開源專案，你也可以打造自己的知識付費平臺了
2021-02-27
Wakatime 不升級會員也能檢視歷史資料了！
2019-02-16
趨勢科技發現古巴勒索軟體新變種
2022-06-09
你要的介面資料都在這裡了
2018-08-17
自從裝了這個軟體後，就放心大膽摸魚了！
2024-05-15
如果某一段訊號某個頻率訊號突然消失了，傅立葉變換能否反應出這種變化
2024-06-05
這個太簡單了，我也不會
2018-03-19
那個爆火的“夢中修煉”AI，你也能用Keras搭一個了
2018-04-30
AIKeras
有了它，資料庫也能空中加油，一邊遷移一邊跑起來
2020-11-20
資料庫
耗子尾汁，這七種方式可能讓你成為勒索軟體受害者！
2020-11-30
大資料並沒有死，可能是你已經不認識它了
2024-02-01
大資料
大資料並沒有死，只不過你已經不認識它了
2024-02-01
大資料
你對於留存資料的看法可能該變一變了
2020-06-08
有了這4個安全測試工具，對軟體安全測試say so easy!
2022-06-29
伺服器出現了一個新軟體，一幫大佬吵起來了！
2023-04-27
伺服器
照片也能說話了？嘴型表情全同步，AI數字人時代要來了
2024-03-09
AI
技術小白的也能獨立完成資料分析，這款BI系統你值得擁有
2020-12-16
EXCEL憋出大招，逆襲大資料的黑馬出現了
2020-10-21
Excel大資料
直面勒索軟體梭子魚讓你不再"談虎色變"!
2018-06-20
AI在用| 沒錯，樹莓派5也能飆上Llama 3了！
2024-04-23
AI樹莓派

換了馬甲也能認出“你” | 有了這個資料集，AI有望揪出變種勒索軟體

Root 發自 凹非寺量子位 出品 | 公眾號 QbitAI

網路安全公司Endgame

關於資料

關於模型

OMT

△ 網上盛傳的WannaCry的“進階版”

相關文章

Root 發自凹非寺
量子位出品 | 公眾號 QbitAI