換了馬甲也能認出“你” | 有了這個資料集,AI有望揪出變種勒索軟體
Root 發自 凹非寺
量子位 出品 | 公眾號 QbitAI
去年5月,惡意勒索軟體WannaCry大面積爆發,全球不少國家機構、企業、個人終端電腦中招,電腦檔案被鎖。
要想恢復重要資料,就必須向黑客支付300到600美元等值的比特幣。
儘管微軟早在去年3月14號就釋出了針對該勒索軟體所利用的漏洞的補丁,但不久又出來個Wannacry 2.0變種版本,導致更多電腦陷入魔爪。
由於勒索軟體和殭屍網路不斷“換馬甲”,傳統網路安全公司只能疲於奔命,被動地一一應付。考慮到AI強大的學習能力,擅長“以暴制暴”的黑客型網路安全公司Endgame想借助AI之力,幫助他們及時地識別出變種的惡意軟體。
可是有個問題:目前缺少可供訓練的資料集。
像影像識別或自然語言處理領域,都已經有龐大的開源的資料集來訓練演算法。但幫助AI識別勒索軟體的資料集,還沒有。
誰適合來做這件事呢?想來想去,擁有豐富防禦黑客經驗的Endgame決定自己上。
網路安全公司Endgame
其實,網路安全方面的資料從來都不缺。但因為資料總會涉及到個人的隱私,以及網路金融密碼等資訊,所以網路安全領域一直缺乏合適的資料集。
上週,Endgame宣佈開源Ember(Endgame Malware BEnchmark for Research)資料集,其中含有防毒軟體VirusTotal 2017年檢測到的110萬個便攜可執行檔案(PE檔案)的sha256雜湊值,供研究惡意軟體。
為了避免洩露個人隱私,Endgame特地沒有在Ember裡放這些PE檔案本身。但這個資料集包含後設資料(metadata),也就是PE檔案裡提取出的特徵,以及基於這些特徵訓練得出的基準模型。
有了開源的基準資料集之後,研究人員就可以量化AI技術的學習效果了。
關於資料
這110萬個樣本里,有90萬個是用於訓練的,剩下的拿來測試。
訓練的樣本里,惡意軟體、無害軟體、未標註軟體的樣本數相等,都是30萬。測試樣本里的惡意軟體和無害軟體等比。
每個樣本都包含了PE檔案的sha256雜湊值,檔案初次瀏覽月份,標註, 以及從檔案提取出的特徵。
從下圖可以看出,訓練資料和測試資料的比例。
橫座標指代訓練/測試時間段,這個資訊對於隨時識別“換臉”的惡意軟體來說非常重要。這個資料集的目標,就是能識別出沒有見過的惡意軟體。
不過,公開這個資料集,Endgame要冒很大的風險。畢竟一旦公開之後,黑客也能接觸到。訓練樣本被篡改後,識別模型就完蛋了。
除了資料,Endgame還在GitHub上建了一個儲存庫,方便大家使用這些資料。Ember庫定義了基準模型的訓練工作環境,大家也可以拿這些資料反覆地訓練模型。
Endgame還提供Jupyter notebook(https://github.com/endgameinc/ember/blob/master/resources/ember-notebook.ipynb),上面有模型表現的資訊。程式碼裡還特地有一段是定義特徵的提取過程,詳細介紹瞭如何從PE檔案裡算出特徵。
有了這些資源,任何一個人都能下載到基準模型,然後用庫重新分類新的PE檔案。
關於模型
Ember基準模型,是一個梯度提升決策樹(GBDT)。在預設模型引數的基礎上,用LightGBM訓練的。該模型在測試集的表現可以看下圖。
對比二值分類器,一個比較好的方法是模型評估指標AUC。
Ember模型的測試成績達到了0.9991123分。用同一個GBDT演算法,也還有很多簡單的辦法提高這個分數,比方說優化模型的引數,進一步篩選特徵,或者再提取出更好的特徵。
Ember相當於一個測量參照,看模型訓練的效果有沒有不斷靠近理想目標。
OMT
雖然挺好用的,但Endgame建議不要用Ember模型作為抗病毒的引擎。這只是個研究階段的成果,和Endgame旗下成熟的產品MalwareScore還不一樣。
Ember模型還沒有更多地優化,也沒有持續地更新資料,理論上來說沒有現有的大部分防毒軟體表現那麼好。
Endgame模型的目的,是提供對比資料,也給未來的研究提供一個支撐點。
最後,Ember資料庫的傳送門:
https://github.com/endgameinc/ember
Endgame原文
https://www.endgame.com/blog/technical-blog/introducing-ember-open-source-classifier-and-dataset
論文:
https://arxiv.org/abs/1804.04637
△ 網上盛傳的WannaCry的“進階版”
— 完 —
活動報名
加入社群
量子位AI社群16群開始招募啦,歡迎對AI感興趣的同學,加小助手微信qbitbot6入群;
此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。
進群請加小助手微訊號qbitbot6,並務必備註相應群的關鍵詞~通過稽核後我們將邀請進群。(專業群稽核較嚴,敬請諒解)
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。
量子位 QbitAI · 頭條號簽約作者
վ'ᴗ' ի 追蹤AI技術和產品新動態
相關文章
- AI也能種黃瓜了,你想嚐嚐嗎?AI
- 有了這款外掛,EXCEL也能處理大資料Excel大資料
- 有了它,Golang 也能 Eval 了Golang
- “你把這個遊戲停掉,就什麼事也沒有了”遊戲
- 軟體之間有什麼關係?看完這個你就暈了
- Astaroth木馬新變種來了,可繞過防毒軟體檢測AST防毒
- 換個角度,智慧硬體也能這樣玩
- AI 在用 | 有了這個超級提示和Claude 3,不聽播客也能搞定節目內容AI
- 學會了這些,玩轉直播賣貨系統你也能遊刃有餘
- 老黃終於不穿皮衣了,分享一個AI換裝AI試衣軟體!AI
- 資料視覺化│用了這個軟體我終於不禿頭了視覺化
- 軟體測試這些誤區你有過嗎?快收藏避雷了!
- 榮耀MagicOS 9.0來了個全域性智慧體,AI手機方向變了智慧體AI
- 圖床失效了?也許你應該試試這個工具圖床
- 揪出企業潛藏威脅,認清這些暗資料
- 你有 Apple Watch嗎? 這個用處可大了APP
- 如果某一段訊號某個頻率訊號突然消失了,傅立葉變換能否反應出這種變化
- 有這個開源專案,你也可以打造自己的知識付費平臺了
- 自從裝了這個軟體後,就放心大膽摸魚了!
- 你要的介面資料都在這裡了
- 那個爆火的“夢中修煉”AI,你也能用Keras搭一個了AIKeras
- 趨勢科技發現古巴勒索軟體新變種
- 這個軟體作者太狂妄了...... (3千字)
- 照片也能說話了?嘴型表情全同步,AI數字人時代要來了AI
- 有誰能搞定這兩個軟體。 (209字)
- 有了它,資料庫也能空中加油,一邊遷移一邊跑起來資料庫
- EXCEL憋出大招,逆襲大資料的黑馬出現了Excel大資料
- 有了這4個安全測試工具,對軟體安全測試say so easy!
- 耗子尾汁,這七種方式可能讓你成為勒索軟體受害者!
- 大資料並沒有死,可能是你已經不認識它了大資料
- 大資料並沒有死,只不過你已經不認識它了大資料
- DataOps和DevOps這對CP,能讓軟體和資料變天!dev
- 我分析了上萬個微信紅包資料,得到了這些發現(附資料集)
- 伺服器出現了一個新軟體,一幫大佬吵起來了!伺服器
- 你對於留存資料的看法可能該變一變了
- AI在用| 沒錯,樹莓派5也能飆上Llama 3了!AI樹莓派
- 技術小白的也能獨立完成資料分析,這款BI系統你值得擁有
- Ai繪畫生成軟體哪個好用?這款AI作畫的二次元太精緻了AI二次元