換了馬甲也能認出“你” | 有了這個資料集,AI有望揪出變種勒索軟體

量子位發表於2018-04-25
Root 發自 凹非寺
量子位 出品 | 公眾號 QbitAI

去年5月,惡意勒索軟體WannaCry大面積爆發,全球不少國家機構、企業、個人終端電腦中招,電腦檔案被鎖。

要想恢復重要資料,就必須向黑客支付300到600美元等值的比特幣。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

儘管微軟早在去年3月14號就釋出了針對該勒索軟體所利用的漏洞的補丁,但不久又出來個Wannacry 2.0變種版本,導致更多電腦陷入魔爪。

由於勒索軟體和殭屍網路不斷“換馬甲”,傳統網路安全公司只能疲於奔命,被動地一一應付。考慮到AI強大的學習能力,擅長“以暴制暴”的黑客型網路安全公司Endgame想借助AI之力,幫助他們及時地識別出變種的惡意軟體。

640?wx_fmt=png

可是有個問題:目前缺少可供訓練的資料集。

像影像識別或自然語言處理領域,都已經有龐大的開源的資料集來訓練演算法。但幫助AI識別勒索軟體的資料集,還沒有。

誰適合來做這件事呢?想來想去,擁有豐富防禦黑客經驗的Endgame決定自己上。

網路安全公司Endgame

其實,網路安全方面的資料從來都不缺。但因為資料總會涉及到個人的隱私,以及網路金融密碼等資訊,所以網路安全領域一直缺乏合適的資料集。

上週,Endgame宣佈開源Ember(Endgame Malware BEnchmark for Research)資料集,其中含有防毒軟體VirusTotal 2017年檢測到的110萬個便攜可執行檔案(PE檔案)的sha256雜湊值,供研究惡意軟體。
640?wx_fmt=png
為了避免洩露個人隱私,Endgame特地沒有在Ember裡放這些PE檔案本身。但這個資料集包含後設資料(metadata),也就是PE檔案裡提取出的特徵,以及基於這些特徵訓練得出的基準模型。

有了開源的基準資料集之後,研究人員就可以量化AI技術的學習效果了。

關於資料

這110萬個樣本里,有90萬個是用於訓練的,剩下的拿來測試。

訓練的樣本里,惡意軟體、無害軟體、未標註軟體的樣本數相等,都是30萬。測試樣本里的惡意軟體和無害軟體等比。

每個樣本都包含了PE檔案的sha256雜湊值,檔案初次瀏覽月份,標註, 以及從檔案提取出的特徵。

從下圖可以看出,訓練資料和測試資料的比例。

640?wx_fmt=png

橫座標指代訓練/測試時間段,這個資訊對於隨時識別“換臉”的惡意軟體來說非常重要。這個資料集的目標,就是能識別出沒有見過的惡意軟體。

不過,公開這個資料集,Endgame要冒很大的風險。畢竟一旦公開之後,黑客也能接觸到。訓練樣本被篡改後,識別模型就完蛋了。

除了資料,Endgame還在GitHub上建了一個儲存庫,方便大家使用這些資料。Ember庫定義了基準模型的訓練工作環境,大家也可以拿這些資料反覆地訓練模型。

Endgame還提供Jupyter notebook(https://github.com/endgameinc/ember/blob/master/resources/ember-notebook.ipynb),上面有模型表現的資訊。程式碼裡還特地有一段是定義特徵的提取過程,詳細介紹瞭如何從PE檔案裡算出特徵。

有了這些資源,任何一個人都能下載到基準模型,然後用庫重新分類新的PE檔案。

關於模型

Ember基準模型,是一個梯度提升決策樹(GBDT)。在預設模型引數的基礎上,用LightGBM訓練的。該模型在測試集的表現可以看下圖。

對比二值分類器,一個比較好的方法是模型評估指標AUC。

Ember模型的測試成績達到了0.9991123分。用同一個GBDT演算法,也還有很多簡單的辦法提高這個分數,比方說優化模型的引數,進一步篩選特徵,或者再提取出更好的特徵。

Ember相當於一個測量參照,看模型訓練的效果有沒有不斷靠近理想目標。
640?wx_fmt=png

OMT

雖然挺好用的,但Endgame建議不要用Ember模型作為抗病毒的引擎。這只是個研究階段的成果,和Endgame旗下成熟的產品MalwareScore還不一樣。

Ember模型還沒有更多地優化,也沒有持續地更新資料,理論上來說沒有現有的大部分防毒軟體表現那麼好。

Endgame模型的目的,是提供對比資料,也給未來的研究提供一個支撐點。

最後,Ember資料庫的傳送門:
https://github.com/endgameinc/ember

Endgame原文
https://www.endgame.com/blog/technical-blog/introducing-ember-open-source-classifier-and-dataset

論文:
https://arxiv.org/abs/1804.04637

640?wx_fmt=png

 網上盛傳的WannaCry的“進階版”

活動報名

640?wx_fmt=jpeg

加入社群

量子位AI社群16群開始招募啦,歡迎對AI感興趣的同學,加小助手微信qbitbot6入群;


此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。


進群請加小助手微訊號qbitbot6,並務必備註相應群的關鍵詞~通過稽核後我們將邀請進群。(專業群稽核較嚴,敬請諒解)

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。

640?wx_fmt=jpeg

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態



相關文章