機器學習&惡意程式碼靜態檢測

魚與魚發表於2022-01-14

機器學習

分析工具

readelf

elfparser

ninja

GDB

IDAPro

Strings

python庫：pyelftools、lief

方法概述

資料/特徵	演算法模型	優點	缺點
二進位制檔案	byte-ngram [7]、malConv [8]	不需要解析格式	序列超長，malconv卷積複雜度高
二進位制檔案	影像處理[1]	不需要解析格式	檔案大小不同，影像大小不一致；加殼的資料分佈會被打亂
二進位制檔案	位元組（熵）直方圖[2]	不需要解析格式
字串資訊	nlp	獲取資訊方便	缺少很多資訊；資料格式亂
ELF結構資訊	ML [3] [6]		格式解析複雜；特徵工程多
反彙編asm	原始碼分析、opcode [4,5]	貼近人讀資訊	需要反彙編
反彙編asm	FCG	利用程式執行邏輯	需要反彙編；有難度
怎麼從原始elf樣本中提取特徵？下面的方法

二進位制灰度圖

參考[1]

然後將不同大小的圖片歸一化，作為後續演算法模型的輸入

位元組（熵）直方圖

統計0-255位元組的直方圖；

使用1024位元組長度，步長256的滑動視窗，每個視窗生成1024個位元組熵，實際是一個8*256大小的圖，將其變為16*16的，在變為256維的向量 [2]。

字串資訊

使用strings命令掃描檔案，結合ascii碼之類

"__lseek64",
"__strndup",
"__gconv_modules_db",
", version ",
"expand_dynamic_string_token",
"pvalloc",
"_L_lock_4841",
"confstr",
"free_category",
"/etc/suid-debug",
"_IO_mem_sync",
"__pthread_rwlock_rdlock",
"__DTOR_LIST__",
"__strchrnul",
"__argz_stringify",
"pthread_cancel",
"__exit_funcs",

ELF結構資訊

利用ELF檔案的組成資訊，[3]用了383個特徵。

還有EMBER中提到的方法，例如匯入匯出表等[6]。

原始碼分析與OPcode

原始碼分析需要反彙編為彙編程式碼，使用大模型[4]

opcode使用，示例如下,圖片來自[5]

FCG

DeepCG、Asm2vec

references：

【1】Malware Images: Visualization and Automatic Classification. https://vision.ece.ucsb.edu/sites/vision.ece.ucsb.edu/files/publications/nataraj_vizsec_2011_paper.pdf

【2】Deep Neural Network Based Malware Detection Using Two Dimensional Binary Program Features. https://www.cse.fau.edu/~xqzhu/courses/cap6619/deep.neural.network.based.malware.detection.pdf

【3】ELF-Miner: using structural knowledge and data mining methods to detect new (Linux) malicious executables. https://link.springer.com/content/pdf/10.1007/s10115-011-0393-5.pdf

【4】PalmTree: Learning an Assembly Language Model for Instruction Embedding. https://dl.acm.org/doi/pdf/10.1145/3460120.3484587

【5】Detecting unknown malicious code by applying classification techniques on OpCode patterns. https://security-informatics.springeropen.com/track/pdf/10.1186/2190-8532-1-1.pdf

https://xz.aliyun.com/t/6705

【6】EMBER: An Open Dataset for Training Static PE Malware Machine Learning Models. https://arxiv.org/pdf/1804.04637.pdf. https://github.com/elastic/ember.

【7】An Investigation of Byte N-Gram Features for Malware Classification. http://www.edwardraff.com/publications/investigation_byte_ngrams.pdf

【8】MalConv: Malware Detection by Eating a Whole EXE. https://aaai.org/ocs/index.php/WS/AAAIW18/paper/viewFile/16422/15577

利用機器學習進行惡意程式碼分類
2020-08-19
機器學習
java靜態程式碼檢測-pmd
2024-07-25
Java
選擇靜態程式碼安全檢測工具指南
2023-09-19
靜態程式碼檢測工具(SAST)有哪些作用
2023-12-07
AST
ESLint 靜態程式碼檢查
2019-02-27
EsLint
ReactFlow程式碼靜態檢查
2018-07-20
React
如何高效實施靜態程式碼檢測工具SAST?
2021-06-17
AST
機器學習的靜態特徵和動態特徵
2022-11-13
機器學習特徵
靜態程式碼安全檢測服務包括哪些內容?
2023-09-26
python程式碼檢查工具(靜態程式碼審查)
2021-09-08
Python
鴻蒙高質量程式碼靜態檢測200條一
2024-11-12
鴻蒙
鴻蒙高質量程式碼靜態檢測200條二
2024-11-12
鴻蒙
鴻蒙高質量程式碼靜態檢測200條三
2024-11-13
鴻蒙
鴻蒙高質量程式碼靜態檢測200條四
2024-11-13
鴻蒙
基於TLS的主動檢測識別惡意伺服器
2021-06-22
TLS伺服器
如何檢測手機惡意應用？整合華為應用安全檢測，提升App使用安全
2021-01-12
APP
2020 惡意機器流量報告
2020-06-16
從SharPersist思考惡意軟體持久化檢測
2019-10-21
持久化
利用深度學習和機器學習預測股票市場（附程式碼）
2019-01-04
深度學習機器學習
靜態程式碼檢測工具Wukong對log4J中的漏洞檢測、分析及漏洞修復
2021-12-15
APUS瀏覽器應用整合惡意URL檢測功能，風險網站檢測能力提升20
2020-12-31
瀏覽器網站
靜態程式碼塊
2018-08-29
[機器學習] 低程式碼機器學習工具PyCaret庫使用指北
2024-06-01
機器學習
《Android惡意程式碼分析與滲透測試》讀後感
2018-06-21
Android
微服務測試之靜態程式碼掃描
2019-02-22
微服務
HelixQAC-軟體程式碼靜態測試工具
2021-09-13
靜態代理程式碼示例
2020-11-23
Java靜態程式碼塊
2020-12-19
Java
【機器學習】吳恩達機器學習中文版筆記：異常檢測（Anomaly Detection）
2018-05-03
機器學習吳恩達筆記
【機器學習】李宏毅——Anomaly Detection（異常檢測）
2022-12-20
機器學習
Powershell惡意程式碼的N種姿勢
2020-08-19
python-機器學習程式碼總結
2020-11-08
Python機器學習
sqlmap支援自動偽靜態批次檢測
2020-08-19
SQL
程式碼靜態掃描規則——型別轉換檢查
2022-01-16
型別
What-If 工具：無需寫程式碼，即可測試機器學習模型
2018-10-10
機器學習模型
Ardupilot程式之感測器LSM303d程式碼學習
2018-06-03
3D
深度分享|關於惡意軟體加密流量檢測的思考
2021-01-19
加密
靜態應用程式安全測試
2022-11-23