使用yarGen提取Linux惡意指令碼特徵

深信服千里目發表於2020-06-01

原文網址 : https://zhuanlan.kanxue.com/article-11253.htm

Linux指令碼特徵

Linux下的惡意軟體多為sh指令碼，且由於使用的命令大同小異（均為下載檔案、執行程式、建立定時任務、寫ssh後門等操作），經常難以分辨惡意sh指令碼是屬於哪個病毒家族的。遇到這種情況，使用yara規則對惡意指令碼進行檢測分類是個不錯的選擇，本文將介紹如何藉助yargen實現對Linux惡意指令碼特徵的半自動化提取。

什麼是yarGen？

yargen是一個自動化提取yara規則的工具，可以提取strings和opcodes特徵，其原理是先解析出樣本集中的共同的字串，然後經過白名單庫的過濾，最後通過啟發式、機器學習等方式篩選出最優的yara規則，專案地址：https://github.com/Neo23x0/yarGen。

使用yarGen提取Linux惡意指令碼特徵

下面以8220黑客團伙（StartMiner）的惡意指令碼進行演示：

如何提取其yara規則？

首先需要收集該家族每次變種的樣本，如下，該家族從2018年8月到現在一直在更新，其特點是指令碼大部分都偽裝成.jpg字尾。

使用yarGen提取Linux惡意指令碼特徵

yargen的用法很簡單，-m引數，加上樣本集的目錄就行了，第一次執行yargen的話可能會比較久，因為它要下載更新白名單庫。

使用yarGen提取Linux惡意指令碼特徵

執行過程中，yargen會顯示提取的特徵數詳情，其中我們要關注的是SUPER rules，這些規則代表的是泛規則，可以匹配家族的多個樣本。

使用yarGen提取Linux惡意指令碼特徵

生成的檔案yargen_rules.yar在yargen.py的同目錄下，開啟滑到Super Rules的地方，即是泛規則，規則的名字代表著能匹配哪些樣本，如下第一個rule _logo8_jpg_hehe_0，代表匹配指令碼logo8.jpg及hehe.sh。

使用yarGen提取Linux惡意指令碼特徵

Super Rules裡也不是所有規則都要關注，主要聚焦看匹配數最多的規則，如下我會關注

rule _cr_logo8_jpg_2start_jpg_2start_jpg_3start_jpg_1規則，及rule _cr_cr_logo8_jpg_logo8_jpg_2start_jpg_2start_jpg_2start_jpg_2start_jpg_3start_jpg_3start_jpg_3規則。

yargen雖然能自動化提取字串特徵很方便，但工具難免會有誤報，必須得自己人工篩選一遍，如下，先看rule _cr_logo8_jpg_2start_jpg_2start_jpg_3start_jpg_1規則，我挑選了紅框中5個比較特別的字串，其他一些WGET、download、sleep等字串可能會存在誤報場景，我就不考慮了。

使用yarGen提取Linux惡意指令碼特徵

再看rule _cr_cr_logo8_jpg_logo8_jpg_2start_jpg_2start_jpg_2start_jpg_2start_jpg_3start_jpg_3start_jpg_3規則，由於其匹配的樣本數多，自然的特徵項就比較少，我選取了如下2個特徵。

使用yarGen提取Linux惡意指令碼特徵

篩選出如上特徵後，需要檢視字串在指令碼中對應的位置，以確認該特徵是否為黑客獨特的指令碼編寫習慣。如下圖以echo “*”為例，發現黑客在編寫echo語句時都喜歡在開頭加個大寫首字母，且延續了好幾個變種，這個可以作為特徵。

使用yarGen提取Linux惡意指令碼特徵

再看"case $sum in"規則，該語句用於判斷檔案MD5，也是黑客的一個指令碼編寫習慣，延續了幾個變種。

使用yarGen提取Linux惡意指令碼特徵

除此之外，還發現指令碼里都有f2=”*”的變數宣告，也可以作為特徵。

使用yarGen提取Linux惡意指令碼特徵

以及judge函式名。

使用yarGen提取Linux惡意指令碼特徵

其中提取指令碼中的域名/IP作為特徵，因為黑客在新的變種中有可能複用舊的C&C。

使用yarGen提取Linux惡意指令碼特徵

最後優化後的規則如下，主要為3類字串，語法特徵、變數特徵、ioc特徵，根據不同的比重編寫condition，其中ioc相當於硬性指標，只要出現任意1個就可以直接確認該指令碼為8220/StartMiner家族。

使用yarGen提取Linux惡意指令碼特徵

驗證：對該規則進行測試，測試樣本均能檢出。

使用yarGen提取Linux惡意指令碼特徵

Linux指令碼基本不會進行混淆，且均是字串，使用yargen進行自動化提取有其優勢，可以大大提高提取特徵的效率，大家可以嘗試使用該方法來提取其他家族的yara特徵。同時，每個安全研究員提取的yara都不一樣，風格不一，需要進行大量樣本的測試，來不斷優化yara規則的質量。

參考連結：

https://blog.csdn.net/m0_37552052/article/details/104570954

https://s.tencent.com/research/report/978.html

相關文章

使用VSCode遠端除錯惡意Powershell指令碼
2020-09-28
VSCode除錯指令碼
特徵提取-map
2021-01-04
特徵
影象特徵提取之HoG特徵
2018-03-06
特徵HOG
linux ddos惡意軟體分析
2020-08-19
Linux
惡意軟體Linux/Mumblehard分析
2020-08-19
Linux
手工搭建建議的Linux惡意指令碼分析系統
2020-08-21
Linux指令碼
惡意挖礦指令碼大舉入侵，400 多政企網站受波及
2018-05-11
指令碼網站
流量特徵提取工具NFStream
2024-05-11
特徵NFS
Apache 使用 .htaccess遮蔽惡意 User Agent
2021-04-12
Apache
Linux網路命令與指令碼使用
2021-06-28
Linux指令碼
Linux 使用 shell 指令碼處理字串
2020-12-08
Linux指令碼字串
機器學習-特徵提取
2019-09-07
機器學習特徵
OpenCV特徵提取與影像檢索實現（附程式碼）
2018-03-03
OpenCV特徵
sift、surf、orb 特徵提取及最優特徵點匹配
2019-08-04
ORB特徵
防止獨立IP被其它惡意域名惡意解析
2018-03-21
針對Linux和Windows使用者的新型多平臺惡意軟體
2019-11-19
LinuxWindows
Yang 提取Cifar-100的特徵
2024-04-02
特徵
Linux指令碼分享
2024-03-10
Linux指令碼
Linux Shell指令碼
2022-07-10
Linux指令碼
【Linux】Linux安全加固指令碼
2019-05-12
Linux指令碼
Powershell惡意程式碼的N種姿勢
2020-08-19
使用Linux expect批次巡檢Linux Aix Solaris磁碟使用率指令碼
2021-05-12
LinuxAI指令碼
前端防止使用 target="_blank" 的惡意攻擊
2018-04-11
前端
後門惡意軟體通殺 Win、macOS、Linux 三大系統；Linux 惡意程式數量增長 35% | 思否週刊
2022-01-28
MacLinux
無法檢測到的Linux惡意軟體；惡意軟體團隊解散，10萬美元拍賣原始碼；美團疑取消支付寶支付
2020-07-30
Linux原始碼
語音的關鍵聲學特徵（語音情感特徵提取）
2018-11-21
特徵
VMwareMac版本漏洞可任意執行惡意程式碼
2019-05-11
REMMac
14-惡意程式碼防範技術原理
2024-10-07
惡意 Prompt 攻擊
2024-11-01
新型Windows惡意軟體正在針對Linux、macOS裝置
2020-12-16
WindowsLinuxMac
在 Linux 上安裝和使用惡意軟體檢測工具 LMD 及防毒引擎 ClamAV
2018-10-22
Linux防毒
Linux——指令使用方法！
2018-11-24
Linux
WireShark駭客發現之旅（3）—Bodisparking惡意程式碼
2020-08-19
Spark
機器學習&惡意程式碼靜態檢測
2022-01-14
機器學習
程式碼中被植入了惡意刪除操作，太狠了！
2022-12-12
惡意程式碼分析之行為分析及樣本收集
2021-01-29
基於節拍同步的 IF PCP 特徵提取
2020-05-26
特徵
librosa 音訊特徵提取的現成文件
2020-05-31
ROS音訊特徵