二進位制檔案視覺化（二）

魚與魚發表於2022-06-02

原文網址 : https://www.cnblogs.com/gongyanzh/p/16337684.html

視覺化

前不久看到了幾個二進位制檔案視覺化的專案，做了一些瞭解，通過視覺化可以看出加殼或者加密檔案，在紋理結構上和正常檔案還是有較大區別。

而且視覺化對檔案格式不敏感，任何檔案都可以檢視其視覺化結果。

二進位制檔案視覺化

視覺化資料來源可分為以下兩類：

二進位制檔案視覺化
二進位制熵視覺化

對繪圖的方式有幾種方法：

傳統的一維序列轉二維。如固定影像寬度，對序列進行reshape
使用希爾伯特曲線

這兩種方法其實都是空間填充曲線的子類，有興趣可以瞭解。

對繪圖的色彩也可分為以下

灰度圖，直接生成就是灰度圖

彩色圖，不同區域設定不同顏色，如portex【1】中的分了以下五種色類

# 分別對應不同的顏色
0xff, 0x00, 可見ASCII碼, 不可及ascii碼,非ascii碼

彩色圖，直接使用多通道，即每三個連續的位元組作為一個通道的值，源自【2】

灰度圖以及熵

分別將原始二進位制檔案視覺化，熵視覺化，這裡使用了最簡單的視覺化方法。

def bin2image(content, resize=True):
    """
    binary to gray image
    """
    width = imagesize(len(content))
    fh = np.frombuffer(content, dtype=np.uint8)
    rn = len(fh)/width
    fh = np.reshape(fh[:int(rn)*width],(int(rn),width))

    im = Image.fromarray(fh)
    if resize:
        im = im.resize((244,244))
    return im

def H(data):
    ''' Calculate the entropy of a given data block '''
    c = np.bincount(data, minlength=256) 
    p = c.astype(np.float32) / len(data)
    wh = np.where(c)[0]
    H = np.sum(-p[wh] * np.log2(
        p[wh]))
    return H

def block_entropy(data, window=1024, step=256):
    Hbins = []
    if data.shape[0] < window:
        Hbin = H(data)
        Hbins.append(Hbin)
    else:
        shape = data.shape[:-1] + (data.shape[-1] - window + 1, window)
        strides = data.strides + (data.strides[-1],)
        blocks = np.lib.stride_tricks.as_strided(data, shape=shape, strides=strides)[::step, :]

        for block in blocks:
            Hbin = H(block)
            Hbins.append(Hbin)
    return Hbins

def bin2entropy(content, block_size=1024, step=256, resize=True):
    """
    following resources: https://github.com/gcmartinelli/entroPy/blob/master/entropy.py
    but fatser 6x time
    """
    data = np.frombuffer(content, dtype=np.uint8)
    entropy_list = block_entropy(data, block_size, step)
    width = imagesize(len(entropy_list))*2
    rn = len(entropy_list)/width
    matrix = np.reshape(entropy_list[:int(rn)*width],(int(rn),width)) 
    im = Image.fromarray(matrix * 255/8)
    if resize:
        im = im.resize((244,244))
    return im

結果如下圖所示。視覺化之後就可以作進一步分析了，比如對比加殼和正常檔案；使用視覺化圖進行惡意識別。

另外，此處的二進位制熵視覺化主要參考【3】，但是進行了改進，比【3】中原始的方法計算熵圖快了6倍以上。

原始碼見 github： https://github.com/Aida-yy/binai/blob/main/binai/feature_extraction/image.py

【1】https://github.com/struppigel/PortEx

【2】Binary File’s Visualization and Entropy Features Analysis Combined with Multiple Deep Learning Networks for Malware Classification

【3】https://github.com/gcmartinelli/entroPy

MySQL二進位制檔案（binlog）
2020-12-04
MySql
檢視寶塔mysql二進位制檔案 mysqlbinlog
2024-03-17
MySql
【Linux】檢視二進位制檔案內容_hexdump
2019-06-14
Linux
Git處理二進位制檔案
2018-07-14
Git
檔案操作（二進位制拷貝）
2019-07-21
二進位制與二進位制運算
2021-11-27
二進位制檔案記憶體對映
2024-04-27
記憶體
二進位制檔案安裝安裝etcd
2019-08-01
介面返回二進位制檔案的下載。
2024-06-24
二進位制、十進位制與十六進位制相互轉化
2024-03-28
二進位制
2024-06-07
（二進位制）
2020-12-26
C++ 讀取二進位制檔案到char*
2018-04-28
C++
6.3建立自己執行的二進位制檔案
2020-10-25
golang: 給二進位制檔案增加版本資訊
2024-11-23
Golang
3416：【例72.1】二進位制轉化為十進位制
2024-03-10
什麼是二進位制？二進位制如何轉換？
2018-12-12
od 轉儲二進位制檔案常用命令
2018-08-06
flutter-讀寫二進位制檔案到裝置
2019-11-01
Flutter
前端怎麼處理二進位制檔案下載
2019-07-05
前端
mysqlbinlog 處理二進位制日誌檔案的工具
2022-03-17
MySql
十進位制——二 (八、十六 )進位制
2020-10-11
JavaScript 二進位制、八進位制與十六進位制
2019-12-20
JavaScript
Cocoapods 二進位制
2019-04-23
04 二進位制
2024-10-26
leetcode -- 二進位制
2021-06-05
LeetCode
如何將日誌檔案和二進位制檔案快速匯入HDFS？
2018-10-11
二進位制檔案和符號檔案（PDB）如何校驗是否匹配
2024-03-11
符號
文盤Rust -- 如何把配置檔案打包到二進位制檔案裡
2022-09-13
Rust
進位制詳解：二進位制、八進位制和十六進位制
2021-07-07
CentOS6.5二進位制檔案安裝MySQL5.6.39
2018-05-08
CentOSMySql
使用 IDA 處理 U-Boot 二進位制流檔案
2019-12-04
boot
office檔案格式複合文件二進位制結構解析
2019-12-16
根據介面返回的二進位制流匯出檔案
2024-06-06
Debian 二進位制檔案（華文宋體字型）打包解包
2022-12-21
JS下載後臺介面返回的二進位制檔案
2020-11-30
JS
二進位制轉十進位制快速方法
2020-11-17
二進位制，八進位制，十進位制，十六進位制的相互轉換
2020-02-01

二進位制檔案視覺化（二）

二進位制檔案視覺化

灰度圖以及熵

相關文章