漏洞檢測方法如何選？詳解原始碼與二進位制SCA檢測原理

華為雲開發者社群發表於2021-12-07

原文網址 : https://www.cnblogs.com/huaweiyun/p/15657094.html

摘要：本文探討的是SCA具體的檢測原理，原始碼SCA檢測和二進位制SCA檢測有哪些相同點和不同點，在進行安全審計、漏洞檢測上各自又有什麼樣的優勢和適用場景。

1、原始碼與二進位制的關係和特點

SCA（Software Composition Analysis）軟體成分分析，通俗的理解就是通過分析軟體包含的一些資訊和特徵來實現對該軟體的識別、管理、追蹤的技術。SCA具體的檢測原理又是如何實現的，原始碼和二進位制檔案的SCA檢測又有哪些相同點和不同點，下面內容就來回答一下上述疑問。

對應編譯型別的語言（C/C++/Go/Rust），都是遵循：原始碼—>編譯—>連結—>二進位制檔案的過程。影響二進位制檔案的因素包括不同的CPU架構(ARM、X86、PPC、MIPS…)，不同的作業系統(Wndows、Linux、iOS、Android…)，不同的編譯優化選項(O0~O3)，即使是同一套原始碼，最終編譯生成的二進位制檔案之間也是差別非常大的。注：上述影響因素不涉及java語言

從上面可知原始碼和二進位制檔案之間存在巨大的差別，原始碼是基於高階語言來編寫，是給人看的，人看了很方便理解其中語句的語義；而二進位制是由流（指令流或位元組流）來構成的，是給計算機“看”的，對人來說是非常不友好，不好理解。

原始碼包含了變數符號型別、函式名稱、類名稱、程式碼邏輯結構等大量豐富的程式碼資訊，相反為保留二進位制檔案的緊湊性，編譯生成的二進位制檔案中會丟棄掉很多執行時用不到的資訊，只保留程式正確執行必要的資訊，比如被丟棄的資訊有變數型別、變數名稱等符號資訊，可能被保留的有類名稱、函式名稱等資訊，一定會保留的有常量字串資料。另外為了保證程式的正確執行，還會有保留一個相應的配置資訊，比如jar包中的manifest資訊、POM資訊、maven資訊、資原始檔等。基於這些特點原始碼SCA和二進位制SCA的檢測原理也存在很大的不同。

2、原始碼SCA檢測原理

由於原始碼中包含有豐富的程式資訊，因此原始碼的SCA檢測既有大顆粒度的檢測方法，也有細顆粒度的檢測方法。

2.1 大顆粒度檢測方法：

根據原始碼檔案的相似度來判斷屬於什麼元件和版本；檔案相似度可以基於hash的嚴格匹配方法，也可以根據文字相似度匹配方法；這種匹配方法的優點是效率高，匹配速度極快，確定是也很明顯，基於hash的容易漏報，基於文字相似度的準確率低；

2.2 細顆粒度檢測方法：

經過原始碼—>詞法分析—>Token提取—>語法分析—>AST抽象語法樹—>語義分析過程來提取相應的資料，再通過機器學習、NLP、CFG呼叫圖、DFG資料流圖等等匹配演算法進行程式碼相似度的檢測，這種基於語義的程式碼相似度檢測與基於文字相似度檢測相比準確率高；

2.3 具備包管理機制的語言：

比如Java、Go，可以通過引用的開源軟體包資訊來實現開源軟體的關聯分析，這種方法可以幾乎可以100%準確的分析出引用的開源軟體名稱。

3、二進位制SCA檢測原理

雖然好多原始碼中具有的資訊在二進位制檔案中不存在，但是對於常量字串、部分類名稱、函式名稱、以及一些配置資訊還是存在的，並且這些資訊具備一定的不變性，即受cpu架構、不同編譯優化選項的影響很小，因此二進位制SCA主要從二進位制檔案中提取這些方面的不同特徵，再運用匹配演算法進行相似度計算，並根據相似度門限來檢測出引用的開源軟體名稱和版本號。

結合分析二進位制程式碼中的CFG呼叫圖、DFG資料流圖等資訊進行更加精準的檢測，但由於這些分析需要對二進位制檔案進行指令反彙編，導致分析時間非常的長，分析效率低下，因此這種SCA檢測方法不適合對大規模二進位制檔案進行掃描。

4、原始碼SCA和二進位制SCA功能對比

可以試試下面的漏掃服務，看看系統是否存在安全風險：>>>漏洞掃描服務

點選關注，第一時間瞭解華為雲新鮮技術~

二進位制補碼及與原碼的互相轉換方法詳解
2024-11-03
如何檢視錶中的二進位制流
2020-05-19
目標檢測：二維碼檢測方案
2022-03-26
java程式碼審計人工漏洞檢測方法
2021-07-22
Java
進位制詳解：二進位制、八進位制和十六進位制
2021-07-07
網站漏洞檢測對漏洞檢測修復方案
2018-12-14
網站
二進位制原碼、反碼、補碼詳解
2019-03-22
詳解JSON和JSONP劫持檢測程式碼以及解決方法
2020-11-28
JSON
詳解 Hough 變換（基本原理與直線檢測）
2024-07-28
網站漏洞檢測滲透測試檢測手法
2019-12-11
網站
位元組碼引用檢測原理與實戰
2021-12-07
如何在MySQL中檢視binlog二進位制日誌？
2021-07-24
MySql
Python指令碼檢測笑臉漏洞
2024-10-23
Python指令碼
Bash漏洞檢測及解決方案
2020-12-23
Laravel 原始碼環境檢測類詳細分析
2018-12-15
Laravel原始碼
微信域名檢測api介面分享與使用方法詳解
2019-12-05
API
滲透測試之CSRF程式碼漏洞的檢測與加固方案
2019-09-06
二進位制與二進位制運算
2021-11-27
二階段目標檢測網路-FPN 詳解
2022-12-16
心跳檢測機制
2024-03-17
CMS漏洞檢測工具 – CMSmap
2018-06-05
漏洞型別及檢測
2022-01-07
型別
JavaScript 二進位制、八進位制與十六進位制
2019-12-20
JavaScript
人臉檢測識別，人臉檢測，人臉識別，離線檢測，C#原始碼
2019-02-16
C#原始碼
如何選擇測試微信域名檢測介面-域名檢測api介面測試標準
2020-04-29
API
網站漏洞檢測 wordpress sql注入漏洞程式碼審計與修復
2019-09-16
網站SQL
[二進位制漏洞]棧(Stack)溢位漏洞 Linux篇
2022-06-19
Linux
檢視寶塔mysql二進位制檔案 mysqlbinlog
2024-03-17
MySql
【Linux】檢視二進位制檔案內容_hexdump
2019-06-14
Linux
二進位制轉十進位制快速方法
2020-11-17
微信域名檢測實現機制與程式碼分享
2021-04-01
詳解微信域名防封的方法以及檢測等工具的技術原理
2020-07-03
二階段目標檢測網路-Faster RCNN 詳解
2022-12-15
ASTCNN
二階段目標檢測網路-Mask RCNN 詳解
2022-12-19
CNN
二階段目標檢測網路-Cascade RCNN 詳解
2022-12-20
CNN
滲透測試網站安全漏洞檢測大體方法
2019-10-24
網站
CS後門原始碼特徵分析與IDS入侵檢測
2024-06-13
原始碼特徵
【Redis】原始碼編譯二進位制包
2024-10-17
Redis原始碼編譯