首提跨模態程式碼匹配演算法,騰訊安全科恩實驗室論文入選國際AI頂會NeurIPS-2020

騰訊安全發表於2020-11-03

人工智慧領域頂級學術會議NeurIPS 2020(Neural Information Processing Systems)將於12月7日-12日線上上舉行。在近日NeurIPS正式釋出的論文入選名單中,騰訊安全科恩實驗室聚焦利用AI演算法解決二進位制安全問題的《CodeCMR: Cross-Modal Retrieval For Function-Level Binary Source Code Matching》,憑藉首次提出基於AI的二進位制程式碼/原始碼端到端匹配演算法的創新研究成功入選,揭示了“AI+安全”領域的又一突破探索。

作為國際機器學習和計算神經科學領域公認最具影響力的頂級會議之一,NeurIPS彙集了時下人工智慧和自然神經資訊處理等領域最前沿的科研成果,被中國計算機學會 (CCF)推薦為A類Top會議,每年都能吸引來自全世界AI領域的研究者參會和進行前沿成果分享。

新一代資訊科技的“爆發式”普及應用,在造就更為廣闊數字空間版圖的基礎上,也帶來了更為瞬息萬變的網路威脅態勢。AI技術以其在資料分析、知識提取、智慧決策等方面的獨有優勢,已成為近年來網路安全尋求創新突破的重要探索方向。據Gartner預測,到2020年,人工智慧在網路安全領域應用比例將由10%上升為40%。

安全系統的部署、響應的效率及準確性直接關乎其防護的有效性,而從計算機系統的最基礎層上看,程式設計師編寫的原始碼程式向計算機能識別的二進位制語言的轉化與執行,則是影響系統效率的關鍵。為更好地提升安全部署的效率和準確率,騰訊安全科恩實驗室就在本次入選NeurIPS-2020的論文中,聚焦二進位制程式碼-原始碼的交叉領域,首次提出了一種基於AI的二進位制程式碼/原始碼端到端演算法模型:CodeCMR框架,以解決傳統演算法匹配準確率不高的問題,併為安全研究人員致力尋找原始碼的逆向分析提供新思路。

與傳統演算法僅提取字串、立即數特徵進行匹配的做法不同,論文提及的CodeCMR模型能夠實現對程式碼間隱藏語義特徵的自動提取,從而達到提升二進位制程式碼-原始碼跨模態檢索匹配效率的目的。CodeCMR框架能夠以不同模型對原始碼特徵和二進位制程式碼特徵兩大模組的語義、字串、立即數等三大輸入特徵進行向量計算,並以在基礎上用拼接+BatchNorm方式最終實現高效匹配轉化。其中,在語義特徵識別中,端到端的GNN模型表現出更強的健壯性,對於破解傳統演算法高專家經驗的痛點起到關鍵作用。與此同時,在兩大模組的向量取樣階段,Norm weighted sampling 與隨機取樣和distance weighted取樣方法相比也表現出了更好的匹配效果。這種融合訓練的方法對於大幅提升二進位制程式碼/原始碼的匹配準確率探索,提升工業部署效率具有極大推動作用。

 首提跨模態程式碼匹配演算法,騰訊安全科恩實驗室論文入選國際AI頂會NeurIPS-2020

(CodeCMR整體框架)

本次論文入選是騰訊安全科恩實驗室繼以利用圖神經網路解決二進位制程式函式相似性分析問題的研究成果入選AAAI 2020後,致力探索二進位制安全研究的又一全新成果,也是其致力佈局人工智慧領域安全研究和"AI+安全"交叉場景應用的全新實踐。目前,論文成果已在騰訊安全科恩實驗室研發的程式碼檢索工具BinaryAI實現了落地應用。

作為騰訊集團雲與智慧產業事業群旗下一支國際一流的資訊保安團隊,騰訊安全科恩實驗室自2018年就開始深入到人工智慧領域的安全研究中,先後針對特斯拉搭載系統Autopilot高階輔助駕駛問題和AI演算法與傳統安全研究結合探索,分別挖掘出了業內首個實現對抗商用自動駕駛系統影像識別功能的研究案例和聯合騰訊公司高校合作專案“CCF-騰訊犀牛鳥基金”釋出了《深度學習在軟體安全領域的應用研究》的研究課題,為促進安全與AI的深度應用提供了重要突破口。

在雲端計算、大資料及人工智慧等技術發展趨勢下,以機器學習為主要演算法的AI技術顯然將成為應對新安全威脅的重要手段。未來,騰訊安全科恩實驗室將繼續以自身的技術能力積澱和貫穿汽車、智慧應用、IoT等多行業的安全實踐,從瞄準實際痛點的視角,為深處數字化發展關鍵節點的全產業輸送更多前沿技術成果和解決方案。

相關文章