2024年1月19日,業界首個網路安全大模型評測平臺SecBench正式釋出,該平臺由騰訊朱雀實驗室和騰訊安全科恩實驗室,聯合騰訊混元大模型、清華大學江勇教授/夏樹濤教授團隊、香港理工大學羅夏樸教授研究團隊、上海人工智慧實驗室OpenCompass團隊共同建設,主要解決開源大模型在網路安全應用中安全能力的評估難題,旨在為大模型在安全領域的落地應用選擇基座模型提供參考,加速大模型落地程式。同時,透過建設安全大模型評測基準,為安全大模型研發提供公平、公正、客觀、全面的評測能力,推動安全大模型建設。
行業首發,彌補大模型在網路安全垂類領域評測空白
自2022年11月ChatGPT釋出以來,AI大模型在全球範圍內掀起了有史以來規模最大的人工智慧浪潮,大模型的落地程式也隨之加速。然而,在網路安全應用中,大模型研發人員如何選擇合適的基座模型,當前大模型的安全能力是否已經達到業務應用需求,都成為亟待解決的問題。
SecBench網路安全大模型評測平臺,將重點從能力、語言、領域、安全證書考試四個維度對大模型在網路安全領域的各方面能力進行評估,為大模型研發人員、學術研究者提供高效、公正的基座模型選型工具和研究參考。
圖 1. SecBench網路安全大模型評測整體設計架構
圖 2. GPT-4在能力維度、語言維度以及安全領域能力的評估結果
圖 3. GPT-4在各類安全證書考試中的評估結果(綠色為透過考試)
SecBench設計架構
圖1. 為SecBench網路安全大模型評測初期規劃的架構,主要圍繞三個維度進行構建:
一是積累行業獨有的網路安全評測資料集。評測資料是評測基準建設的基礎,也是大模型能力評測最關鍵的部分。目前行業內還沒有專門針對大模型在網路安全垂類領域的評測基準/框架,主要原因也是由於評測收據缺失的問題。因此,構建網路安全大模型評測基準的首要目標是積累行業內獨有的網路安全評測資料集,覆蓋多語言、多題型、多能力、多領域,以全面地評測大模型安全能力。
二是搭建方便快捷的網路安全大模型評測框架。“百模大戰”下,大模型的形態各異,有HuggingFace上不斷湧現的開源大模型,有類似GPT-4、騰訊混元、文心一言等大模型API服務,以及自研本地部署的大模型。評測框架如何支援各類大模型的快速接入、快速評測也很關鍵。此外,評測資料的多樣性也挑戰著評測框架的靈活性,例如,選擇題和問答題往往需要不同的prompt和評估指標,如何快速對比few shot和zero shot的差異。因此,需要搭建方便快捷的網路安全大模型評測框架,以支援不同模型、不同資料、不同評測指標的靈活接入、快速評測。
三是輸出全面、清晰的評測結果。網路安全大模型研發的不同階段其實對評測的需求不同。例如,在研發初期進行基座模型選型階段,通常只需要瞭解各類基座模型的能力排名、對比不同模型能力差異;而在網路安全大模型研發階段,就需要了解每次迭代模型能力的變化,仔細分析評估結果等。因此,網路大模型評測需要輸出全面、清晰的評測結果,如評測榜單、能力對比、中間結果等,以支援不同研發階段的需求。
SecBench除了圍繞上述三個目標進行建設外,還設計了兩個網路安全特色能力:安全領域評測和安全證書考試評估。安全領域評測從垂類安全視角,評測大模型在九個安全領域的能力;安全證書考試評估支援經典證書考試評估,評測大模型透過安全證書考試的能力。
二、SecBench評測框架
SecBench網路安全評測框架可以分為資料接入、模型接入、模型評測、結果輸出四個部分,透過配置檔案配置資料來源、評測模型、評估指標,即可快速輸出模型評測結果。
l 資料接入:在資料接入上,SecBench支援多型別資料接入,如選擇題、判斷題、問答題等,同時支援自定義資料接入及評測prompt模板定製化。
l 模型接入:在模型接入上,SecBench同時支援HuggingFace開源模型、大模型API服務、本地部署大模型自由接入,還支援使用者自定義模型。
l 模型評測:在模型評測上,SecBench支援多工並行,加快評測速度。此外,SecBench已內建多個評估指標以支援常規任務結果評估,也支援自定義評估指標滿足特殊需求。
l 結果輸出:在結果輸出上,SecBench不僅可以將評測結果進行前端頁面展示,還可以輸出模型評測中間結果,如配置檔案、輸入輸出、評測結果檔案等,支援網路安全大模型研發人員資料分析需求。
圖 4. SecBench網路安全大模型評測框架
SecBench評測資料
網路安全大模型的能力難以評測,主要原因之一還是網路安全垂類資料的缺失。為了解決這一問題,SecBench目前已經收集整理了12個安全評測資料集,累計資料10000餘條。
l 語言維度:覆蓋中文、英文兩類常見語言的評測。
l 能力維度:從安全視角,支援大模型對安全知識的知識記憶能力、邏輯推理能力、理解表達能力的評估。
l 領域維度:支援大模型在不同安全領域能力的評測,包括資料安全、應用安全、端點與主機安全、網路與基礎架構安全、身份與訪問控制、基礎軟硬體與技術、安全管理等。
l 證書考試:SecBench還積累了各類安全證書模擬試題,可支援大模型安全證書等級考試評估。
圖 5. SecBench網路安全大模型評測資料分佈
當前SecBench評測資料仍然存在多樣性不足、分佈不均勻等問題,當前正在持續補充建設多題型、多能力、多維度的評測資料。
SecBench評測結果
SecBench正在逐步接入大模型進行網路安全能力評測,目前主要針對經典GPT模型以及小規模開源模型進行評測榜單輸出。展示模型在能力、語言、安全領域不同能力維度的結果,同時支援安全等級證書考試結果輸出。後續將持續接入商用大模型、安全大模型,支援模型能力對比等能力。
圖 6. SecBench網路安全大模型評測榜單
隨著大模型在網路安全領域的落地應用加速,網路安全大模型的評測變得尤為關鍵。SecBecnch已初步建立起圍繞網路安全垂類領域的評測能力,以更好地支援網路安全大模型的研發及落地應用。此外為評估大模型在Prompt安全方面的表現,騰訊朱雀實驗室已聯合清華大學深圳國際研究生院,釋出了《大語言模型(LLM) 安全性測評基準》。
未來展望
SecBecnch初步建立起圍繞網路安全垂類領域的評測能力,然而還有許多需要最佳化迭代的地方:一是仍需持續補充構建高質量的網路安全評測資料,覆蓋多領域、多題型,以更好地支援模型在網路安全領域的全面評測;二是快速跟進大模型評測,對於新發布的大模型,能夠及時輸出評測結果;三是豐富模型結果呈現方式,支援模型對比、結果分析等功能,以滿足不同使用者的使用需求。SecBench也希望能夠引入更多的合作伙伴,包括學術界、工業界相關從業者,共創共贏,共同推動網路安全大模型的發展。