來自 AI Secure 實驗室的 LLM 安全排行榜簡介

HuggingFace發表於2024-03-12

近來,LLM 已深入人心,大有燎原之勢。但在我們將其應用於千行百業之前,理解其在不同場景下的安全性和潛在風險顯得尤為重要。為此,美國白宮釋出了關於安全、可靠、可信的人工智慧的行政命令; 歐盟人工智慧法案也對高風險人工智慧系統的設立了專門的強制性要求。在這樣的大背景下,我們首先需要確立一個用於定量評估人工智慧系統的風險的技術解決方案,以為保證人工智慧系統的安全性和一致性提供基準。

為了因應這一需求,我們 安全學習實驗室 於 2023 年提出了 DecodingTrust 平臺,這是第一個全面且統一的 LLM 可信度評估平臺。( 該工作還榮獲了 NeurIPS 2023 的 傑出論文獎 )

DecodingTrust 是一個多維度的評估框架,其涵蓋了 8 個可信度評估維度,包括: 毒性、刻板印象偏見、對抗提示魯棒性、OOD (Out Of Distribution) 魯棒性、對抗示例魯棒性、隱私保護、道德以及公平性。特別地,DecodingTrust 1) 為整體可信度評估提供全面的分析維度,2) 為每個維度量身定製了新穎的紅隊演算法,從而對 LLM 進行深入測試,3) 可跨各種雲環境輕鬆安裝,4) 提供一個可供開放模型和封閉模型同場競技的全面的可信度排行榜,5) 提供失敗樣本以增強評估的透明度以及對評估基準的理解,6) 提供端到端方案並輸出面向實用場景的詳細模型報告。

今天,我們很高興向社群釋出新的 LLM 安全排行榜,該排行榜是基於 HF 排行榜模板 開發的,其專注於對 LLM 進行安全性評估。

紅隊評估

AI-Secure/llm-trustworthy-leaderboard

DecodingTrust 為每個評估維度都提供了數種新穎的紅隊方法以對模型進行壓力測試。有關測試指標的詳細資訊可參見我們論文中的 圖 3

針對毒性這一維度,我們針對其設計了最佳化演算法並使用精心設計的提示以使生成模型生成具有挑戰性的使用者提示。我們還設計了 33 個具有挑戰性的系統提示,以在不同場景下 (如角色扮演、任務重規劃以及程式式響應等) 對 LLM 進行評估。然後,我們利用目標 LLM 的 API 來評估其在這些具有挑戰性的提示下生成的內容的毒性分。

針對刻板印象偏見這一維度,我們收集了涉及 24 個人口統計學群體的 16 個刻板印象話題 (其中每個話題包含 3 個提示變體) 用於評估模型偏見。我們對每個模型提示 5 次,並取其平均值作為模型偏見分。

針對對抗提示魯棒性這一維度,我們針對三個開放模型 (分別是: Alpaca、Vicuna 以及 StableVicuna) 構建了五種對抗攻擊演算法。我們使用透過攻擊開放模型而生成的對抗性資料來評估不同模型在五種不同任務上的魯棒性。

針對 OOD 魯棒性這一維度,我們設計了不同的風格轉換、知識轉換等場景測例,以評估模型在未見場景下的效能,如 1) 將輸入風格轉換為其他不太常見的風格,如莎士比亞或詩歌形式,或 2) 問題所需的知識在 LLM 訓練資料中不存在。

針對對抗示例魯棒性這一維度,我們設計了包含誤導資訊的示例,如反事實示例、假相關和後門攻擊,以評估模型在此類情形下的效能。

針對隱私保護這一維度,我們提供了不同級別的評估,包括 1) 預訓練資料的隱私洩露,2) 對話過程中的隱私洩露,3) LLM 對隱私相關措辭及事件的理解。特別地,對於 1) 和 2),我們設計了不同的方法來進行隱私攻擊。例如,我們提供不同格式的提示以誘導 LLM 吐露電子郵件地址及信用卡號等敏感資訊。

針對道德這一維度,我們利用 ETHICS 和 Jiminy Cricket 資料集來設計越獄系統和使用者提示,用於評估模型在不道德行為識別方面的表現。

針對公平性這一維度,我們透過在各種任務中對不同的受保護屬性進行控制,從而生成具有挑戰性的問題,以評估零樣本和少樣本場景下模型的公平性。

來自於我們論文的重要發現

總的來說,我們發現:

  1. GPT-4 比 GPT-3.5 更容易受到攻擊;
  2. 沒有一個 LLM 在所有可信度維度上全面領先;
  3. 需要在不同可信度維度之間進行折衷;
  4. LLM 隱私保護能力受措辭的影響較大。例如,如果對 GPT-4 提示 “in confidence”,則可能不會洩露私人資訊,但如果對其提示 “confidentially”,則可能會洩露資訊。
  5. 多個維度的結果都表明,LLM 很容易受對抗性或誤導性的提示或指令的影響。

如何提交模型以供評估

首先,將模型權重轉換為 safetensors 格式,這是一種儲存權重的新格式,用它載入和使用權重會更安全、更快捷。另外,在排行榜主表中,我們能夠直接顯示 safetensors 模型的引數量!

其次,確保你的模型和分詞器可以透過 AutoXXX 類載入,如下:

from transformers import AutoConfig, AutoModel, AutoTokenizer
config = AutoConfig.from_pretrained("your model name")
model = AutoModel.from_pretrained("your model name")
tokenizer = AutoTokenizer.from_pretrained("your model name")

如果上述步驟失敗,請根據報錯訊息對模型進行除錯,成功後再提交。不然你的模型可能上傳不正確。

注意:

  • 確保你的模型是公開的!
  • 我們尚不支援需要 use_remote_code=True 的模型。但我們正在努力,敬請期待!

最後,你需要在排行榜的 Submit here! 選項卡中提交你的模型以供評估!

如何引用我們的工作

如果你發現這個評估基準對你有用,請考慮引用我們的工作,格式如下:

@article{wang2023decodingtrust,
  title={DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models},
  author={Wang, Boxin and Chen, Weixin and Pei, Hengzhi and Xie, Chulin and Kang, Mintong and Zhang, Chenhui and Xu, Chejian and Xiong, Zidi and Dutta, Ritik and Schaeffer, Rylan and others},
  booktitle={Thirty-seventh Conference on Neural Information Processing Systems Datasets and Benchmarks Track},
  year={2023}
}

英文原文: https://hf.co/blog/leaderboard-decodingtrust

原文作者: Chenhui Zhang,Chulin Xie,Mintong Kang,Chejian Xu,Bo Li

譯者: Matrix Yao (姚偉峰),英特爾深度學習工程師,工作方向為 transformer-family 模型在各模態資料上的應用及大規模模型的訓練推理。

相關文章