CSA GCR 2024 | 深度解析百度大模型原生安全的系統構建

百度安全發表於2024-11-20

11月15日,第八屆雲安全聯盟大中華區大會在北京成功舉辦,本次大會以"雲安全·AI,迎接未來"為主題,匯聚聯合國科學和技術促進發展委員會主席Muhammadou M.O. Kah、中國友誼促進會理事長陳智敏、工信部國際經濟技術合作中心資訊化所所長李苑、雲安全聯盟CEO Jim Reavis、CSA大中華區主席李雨航等來自全球的頂尖專家和行業先鋒,聚焦數字化時代的技術與安全變革,探討雲安全進入3.0時代AI與雲端計算的融合下的安全挑戰。會上,百度安全技術委員會主席包沉浮以"大模型原生安全構建之路"為題,深入剖析了大模型安全體系的系統構建。

圖片
百度安全技術委員會主席包沉浮

大模型在其訓練、部署、運營等各階段面臨著不同的安全挑戰,如訓練資料的選擇與保護、防止模型引數洩露、應對惡意輸入等,需要全面的、系統的安全策略來應對。隨著新技術的快速發展,其安全問題也日益凸顯。包沉浮在演講中首先強調了大模型內生安全的三大支柱:基礎能力、語料安全和安全對齊。他指出,提升模型的基礎能力是保障安全的根本,這一理念基於"更強大的智慧往往意味著更好的安全性"的假設。在語料安全方面,透過嚴格的資料篩選和清洗,可以從源頭降低模型產生不安全內容的風險。而安全對齊則試圖透過強化學習等方式調整模型行為,使其符合預期的安全標準。這種多層次的內生安全架構為大模型的基礎安全提供了重要保障。

然而,僅依靠內生安全是遠遠不夠的。百度安全技術委員會主席包沉浮,向與會專家示例即使經過安全對齊的模型也可能存在"表面對齊"的侷限性,在面對特定提示詞時可能產生意想不到的輸出。這種現象不僅凸顯了構建更全面的原生安全體系的必要性,也反映出大模型安全問題的複雜性遠超傳統安全範疇。而大模型原生安全框架包含四大核心要素:內生安全、縱深防禦、紅藍對抗和持續運營。即在保持內生安全基礎的同時,透過縱深防禦在模型外圍構建多重防護屏障。這包括專門的內容安全機制、大模型防火牆系統、多模型協同以及RAG檢索增強等技術手段,形成立體化的防護體系。

圖片
大模型原生安全

在縱深防禦建設方面,百度特別關注對抗性攻擊的防護,包括越獄攻擊檢測、注入攻擊檢測、異常輸入檢測等多個維度。結合多模型協同機制,系統能夠針對特定場景呼叫專門訓練的安全模型,與主模型形成分工配合,從而提升整體安全性。並基於RAG技術的引入有效解決了知識不足導致的"幻覺"等安全問題。

在紅藍對抗上,不同於傳統靜態的安全評估方式,轉而採用動態模型紅隊測試。這種方法不僅包括人工紅隊測試,還包括自動化的安全評估和結果分析,透過持續的攻防對抗來提升系統的安全防護能力。特別值得一提的是,百度安全建立了包含文字、影像、多模態混合等多個維度的評測體系,確保安全防護的全面性。這種動態進化的安全評估方法,使得系統能夠不斷適應新出現的安全威脅。

在持續運營層面,百度構建了多維度的風險感知和處置機制。透過語義干預技術,系統能夠及時識別和應對突發性風險;透過安全巡檢,可以定期發現潛在的安全隱患;而基於裝置、賬號、流量等多維度資訊的安全風控體系,則確保了異常行為的實時識別和處置。這種全方位的運營體系不僅提高了安全防護的效率,也增強了系統應對未知威脅的能力。

此外,百度安全的格外重視智慧體應用場景下的安全問題。隨著AI技術向智慧體方向演進,新的安全挑戰不斷湧現,包括Prompt洩露、RAG檢索增強生成投毒、非預期執行等新型風險。針對這些新興威脅,百度安全開發了一系列創新性的防禦措施,包括行為約束機制、許可權管控體系等,為智慧體應用的安全發展提供了重要保障。

圖片
百度大模型安全解決方案

隨著大模型應用場景的不斷擴充,相應的安全需求也將持續增長。百度安全技術委員會主席包沉浮認為,儘管大模型帶來了全新的安全挑戰,但傳統安全領域積累的經驗仍然具有重要價值,大模型安全的核心關鍵在於如何將傳統安全理念與大模型的特點有機結合。基於這一理念,百度安全將繼續深耕大模型安全領域,秉持著開放合作的理念,攜手產業各方共同探索更安全、更可靠的大模型應用實踐,透過技術創新和實踐積累,為人工智慧技術的健康發展保駕護航,構建更加全面、可靠的大模型安全防護體系。在百度中搜尋「百度大模型安全」可瞭解更多詳情。

相關文章