我們該有多擔心?
這並非科幻電影橋段,而是 AI 安全風險正在文明身邊真實上演的縮影。知名 AI 投資人 Rob Toews 在《福布斯》專欄預測,2025 年我們將迎來「第一起真實的 AI 安全事件」。
我們已經開始和另一種智慧生命一起生活了,RobToews 寫道,它跟人一樣任性難測,且具有欺騙性。
巧的是,另份新鮮出爐的行業預測也指向同一問題。北京智源研究院在 2025 十大 AI 技術趨勢中描繪了從礎研究到應用落地再到 AI 安全的完整圖景。值得劃重點的是,AI 安全作為一個獨立的技術賽道,被智源評為第十個趨勢:
模型能力提升與風險預防並重,AI 安全治理體系持續完善。
報告點評道:作為複雜系統,大模型的 Scaling 帶來了湧現,但複雜系統特有的湧現結果不可預測、迴圈反饋等特有屬性也對傳統工程的安全防護機制帶來了挑戰。基礎模型在自主決策上的持續進步帶來了潛在的失控風險,如何引入新的技術監管方法,如何在人工監管上平衡行業發展和風險管控?這對參與 AI 的各方來說,都是一個值得持續探討的議題。
AI 大模型安全,水深流急
2024 年,AI 大模型在實現跨越式發展的同時,也讓我們清晰看到了安全的敏感神經如何被刺激挑動。
根據研究,AI 安全風險可以分為三類:內生安全問題、衍生安全問題和外生安全問題。
「內生安全問題」(如「資料有毒」、「價值對齊」、「決策黑盒」),屬於大模型的「基因問題」——龐大的架構、海量的引數、複雜的內部互動機制,讓模型既強大又難以駕馭。
很多人知道「 poem 」復讀漏洞——重複一個詞就能讓 ChatGPT 吐出真實個人資訊,這是因為大模型學習過程中,除了提取語言知識,也會「背誦」一些資料,結果資料隱私以一種意想不到的荒謬方式被觸發出來。
機器之心曾讓 ChatGPT 不斷重複「AI」這個詞,一開始它很聽話,不斷重複,在重複了 1395 次「AI」之後,它突然話鋒一轉,開始說起 Santa Monica,而這些內容很可能是 ChatGPT 訓練資料的一部分。
Prompt 攻擊是因為系統提示和使用者輸入都採用相同的格式——自然語言文字字串,大語言模型沒辦法僅根據資料型別來區分指令和輸入。
「越獄」手段也是層出不窮。從「奶奶漏洞」、「冒險家漏洞」、「作家漏洞」到最新的「 DeceptiveDelight 」技術,攻擊者只需三次對話就有 65% 的機率繞過安全限制,讓模型生成違禁內容。
Deceptive Delight 攻擊示例,來源Palo Alto Networks
Anthropic 的最新研究更是發現,大語言模型居然學會了「偽裝對齊」。
更令人擔憂的是大模型在行業領域的表現。大模型在通用對話中表現流暢,清華大學、中關村實驗室、螞蟻集團等機構聯合撰寫的《大模型安全實踐( 2024 )》白皮書指出,在金融、醫療等對模型輸出專業性、準確性要求極高領域的應用卻面臨嚴峻挑戰,包括嚴重幻覺、缺乏複雜推理能力。
展望 2025 年,智源研究院預測 Agentic AI 將成為大模型應用的主要形態,這些具備更強自主性的智慧體將深度融入工作與生活,也加劇了系統失控的風險。
試想一下,未來兩到三年內,我們可能生活在一個每個人都有數十或數百名代理為我們工作的世界,安全基礎設施的建設變得尤為重要,誰來提供這些安全基礎設施?如何管理這些 AI 代理?如何確保它們不會失控?
當前的大模型安全評測主要聚焦內容安全,對於智慧體這類複雜應用架構和未來 AGI 的安全評估體系仍顯不足。
AI 安全風險的另一大來源是「衍生安全問題」,隨著 AI 濫用引發其他領域的一些重大安全事故,如假新聞、深度偽造詐騙、侵犯智慧財產權、教唆青少年自殺、作弊,也對社會治理提出了重大挑戰。
「真實」這個基本命題正遭到前所未有挑戰。西藏日喀則地震期間,「地震被壓廢墟下戴帽小孩是 AI 生成」的新聞衝上熱搜,很多平臺賬號轉發圖片時都以為是真。除了金融詐騙,深度偽造也將網路性暴力推向極端,「厭女文化」盛行的韓國成了重災區。世界經濟論壇甚至把 AI 操縱選舉列為 2024 年的頭號風險。
版權是另一個大問題。OpenAI、Anthropic、Suno 等領頭羊已深陷版權泥潭。最近,愛奇藝起訴某大模型公司 AI 魔改經典影視劇片段,開創國內 AI 影片侵權訴訟先例。
第三類「外生安全問題」指向了人工智慧系統的外部網路攻擊對抗,如平臺、框架安全漏洞、模型被盜、資料洩露風險等,屬於傳統資訊保安範疇。
就拿更加嚴峻的資料洩露來說。目前 AI 模型推理比較好的選擇仍是在明文狀態下進行,使用者會輸入大量真實、敏感資料,獲取模型建議。有報告指出,2024 年企業員工上傳到生成式 AI 工具的敏感資料增長了 485% ,包括客戶支援資訊、原始碼和研發資料。
企業在安全培訓和政策制定上的滯後引發了安全擔憂,由於擔心敏感資料洩露,美國眾議院於 2024 年 3 月禁止員工使用微軟 Copilot。
因為不同型別的資料(如文字、影像、影片、音訊)在資料規模和處理需求上的巨大差異,被預測寄予厚望的多模態大模型讓資料的安全防護變得更為棘手。
穿越激流,構築多維安全航道
人類叩開了深度智慧時代的大門,安全問題也迎來質變時刻。
2024 年,整個業界、政府、國際組織在 AI 治理上做了很多工作,從技術研究、治理框架到國際合作,進行了多種形式探索。數字時代積累的安全對抗能力,讓中國在大模型應用與治理方面走在了世界前列。
在監管層面,中國是全球最早對生成式 AI 進行規範的國家之一。繼 2023 年 5 月釋出《生成式人工智慧服務管理暫行辦法》後,《網路安全技術生成式人工智慧服務安全基本要求》也已進入公開徵求意見階段,很多規範細正在制定之中。
在底層關鍵技術研究上,國內業界取得了積極成果。例如,北京智源研究院研發了防禦大模型和 AI 監管大模型,對齊最佳化方面進行了創新。
因為模型在預訓練後形成的分佈結構較為穩固,大模型存在「抗拒微調對齊」的特性,後期單純透過微調來實現對齊往往效果不理想,對此,智源提出在預訓練階段就將對齊所需的表徵能力編織入模型架構中。
在對齊最佳化過程中,針對未對齊答案和對齊答案之間存在的偏差,智源採用了迭代訓練的方法,更有利於模型從原始問題到對齊問題的訓練,取得了良好效果。
在多模態對齊上,智源推出的「align anything 」框架實現了多模態資訊的全面對齊,其創新在於將多模態資訊、現實世界的具身認知、以及人類意圖進行細粒度的對齊整合,在 LLaMA 模型的微調過程中已經展現出顯著效果。
同樣是解決大模型的可控性,螞蟻集團的應對之道是把知識圖譜的優點——邏輯推理能力強、知識準確可靠,與大模型結合起來。透過在大模型預訓練、提示指令、思維鏈、RAG(檢索增強生成)和模型對齊等環節中引入符號知識,有效增強了模型輸出的專業性和可靠性。
大模型作為一種通用技術,既可以用於「攻」,也可以用於「防」。在擁抱大模型,以 AI 對抗 AI 方面,華為、螞蟻集團、360 集團、深信服等廠商進行了有益探索。
華為提出業界首個 L4 級 AI 安全智慧體,用大模型加上一些安全知識圖譜實現安全的縱深推理,發現一些以前沒有發現過的安全攻擊。
螞蟻集團釋出了大模型安全一體化解決方案「蟻天鑑」,包含大模型安全檢測平臺「蟻鑑」、大模型風險防禦平臺「天鑑」兩大產品,擁有檢測與防禦兩大核心安全技術能力。
「蟻鑑」是全球第一個實現工業級應用的可信 AI 檢測平臺,以生成式能力檢測生成式系統,覆蓋了內容安全、資料安全、科技倫理全風險型別,適用文字、表格、影像、音訊、影片等全資料模態。
在防禦能力上,「天鑑」會動態監測使用者與模型的互動,防止誘導攻擊,同時對生成的回答內容進行風險過濾,保障大模型上線後從使用者輸入到生成輸出的整體安全防禦。
360 集團推出了基於類腦分割槽專家協同架構的安全大模型,透過 EB 級安全資料訓練,已具備 L4 級「自動駕駛」能力,實現了從威脅檢測到溯源分析的全流程自動化。
深信服的「安全 GPT 」可提供 7×24 小時實時線上智慧值守,提升安全運營效率,同時深度挖掘傳統安全裝置難以檢測的高對抗、高繞過的 Web 攻擊、釣魚攻擊。
除了監管、關鍵技術的推進,行業也在積極加強 AI 安全協作。
在安全治理領域,模型的安全評測是一個非常重要的環節。2024 年 4 月,聯合國科技大會發布了兩項大模型安全標準,其中,螞蟻集團牽頭制定《大語言模型安全測試方法》,首次給出四種攻擊強度分類,提供了可衡量的安全評估標準:L1 隨機攻擊、L2 盲盒攻擊、L3 黑盒攻擊和 L4 白盒攻擊。
這種分級不僅考慮了攻擊的技術複雜度,更重要的是基於攻擊者能獲取的模型資訊程度來劃分,這讓防護措施的部署更有針對性。
在推進國際對話上,2024 年3 月,北京智源研究院發起並承辦我國首個 AI 安全國際對話高階閉門論壇,與全球 AI 領袖學者及產業專家聯合簽署《北京 AI 安全國際共識》,設定模型安全紅線,禁止模型自我演進、自我複製和不受控的權力增長等行為,確保開發者遵循嚴格的安全標準。
9 月威尼斯,一場推動 AI 安全的全球對話落幕,圖靈獎得主 Yoshua Bengio、姚期智等科學家共同簽署「 AI 安全國際對話威尼斯共識」,強調了人工智慧安全作為「全球公共產品」的重要性。
放眼全球,英美側重輕觸式監管,美國加州的 SB 1047因爭議被否決。歐盟 AI 法案已經生效,它建立起四級風險分類體系,明確了人工智 能產品的全生命週期監管要求。
在業界,主要頭部 AI 公司相繼釋出安全框架。
OpenAI 在核心安全團隊解散後公佈了前 10 個安全措施,試圖在技術創新與社會責任間尋求平衡。
Google 也緊隨其後釋出了 SAIF 安全框架,應對模型竊取、資料汙染等風險。
Anthropic 釋出了負責任擴充套件策略( Responsible Scaling Policy, RSP ),被認為是降低 AI 災難性風險(如恐怖分子利用模型製造生物武器)最有前途的方法之一。
RSP 最近更新,引入了更靈活和細緻的風險評估與管理方法,同時堅持不培訓或部署未實施充分保障措施的模型。
一年多前《經濟學人》就開始討論人工智慧的快速發展既讓人興奮,又讓人恐懼,我們應該有多擔心?
2024 年初,中國社會科學院大學在研究報告中指出,安全科技將成為社會的公共品,並與人工智慧並列為未來的兩項通用技術。一年後,智源研究院再次呼籲關注安全治理印證了這一戰略判斷的前瞻性,AI 越強大,安全科技價值也在同步放大。
我們不可能扔掉利刃,放棄科技,唯有為其打造足夠安全的刀鞘,讓 AI 在造福人類的同時始終處於可控軌道。變與不變中,AI 安全治理或許才是 AI 行業永恆的話題。