AI大模型的潛在風險,如何做好管控?

公众号-JavaEdge發表於2024-11-15

0 前言

這是一系列技術和組織協議,旨在幫助管理開發日益強大的 AI 系統的風險。隨 AI 模型強大,我們認為它們將為經濟和社會帶來巨大價值,但也將帶來日益嚴重的風險。RSP 主要關注災難性風險,即 AI 模型直接導致的大規模毀滅性風險。這些風險可能源於對模型的故意濫用(例如被恐怖分子或國家行為者用來製造生物武器),也可能因模型以自主且違背設計者意圖的方式行動而造成的破壞。

RSP 定義了一個名為 AI 安全等級(ASL)的框架,用於應對災難性風險,靈感源於美國政府處理危險生物材料的生物安全等級(BSL)標準。基本思路是根據模型潛在的災難性風險要求相應的安全、保障和操作標準,隨著 ASL 級別的提升,安全性證明的要求也會逐步增加。

1 ASL 系統簡要概述

  • ASL-1:無實質性災難風險的系統,如 2018 年 LLM 或僅會下象棋的 AI 系統
  • ASL-2:顯示出危險能力的初期跡象的系統,例如具備提供如何製造生物武器的指令的能力,但由於資訊可靠性不足或未提供比搜尋引擎更多的資訊,因此不具備實際用途。目前LLM包括 Claude,均屬ASL-2
  • ASL-3:相較於非 AI 基準(如搜尋引擎或教科書)顯著增加災難性誤用風險的系統,或顯示低水平自主能力的系統
  • ASL-4 及以上(ASL-5+):尚未定義,因為與當前系統存在較大差距,但可能涉及災難性誤用潛力和自主性上的質變升級

各 ASL 級別的定義、標準和安全措施在主文件中有詳細說明,但從高層看,ASL-2 措施代表我們目前的安全和保障標準,並與我們最近的白宮承諾有顯著重疊。ASL-3 措施包含更嚴格標準,需大量研究和工程工作來滿足,如極強安全要求,以及在經過頂尖紅隊對抗測試後,若顯示出任何災難性誤用風險,即承諾不部署 ASL-3 模型(這不同於僅承諾進行紅隊測試)。

ASL-4 措施尚未制定(承諾達到 ASL-3 之前完成制定),但可能需要一些目前仍是未解決研究問題的保證方法,如使用可解釋性方法來機制性地證明模型不太可能出現某些災難性行為。

設計 ASL 系統是為了在有效應對災難性風險與激勵有益應用和安全進展之間取得平衡。ASL 系統隱含要求我們在 AI 擴充套件超出我們遵守必要安全程式的能力時暫時暫停訓練更強大的模型。但它以一種直接激勵我們解決必要安全問題的方式實現這點,將解決安全問題作為進一步擴充套件的解鎖條件,並允許我們使用前一個 ASL 級別的最強大模型作為開發下一級別安全特性的工具。[1] 如果被前沿實驗室採納為標準,我們希望這可能創造一個"向上競爭"的動態,將競爭激勵直接引導到解決安全問題上。

商業角度看,RSP 不會改變 Claude 當前用途或中斷產品的可用性。相反,它應被視為類似汽車或航空工業中進行的上市前測試和安全特性設計,目標是在產品投放市場前嚴格證明其安全性,最終使客戶受益。

Anthropic RSP 已得到董事會批准,變更必須在與長期效益信託協商後獲得董事會批准。完整文件描述了一些程式性保障措施,以確保評估過程完整性。

然而,這些承諾是我們目前最佳猜測,將繼續完善的早期迭代。AI 作為一個領域快速發展步伐和諸多不確定性意味與相對穩定 BSL 系統不同,快速迭代和方向修正幾乎肯定必要。

完整文件可在這裡閱讀。希望它能為政策制定者、第三方非營利組織以及面臨類似部署決策的其他公司提供有用啟發。

腳註

  1. 總的來說,Anthropic 始終發現與前沿 AI 模型合作是開發新方法以降低 AI 風險的重要組成部分。

關注我,緊跟本系列專欄文章,咱們下篇再續!

作者簡介:魔都架構師,多家大廠後端一線研發經驗,在分散式系統設計、資料平臺架構和AI應用開發等領域都有豐富實踐經驗。

各大技術社群頭部專家博主。具有豐富的引領團隊經驗,深厚業務架構和解決方案的積累。

負責:

  • 中央/分銷預訂系統效能最佳化
  • 活動&券等營銷中臺建設
  • 交易平臺及資料中臺等架構和開發設計
  • 車聯網核心平臺-物聯網連線平臺、大資料平臺架構設計及最佳化
  • LLM Agent應用開發
  • 區塊鏈應用開發
  • 大資料開發挖掘經驗
  • 推薦系統專案

目前主攻市級軟體專案設計、構建服務全社會的應用系統。

參考:

  • 程式設計嚴選網

本文由部落格一文多發平臺 OpenWrite 釋出!

相關文章