Anthropic安全負責人:在超級AI「毀滅」人類之前,我們可以做這些準備

机器之心發表於2024-09-09
2023 年,Anthropic 釋出了負責任擴充套件策略(Responsible Scaling Policy,RSP),這是一系列技術和組織協議,Anthropic 將採用這些協議來幫助他們管理開發功能日益強大的 AI 系統。
圖片
Anthropic 認為,AI 模型一方面變得越來越強大,創造巨大的經濟和社會價值,另一方面也帶來了嚴重的風險。RSP 將專注於災難性風險 —— 即人工智慧模型直接造成大規模破壞的風險。此類風險可能來自故意濫用模型(例如恐怖分子用它來製造生物武器),也可能來自模型以違背其設計者意圖的方式自主行動而造成破壞。

RSP 還定義了一個稱為 AI 安全等級 (ASL,AI Safety Levels) 的框架,ASL 等級越高,其安全性證明就越嚴格。
圖片
  • ASL-1 指的是不構成重大災難風險的系統,例如 2018 年的 LLM 或只會下棋的 AI 系統。
  • ASL-2 指的是顯示出危險能力早期跡象的系統(例如能夠給出如何製造生物武器的指令),但這些資訊由於可靠性不足或無法超越搜尋引擎能提供的資訊而沒有太多用處。包括 Claude 在內的當前 LLM 似乎是 ASL-2。
  • ASL-3 指的是與非 AI 基線(例如搜尋引擎或教科書)相比,大大增加了災難性濫用風險的系統或顯示出低階自主能力的系統。
  • ASL-4 及更高版本(ASL-5+)尚未定義,因為它與現有系統相差太遠,但可能會涉及災難性濫用潛力和自主性的質的升級。

一直以來,Anthropic 在為 AI 安全做著各種努力,「要做哪些技術工作才能使非常強大的人工智慧的開發順利進行?」近日,Anthropic 安全研究部門的負責人 Sam Bowman 在一篇部落格中分享了他的觀點。
圖片
對於這篇部落格,機器之心做了不改變原義的翻譯與整理。

在開始討論超級人工智慧的風險之前,我有一些前提需要宣告:

人工智慧有望達到與人類相當的水平。這個階段,我稱之為變革性人工智慧(TAI)。TAI 將有能力在所有適合遠端工作的職業中替代人類,包括 AI 研發。

TAI 並不是人工智慧能力的上限,未來可能會出現遠超人類能力的系統,它們將對世界產生深遠影響。在未來十年內,我們很有可能見證 TAI 的誕生,而那時的商業、政策和文化背景預計與當前相比不會有太大變化。

TAI 一旦實現,它將極大地加速人工智慧的研發程序,可能在 TAI 出現後的幾個月或幾年內,我們就能看到遠超人類能力的系統被開發出來。

如果部署不當,超級人工智慧系統可能會極具破壞性。它可能帶來新風險,也可能使現有矛盾變得更加尖銳,比如武器濫用,以及破壞道路監控或網路安全等。

想要讓 TAI 以及更強大的 AI 系統在現實世界中「三觀正常」地正確行事,這對人工智慧安全提出了更高要求。確保人工智慧系統的行為與開發者的意圖一致,即所謂的「對齊」,需要我們投入巨大的努力。而且隨著 AI 系統的能力越來越強,這一任務也變得更加艱鉅。

我將從三個階段展開。

第一階段:準備

此時,AI 還未進階成 TAI,以 Anthropic 的 RSP 評級(風險敏感性評估)來看,他們處於安全等級 2(ASL-2)、ASL-3,或者可能是 ASL-4 的早期階段。我們大部分的干預和準備工作將在這一時期進行,為尚未完全出現的高風險問題做準備。

密切關注技術前沿

AI 有多安全,很大程度上取決於我們的工作能力,而這又與我們獲取前沿技術的能力緊密相關。如果我們無法獲得充足的計算資源,或者在關鍵的預訓練階段出現重大失誤,或者錯過了帶來變革的正規化轉變(哪怕是方法中的一些小改進),我們就會喪失大量做貢獻的機會。而負責 AI 安全工作,需要遵守嚴格的規定和限制。因此,持續跟進新技術,是在此階段的首要任務。

在初始階段基本解決 TAI 的對齊微調問題

當 AI 系統已經智慧到可以自主做研究,特別是 AI 安全研究時,我們需要尋找一種方法,讓 AI 系統在幫助我們完成大量工作的同時,避免出現偏差。同時,我們必須確保 AI 的能力至少與人類專家相當,甚至更優,以確保它們能有效地協助我們。

此時,AI 並不需要完全「對齊」—— 我們可以接受一定程度的風險。因為人類不會將最關鍵的決策權交給 AI。同時,我們也有信心能在 AI 的對齊問題演變成全球性災難之前,及時發現並糾正。

我們的目標是構建高效且通用的 AI 系統。構建能完全「對齊」的 AI 助理,僅供公司內部使用,並進行嚴格的專家監控,這種方法可行,但問題是,有過多限制或需要專家持續監督的 AI 系統很難大規模推廣,這樣一來,Anthropic 的業務也難以持續發展。

在我看來,解決問題的關鍵在於可擴充的監督,這要求我們訓練出能勝任完成複雜的開放式任務的負責任的 AI 智慧體。為此,需要解決的主要挑戰包括:「Reward hacking」、應對人類注意力的有限性,以及識別和抵禦各種欺詐行為。

確保初始形態的 TAI 安全無害

如果「對齊」問題能完美解決,我們只需下達命令,模型就能不做壞事。但這似乎不可能做到。因此,我們必須構建額外的防禦措施,比如對模型輸出自動進行監控、抽查、紅隊測試,壓力測試等。
圖片
蘋果給 Apple Intelligence 下達的系統提示詞:「不要產生幻覺!」

我們還特意構建了「邪惡」的未對齊版本,試圖來攻擊我們的安全系統,這和傳統的「對齊」工作一樣重要。

在長遠來看,由於現有方法依賴於精確、召回率極高的內容分類器,這階段的主要挑戰是圍繞對抗性魯棒性的一系列機器學習問題。

對於有多款變體的模型家族,我們也可以綜合考慮,而不是逐個擊破。這種方法不僅有助於識別在初步安全規劃階段可能未被察覺的風險,還能有效防禦那些在單一資料樣本中不明顯,卻可能在多樣本模式分析中暴露的系統性風險,例如潛在的濫用或錯位問題。

制定合適的 RSP(負責任擴充套件策略)

什麼是一個合格的 RSP?可以參考 LeCun 提出的測試:即使是完全不重視 AI 安全問題的敵方公司,也能放心使用。一份好的 RSP 能研究人員操作安全,一旦出現意外也能顯而易見且可追責。

這個標準與其他領域的標準和類似。例如,如果一個組織希望避免受到網路上的攻擊。儘管他們心存疑慮,但只要遵循 SOC 2 等通用網路安全標準,他們可以獲得真正意義上的保護。

關鍵挑戰是預測哪些風險足夠重要,值得納入其中。到目前為止,我們在威脅建模中反覆出現的一個具體未解決的問題是,ASL-3 和 ASL-4 的風險在多大程度上是透過直接濫用、錯位或透過雙重用途研發等渠道而流動的。

ASL-4 的評估和部署案例

ASL-4 涵蓋了近乎人類水平的自主性和可能災難性的直接濫用風險,我們沒有提前制定詳細的標準。相反,我們將致力於整理一個安全案例 —— 一份提供系統在某些情況下是安全的證據的報告 —— 並制定安全案例需要滿足的高階標準才能獲得批准。許多技術安全工作最終將透過納入這些安全案例產生影響,這些安全案例是我們在 到達 ASL-4 之前的關鍵目標。

Anthropic 把寶押在對可解釋性的深入研究,希望它能夠成為 AI 系統安全的證據來源。

對於大多數部署的安全案例(即任何可能用於高風險任務的模型部署),都需要包含證據表明我們的安全措施具有很高的穩健性。也就是說,應該清楚的是,無論是模型還是它的監測系統,都不會在罕見但重要的輸入上以令人驚訝的方式失敗

除非可解釋性出現不太可能的最佳結果,否則我們預計一個強有力的安全案例將需要依靠基於其他方法的額外新發現。這些新發現應當能讓我們定量評估模型的安全性,預測它們可能帶來的風險。

保護演算法的秘密

如果我們的研究能力遠遠領先於該領域的平均水平,那麼保護該研究的關鍵發現對於公司保持領先地位將非常重要。這與不公佈模型權重有本質不同,保護起來也要困難得多:因為這些發現通常可以用幾句話或幾段話來表達,離職的員工很自然地就能記住。因此保護演算法秘密至關重要。

為 ASL-4 和 ASL-5 建立清晰的評估

一旦達到 ASL-3 級別,安全評估就變得更難了。在 ASL-4 或 ASL-5 級別下部署預防措施,時間和金錢成本可能會空前高昂,過早啟動評估和過晚啟動高風險等級都會產生巨大成本。

這些評估分級應該既清晰又容易理解。如果我們發現某個模型需要 ASL-N 級別的保護,我們就得向第三方解釋,為什麼這個模型需要這樣的保護,以及為什麼其他類似的模型可能也需要。如果我們在評估中發現某些風險因素,我們需要有明確的證據來證明這些風險因素確實值得立即關注。

建立對危險能力、緩解措施和誘導的精確預測

如果我們能夠準確預測哪些風險會在何時出現,以及哪些緩解措施可以在何時準備就緒,那麼將能夠更好地進行規劃和協調。這些預測將在我們的 RSP 評估規劃中發揮特別直接的作用:在 RSP 的當前設計下,我們的評估體系需要留出緩衝空間,以便在風險實際出現之前安全地觸發,從而避免模型是在中等安全性下訓練的,但事後又確定需要更高安全級別的情況。

這些預測也可能影響我們安全案例結構。如果我們有能夠對新風險的出現做出精確預測的方法,這些預測可以幫助識別更廣泛安全案例中最需要關注的特定風險因素。

構建高度自適應的研究基礎設施

在 TAI 早期開發的某個階段,我們可能會獲得有關許多風險的新的具體證據。並且我們可能不會信任具有完全高頻寬訪問許可權的模型來修改我們的基礎設施和程式碼庫,因此工程師時間仍將是我們做許多工作的約束。此時我們需要能夠快速行動,並從新的自動化機會中儘可能多地受益。這可能需要在第二階段中進行大量的組織和基礎設施準備。

在 TAI 出現前,我們可能會發現許多具體的風險。但由於工作進度需要工程師配合。為了能更快地推進,在這個階段,可能需要公司組織調整和基礎設施的建設。

壓力測試安全案例

我們的合規團隊(負責安全)和對齊壓力測試團隊(負責其他技術安全措施)構成了三道防線世界觀中的第二道安全防線,他們負責確保我們瞭解自己正在緩解的風險,並確保沒有遺漏任何重要資訊。在我們的宏觀安全計劃中,這表現為對組織準備做出的任何有關安全和保障的承載宣告進行懷疑評估,並對任何重要的自由裁量決策進行二次簽字。

這一職能的直接重要性並不像這裡列出的許多其他職能,因為原則上我們的一線安全團隊一次就能把事情做好。但在實踐中,我預計這將對我們把事情做好的能力產生重大影響,並清楚地表明我們已經做到了這一點。

特別地,對齊壓力測試團隊的主要挑戰是要足夠接近我們的日常執行工作,腳踏實地,但又不成為這項工作的主要直接貢獻者,以免損害他們評估這項工作的能力。

審查安全案例

董事會在長期利益信任(LTBT)和外部合作伙伴的支援下,為模型構築了三道防線世界觀中的第三道安全防線,對任何關鍵安全決策提出獨立觀點,而這些觀點的提出者從未參與公司計劃的執行或執行。這些人最終負責簽署高風險決策,比如全新前沿模型的部署等。

我希望董事會能夠在需要時找到相關外部專家,並做出合理決策。更大的挑戰是做決策的過程要讓其他參與者易懂並值得信賴。最顯而易見的方法是當相關組織上線並擁有足夠的技術實力來裁決這些決定時,遵從這些特定第三方組織關於決策的意見。如果沒有這一點,很難想象 RSP 及附屬結構如何透過 LeCun 提出的測試。

因此,我認為 Anthropic 無法直接解決的最緊迫安全問題便是找到一個或理想情況下幾個有威望的第三方組織來勝任裁決角色。這些組織要有很高的知名度並受到廣泛的信任,以至於如果前沿 AI 開發者不與它們中的任何一個合作都會被視為高度可疑。

為新興風險因素開發明確的確鑿證據演示

當前的 TAI 安全工作通常至少涉及一定程度的推測或推斷,原因很簡單,我們往往無法驗證那些構成風險的系統。如果可以找到過渡到具體實證工作的方法,則應該這樣做,既是為了鞏固我們對威脅模型的信心,也為其他相關方(尤其包括決策制定者)提供更具說服力的證據

當我們看到明顯的證據表明真實模型中開始出現某種風險或風險因素時,則值得進行大量額外工作將它們轉化為簡單、嚴格的演示,使風險立即清晰明瞭,理想情況下要讓技術水平較低的受眾也能理解。我們過去工作中有過這樣的例子,比如「Sleeper Agents」(沉睡的智慧體)和「Sycophancy」(拍馬屁)。

準備暫停或重新部署

為了使 RSP 承諾在最壞的情況下(確保 TAI 系統的安全極其困難)發揮作用,我們需要能夠暫停開發和部署新的前沿模型,直到制定出足夠的保障措施。但是不能保證這在任何特定的時間線上都能實現,這可能會導致我們取消或大幅修改主要部署。

第二階段:TAI(變革性人工智慧

在這個階段,效能最好的模型開始符合 TAI 的標準,但在大多數領域還沒有遠遠超過人類。根據 RSP,它們的定級為 ASL-4。AI 研發還沒有自動化到 AI 可以自主進步的程度。

AI 開展研究的能力逐漸變強,這將為 AI 安全帶來顯著進步。這個階段可能會逐漸到來,但如果 AI 的研發能力強到「逃逸速度」時,TAI 階段可能會突然結束,直接進入第 3 階段。

第 1 階段的許多工在此時還不會完成,其中許多工在第 2 階段中只會變得更具挑戰性和緊迫性。此外,如果人工智慧增強研發達到「逃逸速度」,這一階段可能會突然結束,我們將需要為第 3 階段做好比當時看起來更直觀的準備。

開發方法來調整實質上超人的人工智慧

在第 3 階段中,我們可能會遇到一些系統,如果它們失調,就足以迅速而果斷地破壞安全。因此,在第 2 階段結束之前,我們需要要麼完全、完美地解決對齊的核心挑戰,要麼完全、完美地解決一些相關的(並且幾乎同樣困難的)目標,例如可糾正性。

不斷、仔細地評估

我們預計人工智慧在微調和啟發方面的進展速度將大幅加快。雖然在早期的 ASL 中,前沿風險評估可以包含一些緩衝,如果人工智慧系統未能觸發緩衝,我們可以在需要再次評估之前進行一些進一步的研究和擴充套件,但這些緩衝可能會變得不可持續,每一項重要進展都應該進行仔細評估。快速且在很大程度上自動化的評估至關重要。

部署以支援高風險決策制定

在從第 2 階段過渡到第 3 階段的過程中,經濟相關大量領域的自動化將變得清晰合理,災難性風險近在眼前,全球大多數機構都面臨前所未有的威脅和機遇。除了成為所有這些不確定性和變化的根源之外,人工智慧系統還可以提供即時工具來幫助應對這些不確定性和變化。

此時,最有價值的一點是部署能夠有效提高我們做出高風險決策能力的工具,可能包括針對個人決策、建立共識、教育和 / 或預測的工作。這裡很大一部分工作將是產品設計,而不是核心人工智慧研究,因此其中大部分工作可能透過以公共利益為導向的合作伙伴而不是內部完成。

第三階段:當 TAI 來臨之後該怎麼辦

當進入這個階段時,最強的 AI 模型已經在廣義上超越了人類,這將需要 ASL-5 級別的預防措施。如果到了這個時候,我們還沒有在重大的核心安全挑戰上取得決定性的成功,那麼屆時 AI 行動的速度太快,風險太高,我們不太可能從重大失誤中恢復過來。

監管機構很可能會在 AI 方面投入巨資,在很大程度上使公司不再需要獨自做出重大決策。在這個階段,我沒有列出任何「待做事項」,因為我希望最好的情況就是「無事發生」。

當超高智慧的人工智慧出現時,作為負責開發的組織,之前的決策將承擔巨大風險,早期部署 AI 系統的方式可能以難以預測迅速改變或破壞社會結構和功能。同時,我們需要仔細考慮治理和安全機制,因為這些高階 AI 系統屆時將不僅是簡單的工具,更可能像一個完整的獨立文明一樣運作。

當然,AI 做出什麼樣的行為才算無害,是一個非常棘手的問題,相比於由一個公司內部來權衡,更希望有更廣泛的力量來達成共識。

原文連結:https://sleepinyourhat.github.io/checklist/

相關文章