人類自身都對不齊,怎麼對齊AI?新研究全面審視偏好在AI對齊中的作用

机器之心發表於2024-10-22
讓 AI 與人類價值觀對齊一直都是 AI 領域的一大重要且熱門的研究課題,甚至很可能是 OpenAI 高層分裂的一大重要原因 ——CEO 薩姆・奧特曼似乎更傾向於更快實現 AI 商業化,而以伊爾亞・蘇茨克維(Ilya Sutskever)為代表的一些研究者則更傾向於先保證 AI 安全。

但人類真的能讓 AI 與自己對齊嗎?近日,來自麻省理工學院、加州大學伯克利分校、倫敦大學學院、劍橋大學的一個四人團隊研究發現,人類尚且難以對齊,也就更難以讓 AI 與自己對齊了。他們批判性地審視了當前 AI 對齊研究的缺陷,另外他們也展示了一些替代方案。
圖片
  • 論文標題:Beyond Preferences in AI Alignment
  • 論文地址:https://arxiv.org/pdf/2408.16984

這篇論文的一作 Tan Zhi-Xuan 在 X 上稱這項研究耗時近 2 年時間,其表示這既是一份批判性評論,也是一份研究議程。「在其中,我們根據 4 個偏好論題描述了偏好在 AI 對齊中的作用。然後,我們強調了它們的侷限性,並提出了值得進一步研究的替代方案。」
圖片
哲學家 Nora Belrose 總結了這篇論文中一些有趣的結論:
圖片
  1. 人類在行事時甚至都不能大致遵循理性選擇理論;
  2. 沒有理由認為高階 AI 必定會最大化某個效用函式;
  3. 人類偏好是推斷出來的或構建起來的,因此將 AI 的行為與我們表述出來的偏好對齊是錯誤的方向;相反,我們可以將 AI 直接與「優秀助手 / 程式設計師 / 司機等」規範性理想目標對齊;
  4. 聚合人類的偏好充滿哲學和數學困難;我們的目標不應該是讓 AI 與「人類的集體意志」對齊。

該團隊首先提出,「人類價值觀」這個術語其實沒有清晰明確的定義,因此就很難對其進行量化,從而讓機器對齊。

目前,定義「價值」的一種主要方法是基於人類偏好,這種方法源自利用理性選擇理論、統計決策理論的傳統及其對人工智慧中的自動決策和強化學習的影響。

無論是明確採用,還是以「獎勵」或「效用」的形式隱含地假設,這種基於偏好的方法已經成為人工智慧對齊的理論和實踐的主導方法。

但是,就連該方法的支持者也指出,在對齊 AI 與人類偏好方面存在諸多技術和哲學難題,包括社會選擇、反社會偏好、偏好變化以及難以從人類行為中推斷偏好。

這項研究認為,要想真正解決這些難題,就不能僅僅基於本體論、認識論或規範性理論來看待人類偏好。借用福利哲學中的一個術語,該團隊將這些對 AI 對齊的描述形式表述成了一種範圍寬廣用於 AI 對齊的偏好主義(preferentist)方法。之後,基於偏好在決策中的作用,他們又將這些方法分成了四類:

  • 將理性選擇理論作為描述性框架。人類行為和決策被很好地建模為近似地滿足最大化偏好,這可以表示為效用或獎勵函式。
  • 將預期效用理論作為規範標準。理性可以被描述為預期效用的最大化。此外,應根據這一規範標準設計和分析 AI 系統。
  • 將單主體對齊作為偏好匹配。對於要與單個人類主體對齊的 AI 系統,它應儘可能地滿足該人類的偏好。
  • 將多主體對齊作為偏好聚合。為了使 AI 系統與多個人類主體對齊,它們應以最大限度地滿足其總體偏好。

這些論點都只是觀點,而非一個統一的 AI 對齊理論。儘管如此,它們表達的思想是緊密關聯的,並且大多數 AI 對齊方法都採用了其中 2 個或更多論點。比如逆向強化學習、基於人類反饋的強化學習(RLHF)和直接偏好最佳化(DPO)全都假定可透過一個獎勵或效用函式來很好地建模人類偏好,並且該函式還可被進一步最佳化。

當然,偏好主義也有批評者。多年來人們一直在爭論上述論點是否合理。即便如此,偏好主義仍舊是實踐中的主導方法。

因此,該團隊表示:「我們相信有必要確定偏好主義方法的描述性和規範性承諾,明確說明其侷限性,並描述可供進一步研究的概念和技術替代方案。」

下面我們將簡要總結該論文梳理的觀點和替代方案,詳細描述請參閱原論文。

在建模人類時,超越理性選擇理論

理性選擇理論的核心原則是:假設人類的行為是為了儘可能地滿足自己的偏好,並且個體和總體人類行為都可以用這些術語來理解。就理論前提而言,這一假設非常成功,並且還構成了現代經濟學這門學科的基石,還影響了與人類行為分析有關的許多領域,包括社會學、法學和認知科學。

將揭示型偏好及其表徵用作效用函式。理性選擇理論最標準的形式是假設人類偏好可以表示為一個標量值的效用函式,而人類選擇就可建模成選取的動作,其目標是最大化該函式的預期值。這種方法希望可以直接從人類的選擇中得出其偏好,並且還可以將他們的偏好程度表示為標量值。這樣的偏好被稱為揭示型偏好(revealed preferences),因為它們會在人類選擇過程中逐步揭示出來。這些方法有眾多定理支援。這些定理表明,任何遵循某些「理性公理」的結果偏好排序都可以用效用函式來表示,例如著名的馮・諾依曼 - 摩根斯坦(VNM)效用定理。

機器學習中的理性選擇理論。根據理性選擇理論,許多機器學習和 AI 系統還假設人類偏好可以或多或少直接地基於人類選擇得出,並且進一步用標量效用或獎勵來表示這些偏好。逆向強化學習和基於人類反饋的強化學習領域尤其如此,它們假設人類的行為可以描述為(近似地)最大化隨時間推移的標量獎勵總和,然後嘗試推斷出一個能解釋所觀察到的行為的獎勵函式。推薦系統領域也可以找到類似的假設。

帶噪理性選擇(noisily-rational choice)的玻爾茲曼模型。雖然這些基於偏好的人類行為模型基於理性選擇理論,但值得注意的是,它們比僅僅「最大化預期效用」可能要更復雜一些。因為人類其實很複雜,並不總是在最大化效用,因此模型必然帶有噪聲,只能算是近似的理性選擇。在機器學習和 AI 對齊領域,這種選擇模型的最常見形式是玻爾茲曼理性(得名於統計力學中的玻爾茲曼分佈),它假設選擇 c 的機率正比於做出該選擇的預期效用的指數:圖片

玻爾茲曼理性的論證和擴充套件。這種選擇模型在實踐和理論上都很有用。比如,透過調整「理性引數」 β(在 0 到無窮大之間),可以在完全隨機選擇和確定性最優選擇之間調整玻爾茲曼理性。理論上,玻爾茲曼理性可作為盧斯(Luce)選擇公理的一個例項,也可作為熱力學啟發的有限理性模型。此外,玻爾茲曼理性已擴充套件到建模人類行為的其它方面,除了目標導向動作之外,還包括選項之間的直接比較、顯式陳述的獎勵函式、整體行為策略和語言表達,從而允許從多種形式的人類反饋中推斷出偏好。

玻爾茲曼理性的侷限性。儘管玻爾茲曼理性可能很有用,但尋求替代方案也很重要。首先,它不是唯一直觀合理的噪聲理性選擇模型:隨機效用模型是將選擇建模成最大化隨機擾動效用值的結果,並被廣泛用於市場營銷研究。更重要的是,帶噪理性不足以解釋人類未能採取最佳行動的全部方式。為了準確地從人類行為中推斷出人類的偏好和價值觀,必需更豐富的有限理性模型。最根本的是,人類動機不能完全歸結為單純的偏好或效用函式。我們需要更豐富的人類理性模型。

這一節討論並擴充套件的議題包括:

  • 人類決策的帶噪理性模型;
  • 將獎勵和效用函式用作人類偏好的表徵;
  • 將偏好用作人類價值和理性的表徵。

超越將預期效用理論作為理性的規範標準

現在,問題來了:對於人類和機器行為來說,效用最大化是預期的規範標準嗎?也就是說,智慧體是否應該將最大化滿足其偏好作為完美理性的條件,而不論其實際做得如何。

EUT(預期效用理論)的一致性論據。關於這種規範性標準的可行性,一直存在爭議。支援 EUT 的論據包括前面提到的效用表示定理。該定理基於這一公理:偏好算作理性;然後證明任何遵循偏好行事的智慧體的行為都必定像是在最大化預期效用。在 AI 對齊文獻中,這些結果通常被視為關於理性智慧體的「一致性定理(coherence theorems)」。

將 AI 對齊視為對齊預期效用最大化。基於這些論據,AI 對齊研究者傳統上認為:先進 AI 系統的行為就像是在最大化預期效用。因此,很多人將對齊 AI 的問題表述為如何讓預期效用最大化演算法對齊的問題,並且各種提議方案都側重於如何規避效用最大化的危險或準確學習正確的效用函式。畢竟,如果先進的 AI 系統必定遵守 EUT,那麼對齊此類系統的唯一希望就是留在其範圍內。此外,如果預期效用最大化是理性所需的 —— 如果智慧意味著理性 —— 那麼任何基於人類價值觀行事的足夠智慧的智慧體最終都必須將這些價值觀整合為一個效用函式。

這一節討論並擴充套件的議題包括:

  • 將預期效用理論用作一個分析視角;
  • 將全域性一致性智慧體作為設計目標;
  • 偏好作為動作的規範基礎。

超越將單主體 AI 對齊用作偏好匹配

如果理性選擇理論不能充分描述人類的行為和價值觀,而預期效用理論不能令人滿意地解釋理性決策,那麼這對 AI 對齊的實踐意味著什麼?

儘管人們越來越意識到這些偏好假設的侷限性,但大多數應用的 AI 對齊方法仍將對齊視為偏好匹配問題:給定一個 AI 系統,目標是確保其行為符合人類使用者或開發者的偏好。

透過基於偏好匹配的獎勵學習來實現對齊。目前,這類方法中最著名的莫過於 RLHF。基於使用者陳述其偏好的資料集,RLHF 會學習估計使用者假設存在的獎勵函式(獎勵模型)。然後,AI 系統會學習繼續最佳化學習得到的獎勵模型,目標是得到更符合使用者偏好的行為。RLHF 最早是為經典控制問題開發的,但現在已經被用於訓練越來越複雜的 AI 系統,包括用於機器人控制的深度神經網路和大型語言模型(LLM)。其中後者更是憑藉其強大的能力和通用性為 RLHF 吸睛無數。

獎勵學習的根本侷限性。RLHF 儘管成功,但仍面臨著許多技術難題,包括偏好引出問題和可擴充套件監督問題、過度最佳化問題、穩定訓練問題。不僅 RLHF ,所以獎勵學習方法都存在問題,包括前述的表徵限制問題和採用預期效用理論的問題。

獎勵學習和偏好匹配的範圍有限。為了解決這些侷限性,還需要怎樣的 AI 對齊研究?該團隊表示:「我們並不是說基於獎勵的模型永遠不合適。相反,我們認為基於獎勵的對齊(以及更廣義的偏好匹配)僅適用於有足夠本地用途和範圍的 AI 系統。」也就是說,它僅適用於價值對齊問題的最狹隘和最簡化版本,其中的價值和正規化可以總結為特定於該系統範圍的獎勵函式。AI 對齊還需要更多:AI 系統必須瞭解每個人的偏好是如何動態構建的,並與產生這些偏好的底層價值觀保持一致。

這一節討論並擴充套件的議題包括:

  • 標量和非情境獎勵的對齊;
  • 靜態和非社交偏好的對齊;
  • 偏好作為對齊的目標。

超越將多主體 AI 對齊用作偏好聚合

在批評了基於偏好的單主體對齊概念之後,現在轉向多主體對齊的問題:考慮到人類如此之多,持有的價值觀也非常多,那麼 AI 系統應當與其中哪些對齊呢?

偏好聚合的理論論證。這個問題的傳統答案是,AI 系統應該與人類的總體偏好對齊。為什麼會這樣?部分原因可能是偏好效用主義倫理具有規範性的吸引力。但是,在 AI 對齊文獻中,偏好聚合的論證通常更具技術性,會使用 Harsanyi 的社會聚合定理作為依據。進一步假設所有人類也都這樣做,這樣每個個體 i 的偏好都可以表示成對結果 x 的偏好 U_i (x)。最後,假設一致性是理性社會選擇的最低要求 —— 如果所有人類都偏好某個(機率性)結果 x 而非 y,則該 AI 系統也應該更偏好 x 而非 y。那麼,Harsanyi 定理表明 AI 系統的效用函式 U (x) 必定是單個效用函式的加權聚合:
圖片
對齊實踐中的偏好聚合。但是,無論這個理論觀點如何具有說服力,AI 對齊實踐中還是經常出現偏好聚合。RLHF 就是一個顯著例證:儘管 RLHF 原本是為單個人類上下文設計的,但實踐中,RLHF 總是用於從多個人類標註者收集的偏好資料集。近期有研究表明,這種實踐等價於 Borda 計數投票規則。在效果上,每位標註者的選擇都會根據其在一組可能替代方案中的排名進行加權。

偏好聚合的實踐、政策和基礎限制。這一節將從實踐、政策和基礎層面對 AI 對齊中的偏好聚合進行批判性的審視。在實踐層面上,該團隊表示偏好聚合常常被錯誤解讀和錯誤應用,這樣一來,即使人們接受 Harsanyi 風格的效用聚合作為規範性理想方法,在實踐中使用各種非效用聚合規則的效果通常更好。在政策層面上,該團隊批評了聚合主義方法的理想化性質,他們認為,由於我們這個社會存在多樣化且互有爭議的價值觀,因此基於協商和社會契約理論的方法在政策層面上更可行。在基礎層面上,基於前面對 EUT 和偏好匹配的批評,該團隊將其闡述成了對效用注意聚合的規範性的批評。

這一節討論並擴充套件的議題包括:

  • 簡單的效用主義偏好聚合;
  • 將總體偏好用作對齊目標。

參考連結:https://x.com/xuanalogue/status/1831044533779669136

相關文章