智慧體或帶來災難性風險,圖靈獎得主Bengio指明新路徑Scientist AI:世界模型+推理機

ScienceAI發表於2025-02-27
圖片

編輯丨coisini

領先的人工智慧公司越來越專注於構建通用 AI 智慧體,旨在讓系統能夠自主規劃、行動並追求目標,幾乎涵蓋人類能夠執行的所有任務。雖然這些系統可能非常有用,但不受約束的 AI 智慧體對人類安全構成了重大風險。

一些學者認為我們迫切需要一種更安全且仍具實用性的替代方案,以取代當前以智慧體為導向的發展路徑。

最近,圖靈獎得主 Yoshua Bengio 以第一作者身份發表了一篇論文 ——《Superintelligent Agents Pose Catastrophic Risks: Can Scientist AI Offer a Safer Path?》。該論文提出了一種在設計上可信且安全的非智慧體 AI 系統 ——Scientist AI。

圖片

論文地址:https://arxiv.org/abs/2502.15657

Scientist AI 旨在透過觀察來解釋世界,而不是在其中採取行動以模仿或取悅人類。它包含一個生成理論以解釋資料的世界模型,以及一個問答推理機。這兩個元件在操作時都明確考慮了不確定性,以減少過度自信預測的風險。

Scientist AI 可用於協助人類研究人員加速科學進步。特別地,Scientist AI 可以作為防範 AI 智慧體的護欄,最終使我們能夠在享受人工智慧創新帶來的好處的同時,避免當前發展路徑所帶來的風險。

Scientist AI 簡介

受柏拉圖式理想化科學家形象的啟發,研究團隊提出了 Scientist AI 的設計與構建方案。Scientist AI 基於 SOTA 機率深度學習技術,並借鑑科學過程的方法論,即首先理解或建模世界,然後基於這些知識進行機率推斷。

圖片圖靈獎得主 Yoshua Bengio

Scientist AI 展示瞭如何將機率預測轉化為實驗設計,從而消除科學發現中對強化學習智慧體的需求。與旨在追求目標的自主 AI 不同,Scientist AI 的訓練目標是提供對事件的解釋及其估計機率。研究團隊還提出了確保 Scientist AI 保持非自主性的策略。

Scientist AI 沒有內建的情境意識,也沒有能夠驅動行動或長期計劃的持久目標。它包含一個世界模型和一個機率推理機。世界模型根據從世界中觀察到的一組資料生成解釋性理論,推理機則基於世界模型進行無狀態輸入到輸出的機率估計。

更準確地說,世界模型根據觀察資料輸出解釋性理論的後驗分佈,推理機隨後將後驗分佈與高效的機率推理機制結合起來,估計任何問題 X 的答案 Y 的機率。形式上,推理機接收一對輸入(X, Y),也稱為查詢,輸出在給定與問題 X 相關的條件下 Y 的機率。

Scientist AI 具有以下特性:

1. 世界模型生成的理論和推理機處理的查詢都使用邏輯語句表達,這些語句可以用自然語言或形式語言表示。世界模型取樣的語句形成因果模型,即以因果關係的形式提供解釋。

2. 根據世界模型,任何查詢都有一個唯一的正確機率,這是透過全域性最佳化 AI 的貝葉斯訓練目標得到的結果。推理機的輸出近似於這個唯一的正確機率。

3. Scientist AI 可以生成涉及潛在或未觀察變數的解釋,從而對其進行機率預測。

最後,研究團隊還預見了 Scientist AI 的三大主要應用場景:

1. 作為一種工具,幫助人類科學家顯著加速科學進步,包括醫療等高回報領域;

2. 作為一種防護機制,透過雙重檢查自主 AI 提議的行動並確保其安全部署,從而防範自主 AI 的風險;

3. 作為一種 AI 研究工具,幫助更安全地構建未來更智慧(甚至超級智慧)的 AI。

感興趣的讀者可以閱讀論文原文,瞭解更多研究內容。

相關文章