上海AI Lab主任、首席科學家周伯文亮相WAIC，人工智慧45°平衡律主張首次曝光

机器之心發表於2024-07-04

原文網址 : https://www.jiqizhixin.com/articles/2024-07-04-19

AI人工智慧

終於，清華大學教授周伯文正式向外界揭曉了自己的新身份——上海人工智慧實驗室主任、首席科學家。

7 月 4 日，2024 世界人工智慧大會暨人工智慧全球治理高階別會議（WAIC 2024）在上海開幕。上海人工智慧實驗室主任、首席科學家，清華大學惠妍講席教授，銜遠科技創始人周伯文在 WAIC 2024 全體會議上發表演講。

演講中，周伯文闡述了他的全新技術主張「人工智慧45°平衡律（AI-45° Law）」，以及上海人工智慧實驗室實現該主張的技術路徑「可信 AGI 的因果之梯」。

以下為演講全文。

尊敬的各位領導，各位嘉賓，大家上午好，非常榮幸在 WAIC 大會上、在上海，與大家分享人工智慧安全的前沿技術話題，我想提出一個技術主張：探索人工智慧 45° 平衡律 ——Towards AI-45°Law。

當前，以大模型為代表的生成式人工智慧快速發展，但隨著能力的不斷提升，模型自身及其應用也帶來了一系列潛在風險的顧慮。

從公眾對 AI 風險的關注程度來看，首先是資料洩露、濫用、隱私及版權相關的內容風險；其次是惡意使用帶來偽造、虛假資訊等相關的使用風險；當然也誘發了偏見歧視等倫理相關問題；此外還有人擔心：人工智慧是否會對就業結構等社會系統性問題帶來挑戰。在一系列關於人工智慧的科幻電影中，甚至出現了 AI 失控、人類喪失自主權等設定。

這些由 AI 帶來的風險已初露端倪，但更多的是潛在風險，防範這些風險需要各界共同努力，需要科學社群做出更多貢獻。

去年 5 月，國際上數百名 AI 科學家和公眾人物共同簽署了一份公開信《Statement of AI Risk》，表達了對 AI 風險的擔憂，並呼籲，應該像對待流行病和核戰爭等其他大規模的風險一樣，把防範人工智慧帶來的風險作為全球優先事項。

出現對這些風險擔憂，根本原因是我們目前的 AI 發展是失衡的。

先讓我們來看一下目前的 AI 發展趨勢：

在 Transformer 為代表的基礎模型架構下，加以（大資料 - 大引數量與大計算）的尺度定律（Scaling Law），目前 AI 效能呈指數級增長。

與此形成對比的是，在 AI 安全維度典型的技術，如：紅隊測試、安全標識、安全護欄與評估測量等，呈現零散化、碎片化，且後置性的特性。

最近的一些對齊技術兼顧了效能和安全性。比如：監督式微調 SFT、人類反饋的強化學習 RLHF 等技術，RLAIF、SuperAlignment 等。這些方法幫助將人類的偏好傳遞給 AI，助推湧現出了 ChatGPT、GPT-4 等令人興奮的 AI 系統，以及我們上海 AI 實驗室的書生 Intern 大模型等等。雖然瞄準的是安全和效能同時提升，但這些方法在實際使用中往往還是效能優先。

所以總體上，我們在 AI 模型安全能力方面的提升，還遠遠落後於效能的提升，這種失衡導致 AI 的發展是跛腳的，我們稱之為 Crippled AI。

不均衡的背後是二者投入上的巨大差異。如果對比一下，從研究是否體系化，以及人才密集度、商業驅動力、算力的投入度等方面來看，安全方面的投入是遠遠落後於 AI 能力的。

李強總理剛才提出 “智慧向善”。AI 要確保可控，統籌發展與安全。毫無疑問地，我們要避免這樣的 Crippled AI 發展，我們應該追求的是：TrustWorthy AGI，可信的 AI，可信的通用人工智慧。

^{實現安全與效能共同增長的 “AI-45° 平衡律”}

可信 AGI 需要能夠兼顧安全與效能，我們需要找到 AI 安全優先，但又能保證 AI 效能長期發展的技術體系。我們把這樣一種技術思想體系叫做 “AI-45° 平衡律” （AI-45° Law）。

AI-45° 平衡律是指從長期的角度來看，我們要大體上沿著 45 度安全與效能平衡發展，平衡是指短期可以有波動，但不能長期低於 45°（如同現在），也不能長期高於 45 度（這將阻礙發展與產業應用）。這個技術思想體系要求強技術驅動、全流程最佳化、多主體參與以及敏捷治理。

實現 AI-45° 平衡律也許有多種技術路徑。我們上海 AI 實驗室最近在探索一條以因果為核心的路徑，我們把它取名為：可信 AGI 的 “因果之梯”，致敬因果推理領域的先驅 —— 圖靈獎得主 Judea Pearl。

可信 AGI 的 “因果之梯” 將可信 AGI 的發展分為三個遞進階段：泛對齊、可干預、能反思。

“泛對齊” 主要包含當前最前沿的人類偏好對齊技術。但需要注意的是，這些安全對齊技術僅依賴統計相關性而忽視真正的因果關係，可能導致錯誤推理和潛在危險。一個典型的例子是巴甫洛夫的狗：當狗僅僅基於鈴聲和食物的統計相關性形成條件反射時，它可能在任何聽到鈴聲的場合都觸發行為分泌唾液 —— 如果這些行為涉及到…… 時這顯然是不安全的。

“可干預” 主要包含透過對 AI 系統進行干預，探究其因果機制的安全技術，例如人在迴路、機械可解釋性，以及我們提出的對抗演練等，它以透過提高可解釋性和泛化性來提升安全性，同時也能提升 AI 能力。

“能反思” 則要求 AI 系統不僅追求高效執行任務，還能審視自身行為的影響和潛在風險，從而在追求效能的同時，確保安全和道德邊界不被突破。這個階段的技術，包括基於價值的訓練、因果可解釋性、反事實推理等。

目前，AI 安全和效能技術發展主要停留第一階段，部分在嘗試第二階段，但要真正實現 AI 的安全與效能平衡，我們必須完善第二階段並勇於攀登第三階段。沿著可信 AGI 的 “因果之梯” 拾級而上，我們相信可以構建真正可信 AGI，實現人工智慧的安全與卓越效能的完美平衡。

最終，像安全可控的核聚變技術為全人類帶來清潔、豐富的能源一樣，我們希望透過深入理解 AI 的內在機理和因果過程，從而安全且有效地開發和使用這項革命性技術。

也正如可控核聚變對全人類都是共同利益一樣，我們堅信 AI 的安全也是全球性的公共福祉，陳吉寧書記剛剛在釋出的《人工智慧全球治理上海宣言》中提到 “要推動各國加強交流和對話”，我們願與大家一起攜手推進 AI-45° 平衡律的發展，共享 AI 安全技術、加強全球 AI 安全人才交流與合作，平衡 AI 安全與能力的投入，共同構建開放、安全的通用人工智慧創新生態和人才發展環境。

上海AI Lab主任、首席科學家周伯文亮相WAIC，人工智慧45°平衡律主張首次曝光

相關文章