上海AI Lab主任、首席科學家周伯文亮相WAIC,人工智慧45°平衡律主張首次曝光
机器之心發表於2024-07-04
終於,清華大學教授周伯文正式向外界揭曉了自己的新身份——上海人工智慧實驗室主任、首席科學家。7 月 4 日,2024 世界人工智慧大會暨人工智慧全球治理高階別會議(WAIC 2024)在上海開幕。上海人工智慧實驗室主任、首席科學家,清華大學惠妍講席教授,銜遠科技創始人周伯文在 WAIC 2024 全體會議上發表演講。演講中,周伯文闡述了他的全新技術主張「人工智慧45°平衡律(AI-45° Law)」,以及上海人工智慧實驗室實現該主張的技術路徑「可信 AGI 的因果之梯」。尊敬的各位領導,各位嘉賓,大家上午好,非常榮幸在 WAIC 大會上、在上海,與大家分享人工智慧安全的前沿技術話題,我想提出一個技術主張:探索人工智慧 45° 平衡律 ——Towards AI-45°Law。當前,以大模型為代表的生成式人工智慧快速發展,但隨著能力的不斷提升,模型自身及其應用也帶來了一系列潛在風險的顧慮。從公眾對 AI 風險的關注程度來看,首先是資料洩露、濫用、隱私及版權相關的內容風險;其次是惡意使用帶來偽造、虛假資訊等相關的使用風險;當然也誘發了偏見歧視等倫理相關問題;此外還有人擔心:人工智慧是否會對就業結構等社會系統性問題帶來挑戰。在一系列關於人工智慧的科幻電影中,甚至出現了 AI 失控、人類喪失自主權等設定。這些由 AI 帶來的風險已初露端倪,但更多的是潛在風險,防範這些風險需要各界共同努力,需要科學社群做出更多貢獻。去年 5 月,國際上數百名 AI 科學家和公眾人物共同簽署了一份公開信《Statement of AI Risk》,表達了對 AI 風險的擔憂,並呼籲,應該像對待流行病和核戰爭等其他大規模的風險一樣,把防範人工智慧帶來的風險作為全球優先事項。出現對這些風險擔憂,根本原因是我們目前的 AI 發展是失衡的。在 Transformer 為代表的基礎模型架構下,加以(大資料 - 大引數量與大計算)的尺度定律(Scaling Law),目前 AI 效能呈指數級增長。與此形成對比的是,在 AI 安全維度典型的技術,如:紅隊測試、安全標識、安全護欄與評估測量等,呈現零散化、碎片化,且後置性的特性。最近的一些對齊技術兼顧了效能和安全性。比如:監督式微調 SFT、人類反饋的強化學習 RLHF 等技術,RLAIF、SuperAlignment 等。這些方法幫助將人類的偏好傳遞給 AI,助推湧現出了 ChatGPT、GPT-4 等令人興奮的 AI 系統,以及我們上海 AI 實驗室的書生 Intern 大模型等等。雖然瞄準的是安全和效能同時提升,但這些方法在實際使用中往往還是效能優先。所以總體上,我們在 AI 模型安全能力方面的提升,還遠遠落後於效能的提升,這種失衡導致 AI 的發展是跛腳的,我們稱之為 Crippled AI。不均衡的背後是二者投入上的巨大差異。如果對比一下,從研究是否體系化,以及人才密集度、商業驅動力、算力的投入度等方面來看,安全方面的投入是遠遠落後於 AI 能力的。李強總理剛才提出 “智慧向善”。AI 要確保可控,統籌發展與安全。毫無疑問地,我們要避免這樣的 Crippled AI 發展,我們應該追求的是:TrustWorthy AGI,可信的 AI,可信的通用人工智慧。 實現安全與效能共同增長的 “AI-45° 平衡律”可信 AGI 需要能夠兼顧安全與效能,我們需要找到 AI 安全優先,但又能保證 AI 效能長期發展的技術體系。我們把這樣一種技術思想體系叫做 “AI-45° 平衡律” (AI-45° Law)。AI-45° 平衡律是指從長期的角度來看,我們要大體上沿著 45 度安全與效能平衡發展,平衡是指短期可以有波動,但不能長期低於 45°(如同現在),也不能長期高於 45 度(這將阻礙發展與產業應用)。這個技術思想體系要求強技術驅動、全流程最佳化、多主體參與以及敏捷治理。實現 AI-45° 平衡律也許有多種技術路徑。我們上海 AI 實驗室最近在探索一條以因果為核心的路徑,我們把它取名為:可信 AGI 的 “因果之梯”,致敬因果推理領域的先驅 —— 圖靈獎得主 Judea Pearl。可信 AGI 的 “因果之梯” 將可信 AGI 的發展分為三個遞進階段:泛對齊、可干預、能反思。“泛對齊” 主要包含當前最前沿的人類偏好對齊技術。但需要注意的是,這些安全對齊技術僅依賴統計相關性而忽視真正的因果關係,可能導致錯誤推理和潛在危險。一個典型的例子是巴甫洛夫的狗:當狗僅僅基於鈴聲和食物的統計相關性形成條件反射時,它可能在任何聽到鈴聲的場合都觸發行為分泌唾液 —— 如果這些行為涉及到…… 時這顯然是不安全的。“可干預” 主要包含透過對 AI 系統進行干預,探究其因果機制的安全技術,例如人在迴路、機械可解釋性,以及我們提出的對抗演練等,它以透過提高可解釋性和泛化性來提升安全性,同時也能提升 AI 能力。“能反思” 則要求 AI 系統不僅追求高效執行任務,還能審視自身行為的影響和潛在風險,從而在追求效能的同時,確保安全和道德邊界不被突破。這個階段的技術,包括基於價值的訓練、因果可解釋性、反事實推理等。目前,AI 安全和效能技術發展主要停留第一階段,部分在嘗試第二階段,但要真正實現 AI 的安全與效能平衡,我們必須完善第二階段並勇於攀登第三階段。沿著可信 AGI 的 “因果之梯” 拾級而上,我們相信可以構建真正可信 AGI,實現人工智慧的安全與卓越效能的完美平衡。最終,像安全可控的核聚變技術為全人類帶來清潔、豐富的能源一樣,我們希望透過深入理解 AI 的內在機理和因果過程,從而安全且有效地開發和使用這項革命性技術。也正如可控核聚變對全人類都是共同利益一樣,我們堅信 AI 的安全也是全球性的公共福祉,陳吉寧書記剛剛在釋出的《人工智慧全球治理上海宣言》中提到 “要推動各國加強交流和對話”,我們願與大家一起攜手推進 AI-45° 平衡律的發展,共享 AI 安全技術、加強全球 AI 安全人才交流與合作,平衡 AI 安全與能力的投入,共同構建開放、安全的通用人工智慧創新生態和人才發展環境。