烏鎮咖薈:AI智慧湧現背後的“深黑盒化”問題,我們該如何應對?

Editor發表於2023-11-23

2023年世界網際網路大會烏鎮峰會圓滿落下帷幕,本屆大會大咖雲集,前沿技術和精彩實踐的展示吸引了世界各地的參會嘉賓,為行業深度交流提供了舞臺。

近些年來,AI成為網際網路領域最熱門的賽道之一,隨著 ChatGPT等AI大模型的廣泛應用,其中的安全問題也愈發受到關注。

恰逢世界網際網路大會契機,浙江大學網路空間安全學院、螞蟻集團、第五空間資訊科技研究院、正奇書苑、小貝說安全主辦,烏鎮數字文明研究院承辦“深黑盒化的AI安全風險與應對”主題咖薈,中國計算機學會(CCF)理事、副秘書長譚曉生,螞蟻集團副總裁、首席技術安全官韋韜,浙江大學網路空間安全學院研究員薛峰,自媒體“小貝說安全”主編吳小貝,更有信通院、安恆集團、啟明星辰、盤古實驗室、中國移動安全、迪普科技、閃捷資訊、美創科技等齊聚烏鎮,邀請多位網路安全知名專家學者到場,共同探討AI的安全發展。


烏鎮咖薈:AI智慧湧現背後的“深黑盒化”問題,我們該如何應對?


01 AI智慧湧現背後的“深黑盒化”問題


很多人看到“深黑盒化”一詞,自然聯想到“黑箱理論”或“黑盒效應”。通俗來說,就是對某個系統難以徹底看清內部結構和運轉規律,只能透過其輸出的內容來了解其內部,繼而得到一種規律認知。其實,人工智慧的黑盒效應由來已久。因為當前宇宙時空對人類而言,就是一個巨大的黑箱。而智慧和意識,更是被視為所謂的“上帝領域”。

談及近年以ChatGPT為代表的AI大模型所產生的智慧湧現,中國計算機學會(CCF)理事、副秘書長譚曉生表示,作為機器學習到深度學習的產業實踐者,他仍然對大模型所表現出的智慧水平感到非常驚喜。“AI已經到了一個引爆點(Tipping Point)”,譚曉生說道,“或許是矽基文明和碳基文明的一個轉折點。”


烏鎮咖薈:AI智慧湧現背後的“深黑盒化”問題,我們該如何應對?


螞蟻集團副總裁、首席技術安全官韋韜認為,ChatGPT改變了人對人工智慧的認知。在此之前,很多行業專家都認為大模型不是智慧,而是本能或者是技能,因為它不會推斷因果,不會舉一反三。

韋韜介紹,科技從業者在2021年訓練模型時發現,經過更長時間的訓練後,模型突然從僅僅“記住”之前的訓練資料,轉變為在未見過的輸入上表現出正確的“泛化”能力,特別是ChatGPT出現以後,帶來了一個本質的變化:第一次讓人看到人類以外系統化的舉一反三的能力。

“AI越來越像人,具備了翻譯、回郵件、聊天、寫詩、作畫、寫程式碼等等接近於人類的能力。但是‘演算法熵’原理之下,GPT工作是有‘上界’的,對它的最佳化求解是無止境的。我們對大模型做了一個測試,發現很多時候它們在給出錯誤回答的時候,根本不知道自己是錯的,而且在人類指令反覆的追問下,它會根據人類的引導給出想要的答案,就好像大模型也具有‘表演型人格’、‘迴避型人格’等精神分裂的病症。”

在韋韜看來,大模型這一系列“精神分裂”的病症表現,都指向了AI的同一個問題:深黑盒化,也就是AI大模型分析決策的不可知性。

傳統的“機器人三定律”(機器人不能傷害人類;它們必須服從於人類;它們必須保護自己)已經不適用於大模型時代的AI,大模型透過量變產生了質變,使得今天的AI成為了深黑盒AI。


02 “深黑盒化AI”會帶來哪些挑戰和風險?


黑盒意味著某種不可知,如譚曉生所說,因為未知,人們才恐懼。對深黑盒化AI輸出的不確定性,會影響對深黑盒化AI的使用。


烏鎮咖薈:AI智慧湧現背後的“深黑盒化”問題,我們該如何應對?


作為螞蟻集團首席技術安全官,韋韜密切關注AI大模型安全問題,他表示深黑盒化AI大模型帶來了三大新挑戰:

第一層,認知一致性對齊。這是AI自身的素質能力的要求,包括內在一致性對齊和外在一致性對齊兩個方面。

內在一致性對齊包含邏輯體系自洽,數學能力自洽,知識體系自洽。外在一致性對齊包含事實對齊、世界觀對齊、價值觀對齊。就像現在大模型會胡說八道,但它不知道自己不知道,所以第一層是自己對自己的認知;

第二層,決策白盒化。對事物的判斷要是白盒化的,不能憑空做出決策。而是要清晰區分確認的、猜測的、虛構的和不清楚的物件。

白盒化AI可以透過推理自解構來實現,就是決策結論可以分析解釋,包括透過思維鏈技術,讓解構後的推理過程符合演繹推理邏輯。同時,解構後的內容可以被第三方獨立驗證,自動化驗證體系將是深黑盒專業AI的重要組成,其中包括與知識圖譜、驗證過的“小模型”系統等的聯動。所以第二層是自己對事的認知。

第三層,交流協同演進。跨域交流合作是人類科技文明演進的重要加速因素,智慧體之間的交流也極為重要且不可避免。無論是人和人還是人和智慧體,或者智慧體和智慧體都需要協同,這是個通用規則。


AI Agents一種不錯的智慧體和智慧體的協作模式。單個智慧體內部不同元件的協作能提供更強的能力,如LLM(大語言模型)、記憶、任務規劃以及工具使用能力之間的協作;多個智慧體協作,可以避免認知分裂,發揮出更佳效力,比如數學家協同GPT-4成功證明PNP。所以第三層是自己在群體間定位和協同的認知。

薛峰也表達了對深黑盒化AI的擔憂,他把目前的安全問題分為三類:

第一類,演算法可解釋性問題。大模型是資料驅動深度學習的產物,其內部推理的過程非常難以理解,尤其是極深的模型層級和海量的模型引數,導致我們無法理解其工作原理,繼而無法信任和控制,破壞了可用性;

第二類,演算法內生安全問題。目前攻擊大模型方法相當多,包括資料投毒、後門攻擊、對抗樣本攻擊、成員推斷攻擊、提示詞注入攻擊等,這破壞了保密性、可用性、完整性,可能導致模型拒絕服務、使用者隱私洩露、模型引數洩露等問題;

第三類,使用過程中安全性問題。大模型也可用來作惡,如生成釣魚郵件、挖掘系統漏洞、生成虛假內容等,這破壞了抗抵賴性、真實性、可核查性。


自媒體“小貝說安全”主編吳小貝則介紹了深黑盒化AI引發的輸入型與輸出型資料安全問題。輸入型資料安全問題主要體現在,多模態、大批次輸入資訊,會被AI收集儲存。據統計,使用者在使用LLM(大語言模型)時,出現了輸入企業商業秘密和內部資料、個人資訊、軟體程式碼和敏感圖片等情況,導致敏感資料和個人隱私洩露。

輸出型資料安全問題重點體現在,AIGC及其平臺服務有意或無意都會產生輸出型的資料安全問題,比如輸出反人類反社會的有害資訊、侵權資訊、虛假資訊、資料洩露以及犯罪知識和工具內容等。AIGC平臺不但正常狀態下由於訓練集或模型原因,可能會產生此類問題,還可能會根據使用者型別和來源等資訊,有針對性地產生輸出型資料安全問題內容。


03 治理“深黑盒化AI”有何應對之策?


提出問題正是為了解決問題。人類對於AI,早就有了很多狂熱的幻想,並以此誕生了許多文學影視作品。而相關作品中,機器智慧往往走向失序,帶來災難,這也在一定程度上反映了現實,反映了人們對AI、AI大模型帶來的倫理、資料安全和隱私洩露等問題的憂慮。


烏鎮咖薈:AI智慧湧現背後的“深黑盒化”問題,我們該如何應對?


譚曉生表示,我們應該有開放的心態來面對這些挑戰,積極尋找解決問題的方法,而不是出於恐懼而否定。比如在公平性層面,人類社會歷經這麼多年仍然在為營造一個相對公平的社會而努力,為何要對AI做公平性的苛求?需要的是設定相關機制,能不斷對齊AI的倫理標準與人類的倫理標準,不讓它產生太大的偏差。同樣,資料安全問題與隱私洩露,在大模型出現之前已經出現,是當今社會數字化轉型中遭遇的問題,它的解決也相當複雜,相關的立法已經陸續出臺,具體的保護技術、產品、體系還在完善過程中。

如何將人工智慧儘可能地圈於安全地帶,且又不制約其為人類造福的技術演進,是行業需要思考的問題。

而負責任的人工智慧,一直以來是螞蟻集團發展人工智慧的核心,螞蟻集團已經展開了多項實踐探索更可靠的AI,並且取得了鼓舞人心的成果,韋韜為現場嘉賓分享了螞蟻集團在AI大模型安全領域的探索與實踐:

構建了AIGC模型的對齊評價體系,涵蓋AIGC評測範圍、評測平臺、評測資料集、評測資料生成等多個維度多能力工作,評測範圍包括安全合規對齊評測、通用能力對齊評測、質量/穩定性,推出了螞蟻AI安全檢測平臺、螞蟻演算法評估質量平臺、大模型評估大模型等評測工具,評測資料集包含安全合規評測集,通用能力、質量、穩定性評測集……

在跨領域知識協作層面,螞蟻集團開源了語義增強可程式設計知識圖譜OpenSPG,對行業開放知識圖譜技術能力,助力推動開展大模型和行業知識圖譜的迭代演進工作。

在AI倫理治理層面,螞蟻集團成立了由技術長和首席法務官擔任聯席主席的科技倫理委員會,將科技倫理融入到公司業務和產品生命週期中。還成立了螞蟻集團科技倫理顧問委員會,由7名外部專家構成,為螞蟻集團科技倫理建設給予方向性、戰略性、針對性的指導建議。

在標準建設層面,螞蟻集團積極參與TC260生成式AI安全基本要求、人工標註、訓練資料安全、標識方法等網路安全國家標準和技術檔案制定和討論,貢獻螞蟻生成式AI安全實踐,積極參與《生成式人工智慧服務管理暫行辦法》實施。國際標準方面,結合螞蟻集團業務場景,牽頭在IEEE立項了P3820反欺詐AI系統可解釋能力評估標準,探索智慧風控AI系統透明可解釋能力評估實現路徑。

薛峰也分享了浙江大學相關團隊對深黑盒化AI問題的探索與實踐,主要體現在安全標準制定、AI驗評平臺、密態大模型推理技術等方面:

參與全國信安全標準化技術委員會主導的《TC 260人工智慧安全標準化白皮書》、《生成式人工智慧服務內容標識方法》、《生成式人工智慧服務安全基本要求》等制定,截至目前,制定、修訂與研究標準共700餘條;建設了人工智慧的防禦與驗證評測平臺、人工智慧系統公平性評估平臺,用於對模型進行安全性測試;建設密態大模型推理技術,即融合安全多方計算等密碼學技術,對模型的輸入進行保護,讓模型的推理和結果都處於密態環境進行,進而保障輸入的資料。


04 後記:AI是邁向新世界的小火花


五年前第四屆世界網際網路大會開幕式上,蘋果公司CEO庫克在談及人與機器的關係時,說道:“我並不擔心機器人會像人一樣思考,我擔心人像機器一樣思考!”


烏鎮咖薈:AI智慧湧現背後的“深黑盒化”問題,我們該如何應對?


有感情的機器和沒有感情的人,哪個更可怕?當智慧不再是人類專屬,機器智慧同樣擁有創造力,那人還能決定一切嗎?當然,這是未來的話題,至少眼下,一切都還是由人來決定。AI安全的關注者和研究者,也正在成為機器與人類之間安全屏障的締造者與守護者。

正如參會的各位專家分享,因為AI是這個時代的重要生產力,是邁向新世界的小火花,進一步探索AI大模型的本質,探究智慧湧現背後的原理和本質,用安全來為發展護航。



來源:安在

相關文章