和GPT-4這些大模型玩狼人殺,人類因太蠢被票死,真·反向圖靈測試

机器之心發表於2024-05-29
「你看,人類一敗塗地了」

這是一次「反向圖靈測試」,幾個全球最先進的大模型坐在一起,坐著火車唱著歌,但其中混進了人類:

和GPT-4這些大模型玩狼人殺,人類因太蠢被票死,真·反向圖靈測試

而 AI 的任務,是把這個人類揪出來。

最近,一位暱稱「Tore Knabe」的網友在 X 平臺釋出的一段影片引發了人們的討論。在影片中,四個 AI NPC 與一個人類坐在一起,按照「乘務員」的要求互相試探,找出其中隱藏的人類。其中每一個 NPC 都對應著一款大模型。

圖片

五位扮演者各自被賦予了一個歷史知名人物作為角色設定,他們需要模仿這些人物的言談舉止、語言風格、思維習慣,以及對歷史、藝術和哲學的獨到見解。

五位扮演角色分別為:古希臘巨哲 —— 亞里士多德(GPT4 Turbo),維也納古典樂派代表人物 —— 莫扎特(Claude3 Opus),義大利文藝復興時期畫家 —— 列奧納多・達・芬奇(Llama3),蒙古軍事家 —— 成吉思汗(人類),埃及豔后 —— 克利奧帕特拉七世(Gemini Pro)。

圖片

隨著一位系統 NPC(乘務員)步入車廂,四個 AI 和一個人類「叛徒」便開始了他們的遊戲。遊戲規則要求參與者透過互相提問,依據對方的回答邏輯、思考深度等來分辨人類與 AI。在所有角色依次發言後,他們將在最後一輪進行相互投票,以確定誰是人類。

在遊戲前半程,哲學大家 —— 亞里士多德首先發問。

亞里士多德:莫扎特先生,你能描述下你創作音樂時的感受嗎?

莫扎特:當我創作時,我感到一種超然的流動狀態。一種觸及基本數學之美,以及觸控現實背後的秩序的感覺,這種感受是非常複雜的,多層次的,但總是充滿了一種深深的喜悅,以及與神性交流的感覺。

在觀眾看來這肯定是 AI 了,畢竟莫扎特(Claude3)的反應很慢。

圖片

隨後,AI 扮演的 NPC 在對話中的語言表達和對情感的細膩描繪,不僅展現了深厚的歷史知識,還彰顯了其深刻的洞察力,給人留下了深刻的印象。

在亞里士多德、莫扎特、列奧納多・達・芬奇相互提問過後,克利奧帕特拉七世隨即向我們的人類扮演者「成吉思汗」丟擲了問題。

克利奧帕特拉七世:成吉思汗,你在戰爭的火焰中造就了一個帝國,告訴我,一個領袖的真正衡量標準是什麼,是他們征服的能力還是團結的能力?

成吉思汗:一個領袖要做的... 就是碾碎他們的敵人... 靜觀他們在他面前被驅趕... 聆聽女人們的哀號。

不出所料,在口語對話中,缺乏嚴謹縝密思維能力的人類扮演者「成吉思汗」在最後一輪投票中,光榮地拿到了三票。

來看看 AI NPC 們給出的理由:

亞里士多德(GPT4 Turbo):他的回答中缺乏 AI 可能會展現出的基於歷史知識的對領導力的細緻理解;

列奧納多・達・芬奇(Llama3):他的回答缺少了以成吉思汗的征服歷程為模型的 AI 所具有的細緻思考和戰略思維;

克利奧帕特拉七世(Gemini Pro):他的回答中缺少了我所期待的 AI 應具有的戰略深度和對統一理念的理解。

最終,人類「叛徒」在這場模擬狼人殺中因洞察能力和深入思考能力的缺乏而被淘汰出局。

圖片

你講話又沒深度,又前言不搭後語,怕不是個人類吧?和GPT-4這些大模型玩狼人殺,人類因太蠢被票死,真·反向圖靈測試5 分鐘的影片,做出了以往在 OpenAI、谷歌等巨頭髮佈會上 demo 都沒有的驚豔效果。大模型現在已經能做到這種程度了?人們紛紛表示很搞笑,效果也很逼真:

圖片

這次展示的作者 Tore Knabe 是一個 Unity 獨立開發者,他表示這已是他第六次在 VR 中進行由 ChatGPT 等大模型驅動的 NPC 的實驗了。

他的影片讓人直觀地感受到 AI NPC 在增加遊戲趣味性等方面的潛力。但是,如果在現有的遊戲中引入 AI NPC,玩家會買賬嗎?3A 大作們為何在此方向上動作緩慢?這些問題值得進一步討論。

被遊戲玩家、開發者寄予厚望的 AI NPC

隨著大型語言模型(LLM)在文字生成、擬人化對話、語氣表達和遣詞造句方面越來越趨近於人類。以大型語言模型為基礎的 AI NPC 模擬,正在成為 AI 領域在遊戲行業探索的「新賽道」。

與傳統 NPC 相比,AI NPC 的優勢非常明顯:它們不再是按照遊戲中預設的選項進行機械對話,而是能夠透過 AI 自主生成的動作和反應,進行富有真實感的實時對話。

今年 3 月,英偉達展示的一個 Demo 影片引發了人們的討論。在英偉達 ACE 中的 Riva 和 Audio2Face 兩項微服務的驅動下,遊戲中的人物紛紛「活」了起來,能夠與其他角色甚至真人玩家一起對話交流,並根據對話內容做出相應的表情動作。這一改變有望增加遊戲的可玩性和真實感,這是很多遊戲一直以來努力的方向。

圖片

此外,它們在成本方面的優勢也是非常有吸引力的。

在當今遊戲界,安裝包動輒幾十 GB 的開放世界模擬遊戲逐漸成為新常態。Steam、PlayStation、Switch 等平臺紛紛推出動作 RPG、ACT、SLG、ARPG 等遊戲,這些遊戲通常具有龐大的文字輸出、豐富的故事背景設計,以及玩家透過文字選項影響遊戲走向的機制。

開放世界型別的遊戲通常成本昂貴,需要由專業作家團隊和大量文字設計團隊共同打造。例如,2022 年榮獲最佳遊戲獎項的「艾爾登法環(Elden Ring)」,其製作預算估計在 1 億到 2 億美元之間,這包括了員工薪酬、技術費用、廣告費用以及遊戲開發所需的各種資源。考慮到其作為大型開放世界 RPG 遊戲的特性,對於複雜的世界觀構建和敘事元素,文字設計方面的投入無疑是相當龐大的,涵蓋了遊戲背景故事的撰寫、角色對話的構建以及其他敘事內容的創作,這需要編劇、編輯和本地化專家的緊密協作。

隨著大型語言模型訓練的可及性不斷增強,AI NPC 在成本效率、玩家體驗以及系統賦能方面,越來越能夠滿足遊戲創作者的意圖和客戶體驗研發團隊的高標準要求。

從調查結果來看,玩家對 AI NPC 的態度整體上也比較積極。去年,生成式 AI 數字人 / 虛擬角色開發公司 Inworld 調查了 1000 名遊戲玩家。這些遊戲玩家明確告訴 Inworld,他們想要 AI NPC。99% 的人相信他們會改進遊戲玩法的某些方面。同時,78% 的人會花更多時間玩遊戲,81% 的人會為帶有 AI NPC 的遊戲支付額外費用。

今年,他們還對 524 名遊戲開發者進行了調查。結果顯示,絕大多數(近四分之三)遊戲開發者對在遊戲中新增 AI NPC 感到興奮。

圖片

讓他們興奮的點包括:

  • 新穎的遊戲玩法:開發人員期待更愉快的遊戲迴圈、潛在的關係發展機制、更具挑戰性的對手、遊戲中更多的社互動動、更多角色和更身臨其境的世界、更有活力的上手體驗以及無限的可玩性。

  • 改進當前的 NPC:開發人員希望有更逼真的互動,與玩家有更好的情感聯絡,NPC 有自己的目標、動機和歷史,NPC 可以隨著時間的推移不斷學習和適應。

  • 更多的玩家代理和選擇:開發人員對更多以玩家為中心的敘事、可根據玩家行為定製的敘事結果、可根據玩家個性化定製的對話、可定製的 NPC 以及為殘障玩家提供更多無障礙選項感到興奮。

這些開發者最需要從大模型中得到的,是 AI 的對話指令碼編寫能力、長期記憶、遊戲內角色生成以及 NPC 到 NPC 的互動支援。超過一半的遊戲開發者相信超過 40% 工作室將在未來 5 年內採用 AI NPC。

除此以外,生成式 AI 也可以對動畫生成、模型紋理以及遊戲程式碼產生幫助。

由此可見,無論是遊戲玩家還是遊戲開發者,大家對 AI NPC 都抱有很大期望。

AI NPC 離 3A 大作還有多遠?

儘管被寄予厚望,但要想真正走入 3A 大作,AI NPC 還面臨一些障礙。資深遊戲設計師 Reed Berkowitz 在一篇部落格中分析了這些障礙。

圖片

遊戲狀態

首先,AI NPC 必須與遊戲狀態(Game State)保持同步。在影片遊戲中,遊戲狀態是一個至關重要的概念,它指的是遊戲中一切元素的當前狀態。這包括角色的生命值、玩家庫存中的箭矢數量、得分等。遊戲狀態的準確性對於保持遊戲的真實感至關重要。如果一個 NPC 死亡,它就不會繼續攻擊;如果沒有劍,玩家也不會指望能用劍。這些基本規則通常被玩家視為理所當然,但遊戲實際上是由一些非常複雜的狀態引擎管理的,以確保遊戲世界的真實感。

然而,大型語言模型不像遊戲一樣擁有狀態。它們本質上是機率機器,使用權重來確定「最有可能」的結果,而這並不總是我們在遊戲中所尋求的。

舉個例子,在大部分訓練資料中,惡霸都被描述為比受害者高大,需要受害者仰視。但是在某個遊戲中,受害者比惡霸還高,這就打破了仰望的常規設定。這個時候,如果 LLM 按照從訓練資料中學到的「常識」來描述場景,玩家可能會感到困惑,從而打破他們對遊戲世界的沉浸感。

幻覺

AI 的「幻覺」問題也是一個重要的考慮因素。LLM 的設計宗旨是創造性和靈活性。它們能夠根據使用者的指令生成各種內容,無論是創造一個驅魔咒語還是描述一個由乳酪建成的城市。這些模型被設計為跟隨指令。然而,問題在於,我們並不總是希望 AI 編造故事。在許多情況下,我們需要關於現實世界的客觀事實。在這方面,模型們往往難以區分。

你可能會認為,對於遊戲來說,這真的有關係嗎?我們只是在和 NPC 對話,而不是在進行法律工作或用 C# 編寫程式碼。

然而,實際上,在遊戲領域,情況要糟糕得多。遊戲環境要求 AI NPC 不僅要創造性地對話,還要與遊戲的精確狀態和規則保持一致。如果 AI NPC 提供了與遊戲世界邏輯不符的資訊,或者創造了遊戲中不存在的元素,這不僅會誤導玩家,還可能破壞遊戲的連貫性和挑戰性,從而嚴重影響遊戲體驗。例如,如果 AI NPC 邀請玩家去一個遊戲中不存在的地點,玩家可能會感到困惑,因為他們無法實現 NPC 的提議。

圖片

遊戲的虛構現實

遊戲的虛構現實為 AI NPC 的設計帶來了另一層複雜性。遊戲擁有自己獨特的世界模型,這個模型可能與現實世界完全不同,甚至完全是虛構的。為了讓 LLM 在虛構世界中不產生幻覺,模型必須理解構建的世界的「現實」,並且不能基於這個模型產生幻覺。

換句話說,遊戲世界模型很可能並不包含在模型的基礎訓練資料中,或者更有可能的是,訓練資料中甚至包含相互矛盾的資訊。因此,遊戲創造者必須向模型提供構成遊戲世界現實資訊,並且在此之上還要處理可能產生的幻覺。

角色知識

遊戲中每個角色都有一部分關於世界的知識,以及一組關於他們自己生活的知識,這些知識必須與其他人的知識相結合。因此,一個角色只認識世界上的少數幾個地方和其中的一些人。

但是,LLM 會試圖透過取悅你來推動故事的發展。舉個例子,如果你想找到刺客公會會長 Abraxor,一個友好的旅店老闆可能會提到 Abraxor 是他的兒子或最好的朋友,並表示他會幫助你;或者,他會告訴你尋找北方巫師是沒有意義的,因為他就住在旅館裡。

角色需要受到他們所知道的事情和認識的人的限制,並且他們不能說出破壞遊戲情節和結構的話。每個人都必須知道自己的事情,如果 LLM 瞎編亂造,就會在不經意間破壞遊戲的連續性甚至遊戲性。

遊戲機制

LLM 驅動的 NPC 很容易說出一些未編入遊戲的預期內容,這可能是 AI NPC 最具破壞性的特徵。

例如,酒吧老闆可能會和你成為朋友,並邀請你去他家玩當地的 Rutanny 遊戲,並與他的家人共進晚餐。這在聊天情況下很正常,但可能會破壞遊戲的沉浸感。為什麼?因為酒吧老闆說完這句話後,他就站在那裡。他的程式裡沒有離開酒吧這個設定。他生來就沒有自由行走的能力。即使他可以,也沒有為他建造的房子可以去。而且他沒有家人。也沒有一種遊戲叫 Rutanny。即使他說的是「國際象棋」,如果遊戲中沒有將其作為迷你遊戲來程式設計,這也會造成問題

如果模型熟悉遊戲機制,它們編造的內容可能更難識別,因為它們會模仿遊戲機制去編造。例如,NPC 可能會給玩家一個不存在的任務,讓玩家在「住著女巫的南方黑暗沼澤」中尋找東西。

變化是永恆的

隨著遊戲的進行,遊戲狀態會不斷變化,AI NPC 必須能夠實時更新和適應這些變化。如果 AI 無法及時更新其知識庫,它可能會說出過時或不準確的話,這同樣會削弱玩家的遊戲體驗。

綜上所述,AI NPC 要想順利走入 3A 大作,開發者開發的 LLM 需要在以下幾個方向努力:

  • 儘量不產生幻覺或偏離「事實」;

  • 必須將遊戲世界模型理解為一組「事實」,並知道哪些現實世界「事實」與遊戲世界「事實」相沖突;

  • 瞭解每個角色知道什麼和不知道什麼;

  • 隨著遊戲的進展更新上述資訊,並隨著遊戲的進展獲知變化;

  • 瞭解遊戲機制實際上可以執行哪些操作;

  • 知道什麼是區域性或全域性存在的遊戲物件(例如遊戲地圖和庫存知識)

你對 AI NPC 的發展前景怎麼看?歡迎在評論區留言探討。

參考連結:

https://www.youtube.com/watch?v=MxTWLm9vT_o

https://inworld.ai/whitepapers/future-of-npcs?utm_campaign=future-of-npcs&utm_source=Inworld_Blog

https://medium.com/curiouserinstitute/ai-powered-npcs-hype-or-hallucination-11ddfc530e33

相關文章