大模型的擬人行為,在讓我們產生恐怖谷效應。
「圖靈測試是一個糟糕的測試標準,因為對話能力和推理完全是兩碼事。」最近幾天,AI 圈裡一個新的觀點正在流行。
如今已是生成式 AI 時代,我們評價智慧的標準該變了。
「機器能思考嗎?」這是艾倫・圖靈在他 1950 年的論文《計算機器與智慧》中提出的問題。圖靈很快指出,鑑於定義「思考」的難度,這個問題「毫無意義,不值得討論」。正如哲學辯論中常見的做法,他建議用另一個問題代替它。
圖靈設想了一個「模仿遊戲」,在這個遊戲中,一位人類評判員分別與一臺計算機和一名人類(陪襯者)對話,雙方都試圖讓評判員相信自己才是真正的人類。
重要的是,計算機、陪襯者和評判員之間互相無法對視,他們完全透過文字進行交流。在與每個候選者對話後,評判員猜測誰是真正的人類。
圖靈的新問題是:「是否存在可想象的數字計算機,能在模仿遊戲中表現出色?」
論文連結:
https://academic.oup.com/mind/article/LIX/236/433/986238?login=false
這個由圖靈提出的遊戲,現在被廣泛稱為圖靈測試,用以反駁廣泛存在的直覺性認知:「由於計算機的機械性質,在原理層面上就不可能思考。」
圖靈的觀點是:如果一臺計算機在表現上與人類無法區分(除了它的外貌和其他物理特徵),那麼為什麼我們不將其視為一個有思維的實體呢?為什麼我們要將「思考」的資格僅限於人類(或更廣泛地說,僅限於由生物細胞構成的實體)?正如電腦科學家斯科特・阿倫森所描述的,圖靈的提議是「一種反對『肉體沙文主義』的呼籲」。
圖靈測試是一種思想而不是「方法」
圖靈將他的測試作為一個哲學思想實驗,而不是一種可以實際衡量機器智慧的方法。然而,在公眾的認知中,圖靈測試已經成為人工智慧(AI)的終極里程碑 —— 評判通用機器智慧是否到來的主要標準。
如今,近 75 年過去了,關於 AI 的報導充斥著聲稱圖靈測試已被透過的論調,尤其是像 OpenAI 的 ChatGPT 和 Anthropic 的 Claude 這樣的聊天機器人的推出之後。
去年,OpenAI 的執行長山姆・奧特曼發文稱:「面對技術變革,人們的適應能力和韌性得到了很好的體現:圖靈測試悄然過去,大多數人繼續他們的生活。」
各大媒體也發表了類似的標題,例如某家報紙報導稱,「ChatGPT 透過了著名的『圖靈測試』—— 表明該 AI 機器人具有與人類相當的智慧。」
英國每日發行的老牌報刊 —— 每日郵報
甚至像 BBC 這樣的全球最大媒體之一、具有廣泛影響力的公共傳媒機構甚至在 2014 年就提出計算機 AI 已經透過了圖靈測試。
https://www.bbc.com/news/technology-27762088
然而,問題是:現代聊天機器人真的透過了圖靈測試嗎?如果是這樣,我們是否應該像圖靈所提議的那樣,賦予它們「思考」的地位?
令人驚訝的是,儘管圖靈測試在文化上具有廣泛的重要性,長久以來,AI 社群卻對透過圖靈測試的標準沒有達成一致意見。許多人懷疑,具備能夠欺騙人的對話技能是否真正揭示了系統的底層智慧或「思考」能力。
一千個人眼中很可能有一千個圖靈測試標準。
圖靈獎得主 Geoffery Hinton 在一次訪談中談及了他的「圖靈測試標準」,他認為 Palm 等聊天機器人可以解釋笑話為何有趣,這可以視為其智慧的標誌。如今的大模型,如 GPT-4 非常擅長解釋一個笑話為何有趣,這被認為是其圖靈測試的一部分標準。
相比於其他科學家對於圖靈測試嚴肅的定義,Hinton 的看法雖然詼諧,但仍是道出了他對「人工智慧是否有思考能力」這一終極命題的思考。
訪談影片連結:https://www.youtube.com/watch?v=PTF5Up1hMhw
一場「圖靈鬧劇」
由於圖靈並沒有提出一個具有完整實際操作說明的測試。
他對「模仿遊戲」的描述缺乏細節:
測試應該持續多長時間?
允許提出什麼型別的問題?
人類的評判員或「陪襯者」需要具備什麼樣的資格?
對於這些具體問題,圖靈並未詳細說明。不過,他做了一個具體的預測:「我相信,大約在 50 年內,計算機可以透過程式設計變得極其出色,以至於普通的審問者在經過五分鐘的提問後,識別出真實人類的機率不超過 70%。」簡而言之,在五分鐘的對話中,評判員有平均 30% 的機率會被誤導。
有些人將這一隨意的預測視為透過圖靈測試的「官方」標準。2014 年,英國皇家學會在倫敦舉辦了一場圖靈測試比賽,參賽的有五個計算機程式、30 個人類陪襯和 30 名評判員。
參與的人類群體多樣,既有年輕人也有年長者,既有母語是英語的人也有非母語者,既有計算機專家也有非專家。每位評判員分別與一對參賽者(一名人類和一臺機器)進行了多輪五分鐘的並行對話,之後評判員必須猜測誰是人類。
一款名為「尤金・古斯特曼(Eugene Goostman)」的聊天機器人,扮演一名少年,竟然成功欺騙了 10 名評判員(欺騙率:33.3%)。
顯然「欺騙率」已經超過了圖靈當時所言的 30%。
尤金・古斯特曼(Eugene Goostman)模擬的是一名 13 歲男孩。
根據「在五分鐘內有 30% 機率欺騙」的標準,組織者宣佈:「65 年前的標誌性圖靈測試首次被計算機程式『尤金・古斯特曼』透過了圖靈測試,這一里程碑將載入史冊……」。
AI 專家在閱讀這場圖靈測試中的主角「尤金・古斯特曼(Eugene Goostman)」對話的記錄後,對該聊天機器人透過圖靈測試的說法嗤之以鼻,認為這個不夠複雜且不像人類的聊天機器人並未透過圖靈設想的測試。
有限的對話時間和評判員的專業水平不均使得這次測試更像是對人類輕信的考驗,而非機器智慧的展示。結果卻是「ELIZA 效應」的一個鮮明例子 —— 這個效應得名於 1960 年代的聊天機器人 ELIZA,儘管其極其簡單,但仍能讓許多人誤以為它是一個理解並富有同情心的心理治療師。
這凸顯了我們人類傾向於把能夠與我們對話的實體賦予智慧的心理傾向。
ELIZA 是圖靈測試「發表」後的最早期聊天機器人之一,它是一個非常基礎的羅傑斯派心理治療聊天機器人。
另一項圖靈測試比賽 —— 勒布納獎(Loebner Prize)允許更長的對話時間,邀請了更多專家評委,並要求參賽機器至少欺騙一半的評委。有趣的是,當標準提高後,在近 30 年的年度比賽中,沒有一臺機器透過這一版本的測試。
圖靈測試開始轉向
儘管圖靈的原始論文中缺乏關於如何具體實施測試的細節,但很明顯,模仿遊戲需要三名參與者:一臺計算機、一位人類陪襯者和一位人類評判員。然而,隨著時間的推移,「圖靈測試」這一術語在公眾討論中的含義逐漸演變為一個明顯弱化的版本:任何人與計算機之間的互動,只要計算機表現得足夠像人類,就被視為透過了圖靈測試。
例如,當《華盛頓郵報》在 2022 年報導「谷歌的 AI 透過了一個著名測試 —— 並展示了該測試的缺陷」時,他們指的並不是模仿遊戲,而是谷歌工程師布雷克・萊莫因(Blake Lemoine)認為谷歌的 LaMDA 聊天機器人具有「感覺能力(sentient)」。
2024 年,史丹佛大學釋出的一份新聞稿宣佈,史丹佛團隊的研究「標誌著人工智慧首次透過了嚴格的圖靈測試之一」。但這裡所謂的圖靈測試是透過比較 GPT-4 在心理調查和互動遊戲中的行為統計與人類的行為統計來完成的。
這種定義可能與圖靈的初衷相去甚遠:史丹佛團隊的定義是「我們認為,當 AI 的回應在統計上無法與隨機選取的人類回應區分開來時,它就透過了圖靈測試。」
最新的,聲稱聊天機器人透過圖靈測試的案例來自 2024 年的一項研究,該研究採用了「雙人模式」的測試:與圖靈的「三人」模仿遊戲(其中裁判會同時詢問計算機和人類陪襯)不同,這裡每個裁判只與計算機或人類互動。
研究人員招募了 500 名人類參與者,每人被分配為裁判或人類陪襯。每位裁判與陪襯、GPT-4(提示了人類編寫的如何欺騙裁判的建議)或 ELIZA 聊天機器人版本玩一輪五分鐘的遊戲。透過網路介面交談五分鐘後,裁判猜測他們的對話物件是人類還是機器。
最後,人類陪襯在 67% 的回合中被判定為人類;GPT-4 在 54% 的回合中被判定為人類,ELIZA 在 22% 的回合中被判定為人類。作者將「透過」定義為超過 50% 的時間欺騙評委 —— 也就是說,超過隨機猜測的機率。按照這個定義,GPT-4 透過了,儘管人類對手的得分仍然更高。
令人擔憂的是,大多數人類判斷者在五分鐘的對話之內被 GPT-4 欺騙了。使用生成式人工智慧系統冒充人類傳播虛假資訊或進行詐騙是社會必須應對的風險。但如今的聊天機器人真的透過了圖靈測試嗎?
答案當然是,這取決於你談論的是哪個版本的測試。一場由專家評委和更長對話時間組成的三人模仿遊戲仍然沒有被任何機器透過(有人計劃在 2029 年舉行一個超嚴格的版本)。
由於圖靈測試的重點是試圖騙過人類,而不是更直接地測試智慧。許多人工智慧研究人員長期以來一直認為圖靈測試是一種干擾,是一種「不是為了讓人工智慧透過,而是為了人類失敗」的測試。但該測試的重要性在大多數人眼中仍然佔據主導地位。
進行對話是我們每個人評估其他人類的重要方式。我們很自然地認為,能夠流利交談的智慧體必須擁有類似人類的智慧和其他心理特徵,如信仰、慾望和自我意識。
然而,如果說人工智慧的發展歷史教會了我們什麼,那就是這些假設往往是站在錯誤的直覺上的。幾十年前,許多著名的人工智慧專家認為,創造一臺能夠在國際象棋比賽中擊敗人類的機器需要與人類完全智慧相當的東西。
人工智慧先驅 Allen Newell 和 Herbert Simon 在 1958 年寫道:「如果一個人能設計出一臺成功的國際象棋機器,他似乎已經深入到人類智力的核心。」認知科學家 Douglas Hofstadter 在 1979 年預測,未來「可能會有程式可以在國際象棋比賽中擊敗任何人,但…… 它們將是通用智慧的程式。」
當然,在接下來的二十年裡,IBM 的 DeepBlue 擊敗了世界國際象棋冠軍加里・卡斯帕羅夫,使用的是一種與我們所說的「通用智慧」相去甚遠的蠻力方法。同樣,人工智慧的進步表明,曾經被認為需要通用智慧的任務 —— 語音識別、自然語言翻譯,甚至自動駕駛 —— 都可以由缺乏人類理解能力的機器來完成。
圖靈測試很可能會成為我們不斷變化的智力觀念的又一個犧牲品。1950 年,圖靈直覺地認為,像人類一樣交談的能力應該是「思考」及其所有相關能力的有力證據。這種直覺至今仍然很有說服性。但也許我們從 ELIZA 和 Eugene Goostman 身上學到的東西,以及我們可能仍能從 ChatGPT 及其同類產品中學到的東西是,能夠流利地說出自然語言,比如下棋,並不是通用智力存在的確鑿證據。
事實上,神經科學領域中有越來越多的證據表明,語言流利程度與認知的其他方面出奇地脫節。麻省理工學院神經科學家 Ev Fedorenko 等人透過一系列細緻而令人信服的實驗表明,他們所謂的「正式語言能力」(與語言生成相關的能力)背後的大腦網路與常識、推理和我們可能稱之為「思考」的其他方面背後的網路大體上是分開的。這些研究人員聲稱,我們直覺上認為流利的語言是一般智力的充分條件,這是一種「謬論」。
圖靈在 1950 年的論文中寫道:「我相信,到本世紀末,詞語的使用和普遍受教育的觀點將會發生巨大的變化,人們將能夠談論機器思考,而不會遭到反駁。」如今的我們還沒有到達那個地步。圖靈的預測是否只是偏離了幾十年?真正的改變是否發生在我們對「思考」的概念上?—— 還是說真正的智慧比圖靈和我們所認識到的更復雜、更微妙?一切還有待觀察。
有趣的是,最近谷歌前 CEO 埃裡克・施密特在那場史丹佛大學的演講裡也發表了觀點。
在很長一段歷史中,人類對宇宙的理解更多是神秘的,科學革命改變了這種情況。然而現在的 AI 卻再次讓我們無法真正理解其中的原理。知識的本質是否正在發生變化?我們是否要開始接受這些 AI 模型的結果,與此同時不再需要它們解釋給我們聽呢?
施密特是這樣說的:我們可以將其比作是青少年。如果你有個十來歲的孩子,你知道他們是人類,但你卻無法完全理解他們的想法。我們的社會顯然適應青少年的存在。我們可能會有無法完全理解的知識系統,但我們理解它們的能力範圍。
這可能就是我們能夠獲得的最好結果。