用「圖靈測試」檢驗AI尤其是大語言模型,真的科學嗎?

机器之心發表於2024-08-30

當前的大型語言模型似乎能夠透過一些公開的圖靈測試。我們該如何衡量它們是否像人一樣聰明呢?


在釋出後的近兩年時間裡,ChatGPT 表現出了一些非常類似人類的行為,比如透過律師資格考試。這讓一些人懷疑,計算機的智力水平是否正在接近人類。大多數電腦科學家認為,機器的智力水平還不能與人類相提並論,但他們還沒有就如何衡量智力或具體衡量什麼達成共識。

檢驗機器智慧的經典實驗是圖靈測試,由艾倫・圖靈在其 1950 年發表的論文《Computing Machinery and Intelligence》中提出。圖靈認為,如果計算機能讓與之進行打字對話的人相信它是人類,這可能就是智慧的標誌。大型語言模型(LLM),如 GPT,擅長像人一樣說話,但尚未令人信服地透過圖靈測試

用「圖靈測試」檢驗AI尤其是大語言模型,真的科學嗎?

2023 年,加州大學聖迭戈分校(UCSD)的研究人員公開進行了一次圖靈測試,目的是比較最新的 LLM 與 20 世紀 60 年代開發的聊天機器人 Eliza 的表現。在律師資格考試中獲得高分的 GPT-4 表現相當出色,在 41% 的遊戲中,評委認為它與人類無異。而它的前身 GPT-3.5 只透過了 14% 的遊戲,低於 Eliza 的 27%。人類在 63% 的遊戲中透過(被判定為人類)。

用「圖靈測試」檢驗AI尤其是大語言模型,真的科學嗎?

論文連結:https://arxiv.org/pdf/2310.20216v1

負責這項實驗的 UCSD 認知科學博士生 Cameron Jones 說,人類得分如此之低並不奇怪。這是因為玩家預計模型會表現出色,所以他們更容易認為人類只是一個聽起來像人類的模型。Jones 說,目前還不清楚聊天機器人必須達到多少分才能贏得遊戲。

圖靈測試可用於檢查客服聊天機器人是否以人們樂於接受的方式與人互動,從而展示 Jones 所說的靈活的社交智慧。不過,它能否識別出更通用的智慧還很難說。Jones 說:「我們對什麼是人類的智慧還不甚瞭解。如果我們能更快地透過模型解決這個問題,我會感到很驚訝。」

聖塔菲研究所複雜性學教授 Melanie Mitchell 說:「我認為圖靈測試的整個概念都被過於字面化了。」她認為,圖靈提出的「模仿遊戲」是一種思考機器智慧可能是什麼樣子的方法,而不是一種定義明確的測試。「人們輕率地使用這個術語,說大型語言模型透過了圖靈測試,而事實上它們並沒有透過測試。」

新的測試

不過,如果圖靈測試不能可靠地評估機器智慧,那就提出了一個問題:什麼方法可以?普林斯頓大學心理學家 Philip Johnson-Laird 和德國開姆尼茨工業大學預測分析學教授 Marco Ragni 在 2023 年 11 月發表在《智慧計算》雜誌上的一篇論文中提出了一個不同的測試方法:他們建議把模型當作心理實驗的參與者,看看它能否理解自己的推理過程。

例如,他們會向一個模型提出這樣的問題:「如果 Ann 很聰明,那麼她是聰明還是富有,或者兩者都是?」雖然根據邏輯規則,可以推斷出安是聰明人、富人或兩者都是,但大多數人類都會拒絕這個推斷,因為設定中沒有任何東西表明她可能是富人。如果模型也拒絕了這一推斷,那麼它的行為就和人類一樣,研究人員就會進入下一步,要求機器解釋其推理。如果它給出的理由與人類相似,第三步就是檢查原始碼中模擬人類表現的元件。

這些元件可能包括一個快速推理系統、另一個更深思熟慮的推理系統,以及一個根據上下文改變 「或」等詞的解釋的系統。研究人員認為,如果模型透過了所有這些測試,就可以認為它模擬了人類智慧。

英國考文垂大學研究機器智慧並進行過圖靈測試的計算機教授 Huma Shah 說,Johnson-Laird 和 Ragni 的方法可能確實會提供一些有趣的見解,但質疑一個模型的推理能力並不是什麼新鮮事。「圖靈測試允許這種邏輯質疑,」她說。

Shah 還表示,試圖測試智力的麻煩在於,這首先取決於人們如何定義智力。是模式識別能力、創新能力,還是創造音樂或喜劇等創意的能力?「因此,如果我們沒有就人工智慧中的『I』達成一致,那麼我們怎麼能建立通用人工智慧(AGI)呢?」

谷歌的軟體工程師和人工智慧專家 Francois Chollet 則認為圖靈測試並不是特別有用。他說,一個好的測試應該有一個確切的、形式化的目標,並且應該衡量一個系統有多接近這個目標。他指出:「圖靈測試並沒有做到這些。」

Chollet 說,LLM 在圖靈測試中的表現只能說明他們擅長使用語言,而這種技能完全來自於對大量資料的記憶。他認為,真正的智慧並不在於掌握某項技能,而在於把學到的知識運用到新的、不同的情境中。「LLM 百分之百都是記憶。他們沒有智慧。他們沒有適應能力。」Chollet 說。

在他看來,智力是一種有效獲得新技能的能力,而這些技能是訓練過程中沒有準備好的,目的是完成與系統之前所見過的任務差異足夠大的任務。人類終其一生都在與世界互動,本質上是在進行實驗,以便建立一個反映世界如何執行的模型。這樣當他們遇到新情況時,就能學會如何處理。新技能的範圍越廣,計算機就越接近實現通用人工智慧

Chollet 說:「如果你能讓學習過程像人類大腦一樣高效地處理資訊,那麼你就擁有了 AGI。」到目前為止,機器的學習效率遠遠落後於人腦,大約比人腦低 1 萬倍。例如,計算機需要數百萬張圖片才能學會識別貓的圖片,而人類只需一兩個例子就能學會識別貓。

為了測試他定義的智力,Chollet 開發了抽象與推理語料庫(ARC)。ARC 的挑戰是透過基本的積木,如形狀或大小等簡單概念來完成的。這些積木用於建立任務,如按大小對物體進行分類或補全對稱圖案。測試物件會看到三個示例,他們應該能夠識別目標並完成任務。Chollet 說,最好的 AI 大約有 30% 的時間能夠實現目標,而人類則有 80% 的時間能夠做到。

用「圖靈測試」檢驗AI尤其是大語言模型,真的科學嗎?

專案連結:https://github.com/fchollet/ARC-AGI

每項任務都不同於測試物件以前見過的任何任務,因此死記硬背無濟於事。他說:「這是一場無法練習的遊戲。當 GPT-4 透過律師資格考試時,很可能是因為它見過足夠多與考試相似的例子,所以它能給出合理的答案,而不需要對法律有任何內在的理解。」

「這不是一個完美的測試。它有很多侷限性和缺陷,」Chollet 說。例如,任務中存在足夠多的冗餘,在舉出足夠多的例子後,測試物件可能會對答案做出有根據的猜測。不過,他說,它的基本思想是可靠的。

前面提到的聖塔菲研究所複雜性學教授 Melanie Mitchell 認為,要想獲得類似人類的通用智慧,就必須有能力完成遠遠超出訓練資料的任務。她和她的小組提出了 ARC 的修訂版,圍繞基本概念組織任務,例如一物在另一物之上,或一物在另一物之內。

ConceptARC 的理念是測試計算機解決方案的穩健性,方法是讓計算機推匯出一個概念的規則,然後將該概念應用到新任務中。用「圖靈測試」檢驗AI尤其是大語言模型,真的科學嗎?
論文連結:https://arxiv.org/pdf/2305.07141

例如,她可能會向人工智慧展示一個網格,在這個網格中,黃色方格位於藍色方格之上,而這個藍色方格又位於黃色方格之上。接著可能是一個紅色圓圈在一個綠色圓圈上面,然後又換成一個綠色圓圈在一個紅色圓圈上面。人類應該很容易理解的概念是,顏色在垂直位置上互換。然後,計算機必須將這一規則應用到一對新的圖形中。Mitchell 說,這些任務對人類來說很容易,但對機器來說似乎仍然非常具有挑戰性。

Mitchell 說,在某些情況下,比如試圖在海量資料中做出發現,計算機最好有自己的抽象方法。但在與人互動的情況下,例如駕駛汽車,以人類的方式理解世界就非常重要。

「我不認為智慧是全有或全無。它是一個範圍,計算機做的某些事情是智慧的,」Mitchell 說。「如果你想談論完全的、人類水平的智慧,我會說我們還有些遙遠,因為人類水平的智慧有許多方面是我們看不到的。」

原文連結:https://cacm.acm.org/news/beyond-turing-testing-llms-for-intelligence/

相關文章