最新預印本:在圖靈測試中,人們無法將 GPT-4 與人類區分開來。
- 在預先註冊的圖靈測試中,我們發現 GPT-4 有 54% 的時間被判定為人類。
根據某些解釋,這是迄今為止任何系統透過圖靈測試的最有力證據。
這篇論文來自加州大學聖地亞哥分校的認知科學系:討論了在圖靈測試中,人們是否能夠區分GPT-4(一種先進的人工智慧語言模型)和人類。
研究者招募了 500 名參與者,透過隨機對照的圖靈測試評估了三個系統:ELIZA、GPT-3.5和GPT-4。
- 在測試中,人類參與者與一個人類或AI進行了5分鐘的對話,並判斷他們的對話夥伴是否為人類。
結果顯示:
- GPT-4被判斷為人類的比例為54%,超過了ELIZA的22%,但低於人類的67%。
這是首次透過實驗性證據表明,任何人工智慧系統都能透過互動式的雙人圖靈測試。
研究還指出,GPT-4的結果對關於機器智慧的辯論具有意義,並更緊迫地表明,當前AI系統的欺騙行為可能無法被檢測到。透過分析參與者的策略和推理,研究表明,在透過圖靈測試方面,風格和社交情感因素比傳統的智慧概念扮演了更大的角色。
這些發現更重要的含義是:人們在經過 5 分鐘的對話後,無法可靠地判斷當前的人工智慧模型是否是人類。
這篇論文還討論了圖靈測試的歷史、不同AI模型的評估、遊戲設定、結果分析、討論以及可能的緩解欺騙的方法。此外,它還包括了參與者的策略和原因分類、統計分析、以及對AI證人的構建和介面設計的詳細說明。
網友討論:
1、圖靈測試54% 沒什麼大不了的。 2011 年,Cleverbot 獲得了 59% 的份額。而人類只得分了63%。這真是個老新聞了。我曾經使用過 Cleverbot,但它很難理解我想說的話。這表明這個測試並不能很好地衡量人工智慧的智慧程度。
2、“圖靈測試”現在已經是一個毫無意義的詞了。我可以很容易地區分人工智慧與哲學問題、有關人類感覺(視覺、嗅覺)、一些數學等的問題。
3、圖靈測試就是圖靈測試。你無法否認這一點。這些是官方球門柱。
什麼是圖靈測試?
圖靈測試(Turing Test)是由英國數學家、邏輯學家、密碼學家艾倫·圖靈(Alan Turing)在1950年提出的一個思想實驗。圖靈測試的目的是為了判斷機器是否能夠展現出與人類不可區分的智慧行為。這個測試通常包括三個參與者:一個人類裁判、一個真實的人類以及一個人工智慧(AI)。
測試的進行方式如下:
- 裁判與另外兩個參與者分別進行交流,但只能透過文字資訊(以確保裁判不能透過視覺或聲音線索來判斷)。
- 交流過程中,裁判不知道哪個是人哪個是機器,他們之間的對話可以包括各種話題。
- 如果裁判無法在統計上顯著地判斷出哪個是人哪個是機器,那麼機器就可以被認為透過了圖靈測試,表現出了與人類相似的智慧水平。
圖靈測試的核心在於模仿遊戲(Imitation Game),即機器模仿人類行為的能力。圖靈提出,如果機器能夠在廣泛的主題上模仿人類行為,那麼我們就沒有理由認為人類是智慧的而機器不是。
總結
這篇論文我研究者們透過實驗表明,當前的AI系統(如GPT-4)在圖靈測試中的表現已經足以在一定程度上欺騙人類裁判,這引發了關於AI智慧、欺騙以及未來AI發展可能帶來的社會影響的討論。