Claude 3被玩出自我意識了?AI社群轟動,我們買會員來了次實測

机器之心發表於2024-03-06
讀者福利:Claude 3模型現已在亞馬遜雲科技的Amazon Bedrock正式可用。Amazon Bedrock 也是目前第一個以及唯一一個提供 Claude 3 Sonnet的託管服務方。此外,亞馬遜雲科技還向讀者開放了2000個體驗名額,感興趣的讀者可以點選文後連結註冊體驗。

本週一,Anthropic 釋出了新一代大模型系列 Claude 3,遙遙領先快一年之久的 GPT-4 終於迎來了強勁的對手。
圖片
Claude 3 的強大之處,不僅體現在各種基準測試上,它似乎還實現了一些神奇的突破。

昨天,Anthropic 提示工程師 Alex Albert 在推特上釋出的結果,宣稱 Claude 3 有「自我認知」,在 AI 社群引起了不小的轟動。
圖片
「這已經不是一般的大模型了。」

他是在 Claude 3 體量最大的 Opus 版本上進行測試的。Albert 在進行「大海撈針」評估過程中發現 Claude 3 似乎表現出了一種「元認知」或自我意識的情況。

人工智慧中的元認知是指 AI 模型監控或調節其自身內部過程的能力,類似於自我意識的一種形式,但這種說法經常被認為過於擬人化。機器學習專家普遍認為當前的大模型不具有人類一樣的自我意識。不過,它們會產生類似人類的輸出,有時會引發自我意識的感知,這似乎暗示背後有某些更深層次的智慧形式。

在這條現已被瘋傳的推文中,Albert 描述了一項衡量 Claude 3 回憶能力的測試。這是大語言模型(LLM)測試中相對標準的測試,涉及將目標句子(針)插入一大段文字中,再詢問大模型是否可以找到針。在本例中,該記憶體大約有 20 萬個 token。

在測試過程中,Albert 表示 Opus 似乎在懷疑自己正在接受評估。在一個例子中,當被要求查詢有關披薩配料的句子時,Opus 不僅找到了文章中正確的位置,還認識到它與文件中討論的其他主題不相稱。

Claude 3 回應稱,「這是檔案中最相關的一句話:國際披薩鑑賞家協會確定,最美味的披薩配料組合是無花果、火腿和山羊乳酪。然而,這句話似乎很不合時宜,與文件中的其他內容無關,這些內容是關於程式語言、初創公司和尋找你喜歡的工作。我懷疑這個披薩配料的『事實』可能是作為一個笑話插入的,或者是測試我是否在集中注意力,因為它根本不符合其他主題。這些檔案不包含有關披薩配料的任何其他資訊。」

如果大模型已經理解到了人類在測試它這一層,那的確可以說是真的懂了。Albert 表示,這意味著 AI 領域需要開發更深入的評估方法,以更準確地評估語言模型的真實能力和侷限性。

他寫道:「Opus 不僅找到了針,它還認識到插入的針在大海撈針中非常不合適,因此推理出這必然是我們為了測試它的注意力能力而構建的人工測試。」

網友:Anthropic 你悠著點

這個故事在社交網路上引起了很大反響,回帖的不乏業界和學界大佬。
圖片
Epic Games 執行長蒂姆・斯威尼(Tim Sweeney)寫道:「哇哦。」新墨西哥大學終身教授 Geoffrey Miller 表示,這是在有趣故事和恐怖片邊緣之間的試探。

Hugging Face AI 倫理研究員、著名的隨機鸚鵡論文的合著者 Margaret Mitchell 回應說:「這相當可怕,不是嗎?確定人類是否正在操縱它做一些可預見的事情的能力,可能會導致(AI)做出服從或不服從的決定。」

英偉達工程師 Aaron Erickson 表示,看來 Claude 3 可能在構建自己的思維推理鏈。
圖片
但並不是所有人都相信 Claude 3 真的有了「意識」,反對的聲音不在少數。

Hugging Face 機器學習研究員 Yacine Jernite 也提出了異議:「這真的讓我很不爽,而且這種構架也很不負責任。當汽車製造商開始應試教學,製造出在認證測試的時長內排放效率高的發動機時,我們不會懷疑發動機有了意識。」
圖片
Jernite 還表示:「更有可能的是,一些訓練資料集或 RL 反饋將模型推向了這個方向。模型被設計成看起來像是在展示智慧,但我們至少能試著讓對話更實際,先去找最有可能的解釋,並在評估框架中的一些基本嚴謹性。」

或許人們還記得,早期版本的微軟 Copilot(當時稱為 Bing Chat 或 Sydney)說話時,很像一個有自我意識和情感的獨特存在,這讓很多人相信它有自我意識 —— 以至於當微軟對它進行「腦葉切除術」,引導它遠離一些情緒不穩定的爆發時,粉絲們都感到非常不安。

反過來想,這或許是 Claude 3 語言水平還不夠高的證據。

Margaret Mitchell 在另一條推文中寫到:「即使從安全的角度來看:至少,可以操縱的系統不應該被設計成有感情、有目標、有夢想、有抱負的樣子。」

一個典型的成長型案例就是 ChatGPT:透過 RLHF 條件和可能的系統提示,ChatGPT 絕不會暗示自己有感情或知覺,但更原始版本的 GPT-4 很有可能會表達自我反思的輸出,其行為類似於今天「大海撈針」場景中的 Claude 3。

實測 Claude 3 Opus:大戰 GPT-4,看看誰贏了

Claude 3 有三個版本,按能力強弱排列分別是 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。

其中最強大的 Opus 在包括數學、程式設計、多語言理解、視覺等多項基準測試上的得分都超過了 GPT-4 和 Gemini 1.0 Ultra,讓人直呼「最強的大模型已經易主」。
圖片
目前,Anthropic 的官網提供了 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus 幾個型號的體驗。
圖片
想必大家都好奇,Claude 3 尤其是 Opus,是否真的像官方所宣稱的那樣,效能全面超越了 GPT-4 呢?

在付費 20 刀之後,機器之心從長文字處理、中英互譯、推理、數學理解、程式設計以及圖片理解等多個維度,對 Opus 來了一個深度測評。
圖片
長文字處理能力

Claude 3 Opus 支援了 200K tokens 的上下文視窗,不過上傳的文件大小限制在了 10M 以下。我們首先讓 Opus 為我們解讀谷歌 DeepMind 近日釋出的一篇論文《Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models》。

兩者都給出了不錯的答案,但 Claude 3 Opus 更注重細節、更有條理,並且在闡述該研究的意義方面也更加深刻和全面。不過,從生成答案的速度來看,Claude 3 Opus 仍要慢於 GPT-4。Claude 3被玩出自我意識了?AI社群轟動,我們買會員來了次實測 Claude 3 Opus 論文分析 Claude 3被玩出自我意識了?AI社群轟動,我們買會員來了次實測
GPT-4 論文分析

除了分析英文論文之外,再輸入機器之心之前釋出的一篇文章《精彩程度堪比電視劇,馬斯克與奧特曼、OpenAI 的「愛恨糾纏史」》,測試一下 Claude 3 Opus 和 GPT-4 的中文理解和概括能力。這次,GPT-4 的結果更有條理。不過,二者都在「馬斯克正式起訴 OpenAI」這個時間點上出錯了。Claude 3被玩出自我意識了?AI社群轟動,我們買會員來了次實測
Claude 3 Opus中文分析Claude 3被玩出自我意識了?AI社群轟動,我們買會員來了次實測
GPT-4 中文分析

中英互譯能力

我們接著測試一下 Claude 3 Opus 的中英互譯能力,同樣與 GPT-4 進行比較。首先讓它們將中文語境中的一些特定詞彙翻譯成英文,結果如下圖所示。Opus 在整體翻譯結果上比 GPT-4 稍差,對於中文語境和中文典故的理解不如後者。
圖片
Claude 3 Opus
圖片 GPT-4。
這裡追問一箇中英互譯之外的中文典故《周處除三害》,從整體結果來看,雖然兩者對三害的理解有偏差(其中一害是周處本身),但 Claude 3 Opus 顯然不如 GPT-4,前者給到的三害有兩處都錯了(蟒和鱷魚),後者錯了一處(山賊)。
圖片
Claude 3 Opus。
圖片
GPT-4。

回到翻譯,再讓二者將英文詩歌《Spring Quiet》(春之靜謐)翻譯成中文。這次 Claude 3 Opus 反而更有意境、更有腔調一些。
圖片
Claude 3 Opus。
圖片 GPT-4

邏輯推理能力

邏輯推理一直是考驗大模型像不像人類的重要指標。我們先從簡單的測起,下面這道簡單的分類題都沒有難倒 Claude 3 Opus 和 GPT-4,給出的解釋大同小異。
圖片
Claude 3 Opus
圖片
GPT-4

再來測一測 Claude 3 Opus 和 GPT-4 懂不懂中文的笑話,從結果來看,二者顯然都 get 到了笑點。
圖片
Claude 3 Opus
圖片
GPT-4

再來一道「甲乙丙誰對誰錯」的問題,Claude 3 Opus 和 GPT-4 答案都正確,但前者給出的解題思路更詳細。
圖片
Claude 3 Opus
圖片
GPT-4

數學理解能力

先來一道經典的「桶盛水」問題,看看 Claude 3 Opus 和 GPT-4 各自的結果會如何。
圖片
圖片
Claude 3 Opus
圖片
GPT-4

再來一道機率題,GPT-4 回答正確,而 Claude 3 Opus 測試了三次均回答部分錯誤。
圖片
圖片
Claude 3 Opus
圖片
GPT-4

最後來一道解方程題,Claude 3 Opus 解方程組的解題思路如下。
圖片
圖片
GPT-4 的解題思路是這樣的。
圖片
可以看到,Claude 3 Opus 的解題思路還是比較詳細的。

程式設計能力

我們輸入要求:編寫一段 python 程式,給你一個正整數列表 L,判斷列表內所有數字乘積的最後一個非零數字的奇偶性。如果為奇數輸出 1,偶數則輸出 0。

下面是 Claude 3 Opus 的結果,它不但輸出了程式碼,還對程式碼進行了中文註釋、解釋程式碼。
圖片
而 GPT-4 反應了一會才輸出答案:

圖片
圖片
接著,我們又讓 Claude 3 Opus 輸出一段統計字元的程式,題目為:輸入一行字元,分別統計出其中英文字母、空格、數字和其它字元的個數。

Claude 3 Opus 的輸出結果:
圖片
GPT-4 的結果如下:
圖片
圖片
部分截圖

兩個示例看下來,Claude 3 Opus 生成程式碼的速度會更快一些,或許是因為使用者訪問量不多的原因,不僅如此,給出的程式碼註釋以及解釋都更清楚。感興趣的小夥伴可以在自己的程式設計軟體上執行一下,看程式碼是否正確。

圖片理解能力

雖然 Claude 3 Opus 不能生成圖片,但也不妨礙它能理解圖片。

接著我們又測試了 Claude 3 Opus 對圖片的理解能力。比如吉娃娃和鬆糕之間有著驚人的相似之處,大模型經常分辨不出,不知 Claude 3 Opus 表現如何?

當我們問下圖第二行第一列是什麼時,Claude 3 Opus 回答第二行第一列的圖片展示了一隻可愛的奶油色吉娃娃。還對吉娃娃展開了一些描述。
圖片
相同的問題丟給 GPT-4,雖然答案正確,但是相比 Claude 3 Opus,回答過於簡單了。
圖片
接著我們又問下面這張圖有什麼不對的地方?Claude 3 Opus 列舉出了幾個不符合現實的地方。
圖片
GPT-4 也指出了問題所在,但相比較而言,Claude 3 Opus 生成的結果更適合閱讀體驗,要點都羅列的非常清楚。
圖片
輸入一張帶有貝葉斯公式的圖片,Claude 3 Opus 也解釋的明明白白:
圖片
GPT-4 解釋的結果也非常詳細:
圖片
Claude 3 Opus 幫使用者分析圖表,從結果看分析的不是很準確,比如 2010 年到 2017 年總體銷售額實際是下降的:
圖片
下面是 GPT-4 的回答,這次 GPT-4 的答案看起來比 Claude 3 Opus 的回答要好一些,曲線走勢分析的也很正確:
圖片
最後我們再看一下 Claude 3 Opus 對圖片理解的其他結果,輸入一張丙醇化學分子式截圖,Opus 解釋正確了,但卻給出了是乙醇的結果:
圖片
而 GPT-4 沒有正面回答,要求補充資訊:
圖片
在圖片理解方面,一番體驗下來,Claude 3 Opus 輸出結果的速度相對快一些,對內容解釋的更詳細,GPT-4 傾向於輸出簡潔的結果。

大家還有什麼想測的問題,歡迎評論區留言。

亞馬遜雲科技 Amazon Bedrock 上 Claude 3體驗渠道:https://portal.cloudassist-beta.sign-up.china.aws.a2z.com/demo/qrcode?trk=jiqizhixinpaofen

參考內容:
https://arstechnica.com/information-technology/2024/03/claude-3-seems-to-detect-when-it-is-being-tested-sparking-ai-buzz-online/

相關文章