AI智商排名:Claude-3首次突破100

banq發表於2024-03-06


用挪威門薩(智商測試題)中 35 個問題對chatGPT等人工智慧進行了測試:

ChatGPT
對ChatGPT進行了兩次挪威門薩測試,在 35 個問題中,它平均答對了 13 個,智商估計為 85。

測試方法
每個人工智慧都接受了兩次測試,以減少差異。"答對題目數 "指兩次測試的平均答對題目數。

雖然挪威門薩協會拒絕對低於 85 分的題目進行評分,但我注意到在這個範圍內,每道題的智商值為 3 分。因此,我以此來估算 85 分以下的分數。對於挪威門薩來說,這還不夠嚴謹,但我認為值得一算。要知道,隨機猜測得到的分數是 63.5 分--這應該被理解為基線,人工智慧只需意識到它被要求選出一個字母,並吐出一個即可。

測試結果
AI智商排名:Claude-3首次突破100

收穫 1:Claude-3 令人驚歎--它代表了人工智慧的新飛躍
ChatGPT-4 得分智商是 85,這已經給我留下了深刻印象。

Claude-3 的得分讓我大吃一驚。

另外,看看它的持續進步:

  • 2023 年 3 月釋出的Claude-1 幾乎比隨機答案好不到哪裡去。它答對了 6 個答案,智商約為 64。
  • 2023 年 7 月釋出的Claude-2 每次測試多得 6 分(相當於約 18 點智商),智商約為82。
  • 剛釋出Claude 3 號又得到了 6.5 分,智商增加了約 19 分,智商約為101分,超過了人類的平均水平。

這種對稱增長讓我懷疑人類學是否在釋出基於內部基準的版本,而這些內部基準恰好與智商指標密切相關。

對當前增長率的簡單推斷表明,Claude-6 將在大約 4 - 10 年內答對所有智商問題,並且比幾乎所有人都聰明。

詳細點選標題

相關文章