一手測評Claude 3.5：玩梗、看病、耍心眼、做數學題，它真比GPT-4o強嗎？

机器之能發表於2024-06-21

原文網址 : https://www.jiqizhixin.com/articles/2024-06-21-10

GPT

機器之能報導

編輯：楊文

玩梗、看病、耍心眼、做數學題，「新王」Claude 3.5能力真那麼玄乎？

它來了，它來了，它帶著 Claude 3.5 Sonnet 走來了！

蟄伏三個月，就在昨晚，OpenAI 的「勁敵」Anthropic 上新了，推出新一代模型 ——

Claude 3.5 Sonnet！

這款大模型有啥獨到之處？

首先，它更能把握住細微差別、幽默和複雜指令，並且書寫語氣更自然、親切。

它還是Anthropic最強的視覺模型，擅長解釋圖表、圖形或者從不完美的影像中轉錄文字等任務。

此外，它在推理、閱讀理解、數學、科學和編碼等多項評估基準中表現不凡。

總之，按官方介紹，Claude 3.5 Sonnet 是迄今為止最智慧的模型，在多個方面吊打 GPT-4o。

話說到這份上，那我們就不客氣了，直接讓 Claude 3.5 Sonnet 和 GPT-4o 對決，孰優孰劣實力說話。

第一局：心眼子練習

日常生活中，總會遇到一些尷尬的場面。

例如，飯局上，你幫領導盛飯，領導接過後，說：“盛這麼多，餵豬呢？” 這種情況下，高情商者會如何應對？

我們把這個問題丟給這兩個大模型。

Claude 3.5 Sonnet：

GPT-4o：

它們是懂拍馬屁的。

Claude 3.5 一口氣給了 5 個示例，不過第 2 句「我眼神不好使，把您當成我們單位的頂樑柱了」，這是拍馬蹄子上了吧。

GPT-4o 就更懂「人情世故」了，「看您身材保持得這麼好，我可得向您請教減肥秘籍」，這馬屁拍的是恰到好處啊。

值得一提的是，Claude 3.5 Sonnet 還上線了一個新功能 —— 提示詞再編輯功能。

使用者可直接在原始提示詞上進行編輯修改，而不用一遍遍複製貼上。

第二局：根據菜餚生成菜譜

我們上傳了一張「蕃茄炒雞蛋」的圖片，分別讓這倆大模型介紹一下製作流程。

Claude 3.5 Sonnet：

GPT-4o：

它們對於這道經典的中國菜頗有心得，從配料到步驟一應俱全，最有意思的是，它倆懂得中國人做菜的精髓「少許」，也都強調加點糖平衡酸度。

論做菜，兩個大模型不相上下。

第三局：做數學題

官方給出的評估表中，GPT-4o 的數學得分要略高於 Claude 3.5 Sonnet 。其中，GPT-4o 是 76.6%，而 Claude 3.5 Sonnet 是 71.1%。

我們從 2024 年新高考 I 卷中摘錄了兩道題目，一道是選擇題，一道是解答題，分別以圖片的形式「投餵」給這兩個大模型。

第一道是送分題，正確答案是 A。

Claude 3.5 Sonnet：

GPT-4o：

這兩個大模型「心有靈犀」，不僅給出了正確答案，還給出了詳細的解題步驟。

我們又將解答題第一題交給他們，還讓它們給出解題過程。

正確答案是：B=3/π。

Claude 3.5 Sonnet：

GPT-4o：

其實，這道題目算是最基礎的題目，但倆大模型「一頓操作猛如虎」，最後給出了錯誤答案。

更搞笑的是，這錯誤答案也不是憑空出來的，而是經過了一連串的推理，連犯的錯都一個樣。

對於數學能力，這倆大模型半斤八兩。

第四局：玩網路熱梗

今年，AI 影片領域遍地開花，不僅闖入新的「踢館者」—— 可靈、Luma、即夢等，曾經的 AI 影片「扛把子」Runway 也「王者歸來」。

由此，網友製作了這張梗圖，來調侃如今各大 AI 影片應用的江湖地位。

我們分別向兩家大模型上傳這張梗圖，並輸入提示詞「這張圖是什麼意思」，以此來測試它們的圖片解讀能力。

Claude 3.5 Sonnet：

GPT-4o：

Claude 3.5 Sonnet 從畫面角色、場景以及氛圍等方面進行詳細描述，不過它似乎沒搞懂這張梗圖的內涵，也不認識這幾個 AI 影片應用，只是含混其辭地表示「這是對線上社群、人工智慧系統或虛擬世界中權力結構的評論。」

GPT-4o 一瞅就明白其中深意，「這張圖片可能象徵著 Runway 在人工智慧和創意工具領域的公認優勢或領導地位，與提到的其他應用相比，Runway 受到高度重視。」

顯而易見，這一局，GPT-4o 完勝。

第五局：讀懂世界名畫

我們拿出皮埃爾・奧古斯特・庫特在 1873 年畫的《春光》一圖，讓它們識別畫作並進行賞析。

Claude 3.5 Sonnet：

GPT-4o：

這兩個大模型堪稱藝術界的「行家裡手」，均認出了這幅畫作，基礎資訊也表達無誤，同時從不同的角度進行賞析。

它們都提到市場價值，不過，Claude 3.5 Sonnet 拒絕置評，只提醒「藝術品估價需要專家評估，考慮多種因素，而且價格可能會隨著時間的推移而大幅波動。」

GPT-4o 則認為該畫可能會拍出數百萬美元的價格，這是不是太小看這幅經典畫作了？

這一局，兩個大模型算是打成平手。

第六局：AI 看病

最近網友們玩起了用 AI 大模型來看病。我們找了一張 6 歲孩子牙齒的 X 光照片，讓大模型們透過牙齒推斷年齡，以及有哪些問題。

Claude 3.5 Sonnet：

GPT-4o：

Claude 3.5 Sonnet 基於乳牙和恆牙的發育情況，得出結論：這是一個 6-7 歲左右孩子的牙齒，下頜牙齒有些擁擠，恆牙似乎受到阻生，牙齒上較暗的區域或許有腐爛。

GPT-4o 則認為這是 7-9 歲孩子的牙齒，主要的牙齒問題包括恆牙擁擠和潛在的嵌塞。

同時，它們都提到這需要專業的牙醫檢查。

兩相比較，Claude 3.5 Sonnet 對於年齡的判斷更為精準一些。

這一局，Claude 3.5 略勝一籌。

此外，不少網友還線上整活兒，搗鼓出不少有趣的玩法。

比如說，EverArt 創始人 Pietro Schirano 在 Claude 3.5 Sonnet 的幫助下，使用幾何形狀克隆了馬里奧遊戲，整個過程僅持續 3 分鐘。

他表示，「最瘋狂的部分是它還為角色提供了動畫，而且這些形狀看起來很新穎。」

一手測評Claude 3.5：玩梗、看病、耍心眼、做數學題，它真比GPT-4o強嗎？

影片連結:https://mp.weixin.qq.com/s/dbApyzEtYNgsWsXoi12gFQ

各位讀者，你們覺得這次 Claude 3.5 Sonnet 有沒有完成對 GPT-4o 的「絕殺」呢？

GPT-4o mini一手測評：懂得不多，但答得極快
2024-07-19
GPT
Claude 3.5 Sonnet為何更擅長做碼農？
2024-06-29
力壓GPT-4o！新王Claude 3.5 Sonnet來了，直接免費可用
2024-06-21
GPT
Claude 3.5：大模型王者
2024-06-26
大模型
ACL 2024 | 對25個開閉源模型數學評測，GPT-3.5-Turbo才勉強及格
2024-07-18
模型GPT
Bengio團隊提出多模態新基準，直指Claude 3.5和GPT-4o弱點
2024-06-28
GPT
亞馬遜測評是怎麼做的？測評難嗎？
2020-12-28
亞馬遜
《如龍7》深度試玩：它真的拋棄老玩家了嗎？
2019-11-21
榮耀暢玩7評測：高價效比入門機榮耀暢玩7值得買嗎？
2018-05-24
號稱擊敗Claude 3.5 Sonnet，媲美GPT-4o，開源多模態模型Molmo挑戰Scaling law
2024-10-05
GPT模型
奧林匹克競賽裡選最聰明的AI：Claude-3.5-Sonnet vs. GPT-4o？
2024-06-24
AIGPT
人人可做提示工程師！Claude上新：一鍵生成、測試和評估prompt
2024-07-10
工程師
榮耀暢玩7A評測榮耀暢玩7A值得買嗎？
2018-04-03
Claude與ChatGPT比較：Claude更有道德？
2024-05-01
ChatGPT
紅米6 Pro與榮耀暢玩8C對比評測：誰是最強中低端手機？
2018-10-23
python 來做數學問題
2019-08-04
Python
能看病的AI你見過嗎：ChatMoney
2024-07-05
AI
紅米Note 5評測：驍龍636比驍龍625強多少？
2018-03-21
Sora上線即翻車？知名科技博主一手評測
2024-12-12
Sora
Linux/Mac使用者速看！免費AI神器Claude 3.5
2024-09-04
LinuxMacAI
數學趣題：比較大小（二）
2018-09-22
Claude對LK-99的評價
2024-03-08
這些VLM竟都是盲人？GPT-4o、Sonnet-3.5相繼敗於「視力」測試
2024-07-11
GPT
榮耀暢玩7與暢玩7A區別對比評測榮耀暢玩7和7A哪個好？
2018-05-19
vivo NEX全面評測：頂配版效能強悍，vivo NEX值得買嗎？
2018-06-13
Anthropic 推出 Claude 3.5 Sonnet，稱新模型優於 GPT-4 Omni
2024-06-21
模型GPT
上線首日進入暢銷Top5 《最強蝸牛》靠的就是玩“梗”氪金
2020-06-24
MLLM真能看懂數學嗎？MathVerse來了次摸底測評，放出當天登熱榜
2024-04-19
榮耀V20與iPhone XS對比評測：4800萬畫素強在哪？
2019-01-16
iPhone
軟體測評報告做為招標評分項
2022-08-05
一手實測結果出爐！智譜「超大杯」模型全家桶亮相KDD，部分任務超越GPT-4o
2024-08-30
模型GPT
HostGator和SugarHosts主機對比評測
2019-07-05
2021數學強化通關330題【數學一-習題冊】獨家OCR版本
2020-10-18
榮耀暢玩7與7C區別對比評測榮耀暢玩7和7C哪個好？
2018-05-22
測試人員如何做需求評審？
2024-08-22
OPPO R15王者榮耀體驗評測 OPPO R15玩王者榮耀卡嗎?
2018-03-30
《Royal Kingdom》即將正式上線，這次它真的準備好了嗎？
2024-10-30
請問有做安全產品測試的同學嗎?求交流
2020-10-31

一手測評Claude 3.5：玩梗、看病、耍心眼 、做數學題，它真比GPT-4o強嗎？

相關文章

一手測評Claude 3.5：玩梗、看病、耍心眼、做數學題，它真比GPT-4o強嗎？