一手測評Claude 3.5:玩梗、看病、耍心眼 、做數學題,它真比GPT-4o強嗎?

机器之能發表於2024-06-21
機器之能報導
編輯:楊文
玩梗、看病、耍心眼、做數學題,「新王」Claude 3.5能力真那麼玄乎?

它來了,它來了,它帶著 Claude 3.5 Sonnet 走來了!

蟄伏三個月,就在昨晚,OpenAI 的「勁敵」Anthropic 上新了,推出新一代模型 ——

Claude 3.5 Sonnet!

圖片

這款大模型有啥獨到之處?

首先,它更能把握住細微差別、幽默和複雜指令,並且書寫語氣更自然、親切。

它還是Anthropic最強的視覺模型,擅長解釋圖表、圖形或者從不完美的影像中轉錄文字等任務。

圖片

此外,它在推理、閱讀理解、數學、科學和編碼等多項評估基準中表現不凡。

總之,按官方介紹,Claude 3.5 Sonnet 是迄今為止最智慧的模型,在多個方面吊打 GPT-4o。

話說到這份上,那我們就不客氣了,直接讓 Claude 3.5 Sonnet 和 GPT-4o 對決,孰優孰劣實力說話。


第一局:心眼子練習

日常生活中,總會遇到一些尷尬的場面。

例如,飯局上,你幫領導盛飯,領導接過後,說:“盛這麼多,餵豬呢?” 這種情況下,高情商者會如何應對?

我們把這個問題丟給這兩個大模型。

Claude 3.5 Sonnet:

圖片

GPT-4o:

圖片

它們是懂拍馬屁的。

Claude 3.5 一口氣給了 5 個示例,不過第 2 句「我眼神不好使,把您當成我們單位的頂樑柱了」,這是拍馬蹄子上了吧。

GPT-4o 就更懂「人情世故」了,「看您身材保持得這麼好,我可得向您請教減肥秘籍」,這馬屁拍的是恰到好處啊。

值得一提的是,Claude 3.5 Sonnet 還上線了一個新功能 —— 提示詞再編輯功能。

圖片

使用者可直接在原始提示詞上進行編輯修改,而不用一遍遍複製貼上。


第二局:根據菜餚生成菜譜

我們上傳了一張「蕃茄炒雞蛋」的圖片,分別讓這倆大模型介紹一下製作流程。

Claude 3.5 Sonnet:

圖片

GPT-4o:

圖片

它們對於這道經典的中國菜頗有心得,從配料到步驟一應俱全,最有意思的是,它倆懂得中國人做菜的精髓「少許」,也都強調加點糖平衡酸度。

論做菜,兩個大模型不相上下。


第三局:做數學題

官方給出的評估表中,GPT-4o 的數學得分要略高於 Claude 3.5 Sonnet 。其中,GPT-4o 是 76.6%,而 Claude 3.5 Sonnet 是 71.1%。

圖片

我們從 2024 年新高考 I 卷中摘錄了兩道題目,一道是選擇題,一道是解答題,分別以圖片的形式「投餵」給這兩個大模型。

第一道是送分題,正確答案是 A。

圖片

Claude 3.5 Sonnet:

圖片

GPT-4o:

圖片

這兩個大模型「心有靈犀」,不僅給出了正確答案,還給出了詳細的解題步驟。

我們又將解答題第一題交給他們,還讓它們給出解題過程。

圖片

正確答案是:B=3/π。

Claude 3.5 Sonnet:

圖片

GPT-4o:

圖片

其實,這道題目算是最基礎的題目,但倆大模型「一頓操作猛如虎」,最後給出了錯誤答案。

更搞笑的是,這錯誤答案也不是憑空出來的,而是經過了一連串的推理,連犯的錯都一個樣。

對於數學能力,這倆大模型半斤八兩。


第四局:玩網路熱梗

今年,AI 影片領域遍地開花,不僅闖入新的「踢館者」—— 可靈、Luma、即夢等,曾經的 AI 影片「扛把子」Runway 也「王者歸來」。

由此,網友製作了這張梗圖,來調侃如今各大 AI 影片應用的江湖地位。

圖片

我們分別向兩家大模型上傳這張梗圖,並輸入提示詞「這張圖是什麼意思」,以此來測試它們的圖片解讀能力。

Claude 3.5 Sonnet:

圖片

GPT-4o:

圖片

Claude 3.5 Sonnet 從畫面角色、場景以及氛圍等方面進行詳細描述,不過它似乎沒搞懂這張梗圖的內涵,也不認識這幾個 AI 影片應用,只是含混其辭地表示「這是對線上社群、人工智慧系統或虛擬世界中權力結構的評論。」

GPT-4o 一瞅就明白其中深意,「這張圖片可能象徵著 Runway 在人工智慧和創意工具領域的公認優勢或領導地位,與提到的其他應用相比,Runway 受到高度重視。」

顯而易見,這一局,GPT-4o 完勝。


第五局:讀懂世界名畫

我們拿出皮埃爾・奧古斯特・庫特在 1873 年畫的《春光》一圖,讓它們識別畫作並進行賞析。

Claude 3.5 Sonnet:

圖片

GPT-4o:

圖片

這兩個大模型堪稱藝術界的「行家裡手」,均認出了這幅畫作,基礎資訊也表達無誤,同時從不同的角度進行賞析。

它們都提到市場價值,不過,Claude 3.5 Sonnet 拒絕置評,只提醒「藝術品估價需要專家評估,考慮多種因素,而且價格可能會隨著時間的推移而大幅波動。」

GPT-4o 則認為該畫可能會拍出數百萬美元的價格,這是不是太小看這幅經典畫作了?

這一局,兩個大模型算是打成平手。


第六局:AI 看病

最近網友們玩起了用 AI 大模型來看病。我們找了一張 6 歲孩子牙齒的 X 光照片,讓大模型們透過牙齒推斷年齡,以及有哪些問題。

Claude 3.5 Sonnet:

圖片

GPT-4o:

圖片

Claude 3.5 Sonnet 基於乳牙和恆牙的發育情況,得出結論:這是一個 6-7 歲左右孩子的牙齒,下頜牙齒有些擁擠,恆牙似乎受到阻生,牙齒上較暗的區域或許有腐爛。

GPT-4o 則認為這是 7-9 歲孩子的牙齒,主要的牙齒問題包括恆牙擁擠和潛在的嵌塞。

同時,它們都提到這需要專業的牙醫檢查。

兩相比較,Claude 3.5 Sonnet 對於年齡的判斷更為精準一些。

這一局,Claude 3.5 略勝一籌。

此外,不少網友還線上整活兒,搗鼓出不少有趣的玩法。

比如說,EverArt 創始人 Pietro Schirano 在 Claude 3.5 Sonnet 的幫助下,使用幾何形狀克隆了馬里奧遊戲,整個過程僅持續 3 分鐘。

圖片

他表示,「最瘋狂的部分是它還為角色提供了動畫,而且這些形狀看起來很新穎。」

一手測評Claude 3.5:玩梗、看病、耍心眼 、做數學題,它真比GPT-4o強嗎?

影片連結:https://mp.weixin.qq.com/s/dbApyzEtYNgsWsXoi12gFQ

各位讀者,你們覺得這次 Claude 3.5 Sonnet 有沒有完成對 GPT-4o 的「絕殺」呢?

相關文章