奧林匹克競賽裡選最聰明的AI:Claude-3.5-Sonnet vs. GPT-4o?

机器之心發表於2024-06-24
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

上海交通大學生成式人工智慧實驗室 (GAIR Lab) 的研究團隊,主要研究方向是:大模型訓練、對齊與評估。
團隊主頁:https://plms.ai/

AI技術日新月異,近來Anthropic公司最新發布的Claude-3.5-Sonnet因在知識型推理、數學推理、程式設計任務及視覺推理等任務上設立新行業基準而引發廣泛討論:Claude-3.5-Sonnet 已經取代OpenAI的GPT4o成為世界上”最聰明的AI“(Most Intelligent AI)了嗎?回答這個問題的挑戰在於我們首先需要一個足夠挑戰的智力測試基準,使得我們可以區分目前最高水平的AI

上海交通大學生成式人工智慧實驗室(GAIR Lab)推出的OlympicArena[1] (奧林匹克競技場)滿足了這個需求。

奧林匹克學科競賽不僅是對人類(碳基智慧)思維敏捷性、知識掌握和邏輯推理的極限挑戰,更是AI(“矽基智慧”)鍛鍊的絕佳練兵場,是衡量AI與“超級智慧”距離的重要標尺。OlympicArena——一個真正意義上的AI奧運競技場。在這裡,AI不僅要展示其在傳統學科知識上的深度(數學、物理、生物、化學、地理等頂級競賽),還要在模型間的認知推理能力上展開較量。

近日,同樣是研究團隊,首次提出使用"奧林匹克競賽獎牌榜"的方法,根據各AI模型在奧林匹克競技場(各學科)的綜合表現進行排名,選出迄今為止智力最高的AI。在此次競技場中,研究團隊重點分析並比較了最近釋出的兩個先進模型——Claude-3.5-SonnetGemini-1.5-Pro,以及OpenAI的GPT-4系列(e.g., GPT4o)。透過這種方式,研究團隊希望能夠更有效地評估和推動AI技術的發展。

圖片

圖: 奧林匹克學科競賽獎牌榜
注:研究團隊首先依據金牌數量對模型進行排序,如果金牌數量相同,則按照整體效能分數來排序。

實驗結果表明:

  • Claude-3.5-Sonnet在整體表現上與GPT-4o相比極具競爭力,甚至在一些科目上超過了GPT-4o(比如在物理、化學和生物學上)。
  • Gemini-1.5-Pro和GPT-4V排名緊隨GPT-4o和Claude-3.5-Sonnet之後,但它們之間存在明顯的表現差距。
  • 來自開源社群的AI模型效能明顯落後於這些專有模型。
  • 這些模型在此基準測試上的表現不盡人意,表明我們在實現超級智慧之路上還有很長的路要走。

圖片

  • 專案主頁:https://gair-nlp.github.io/OlympicArena/

實驗設定

研究團隊採取OlympicArena的測試集進行評估。該測試集的答案並未公開,有助於防止資料洩露,從而反映模型的真實效能。研究團隊測試了多模態大模型(LMMs)和純文字大模型(LLMs)。對於LLMs的測試,輸入時不提供任何與影像相關的資訊給模型,僅提供文字。所有評估均採用零樣本(zero-shot)思維鏈(Chain of Thought)提示詞。

評估物件

研究團隊評估了一系列開源和閉源的多模態大模型(LMMs)和純文字大模型(LLMs)。對於LMMs,選擇了GPT-4o、GPT-4V、Claude-3-Sonnet、Gemini Pro Vision、Qwen-VL-Max等閉源模型,此外還評估了LLaVA-NeXT-34B、InternVL-Chat-V1.5、Yi-VL-34B和Qwen-VL-Chat等開源模型。對於LLMs,主要評估了Qwen-7B-Chat、Qwen1.5-32B-Chat、Yi-34B-Chat和InternLM2-Chat-20B等開源模型。

此外,研究團隊特別包括了新發布的Claude-3.5-Sonnet以及Gemini-1.5-Pro,並將它們與強大的GPT-4o和GPT-4V進行比較。以反映最新的模型效能表現。

評估方法

衡量標準 鑑於所有問題都可以透過基於規則的匹配進行評估,研究團隊對非程式設計任務使用準確率,並對程式設計任務使用公正的pass@k指標,定義如下:

圖片

本次評估中設定k = 1且n = 5,c表示透過所有測試用例的正確樣本數量。

奧林匹克競技場獎牌榜:

與奧運會使用的獎牌系統類似,是一個專門設計用來評估AI模型在各個學術領域效能的先驅性排名機制。該表為在任一給定學科中取得前三名成績的模型頒發獎牌,從而為比較不同模型提供了一個明確且具有競爭性的框架。研究團隊首先依據金牌數量對模型進行排序,如果金牌數量相同,則按照整體效能分數來排序。它提供了一種直觀簡潔的方式來識別不同學術領域中的領先模型,使研究人員和開發者更容易理解不同模型的優勢和劣勢。

細粒度評估:
研究團隊還基於不同學科、不同模態、不同語言以及不同型別的邏輯視覺推理能力進行基於準確性的細粒度評估。

結果與分析

分析內容主要關注Claude-3.5-Sonnet和GPT-4o,同時也對Gemini-1.5-Pro的效能表現進行了部分討論。

總體情況

圖片

表:模型在不同學科上的表現

根據表格的總體結果,可以觀察到:

  • 新發布的Claude-3.5-Sonnet效能強大,達到了幾乎與GPT-4o相當的水平。兩者的整體準確率差異僅約1%。
  • 新發布的Gemini-1.5-Pro也展現出了相當的實力,在大多數學科中的表現超過了GPT-4V(OpenAI當前第二強大的模型)。
  • 值得注意的是,在撰寫本報告時,這三個模型中最早的釋出時間僅為一個月前,反映了這一領域的快速發展。

針對學科的細粒度分析

GPT-4o vs. Claude-3.5-Sonnet:

儘管GPT-4o和Claude-3.5-Sonnet在整體上表現相似,但兩個模型都展現了不同的學科優勢。GPT-4o在傳統的演繹和歸納推理任務上展現出更優秀的能力,特別是在數學和電腦科學方面。Claude-3.5-Sonnet在物理、化學和生物等學科表現出色,特別是在生物學上,它超過GPT-4o 3%。

GPT-4V vs. Gemini-1.5-Pro:

在Gemini-1.5-Pro與GPT-4V的比較中,可以觀察到類似的現象。Gemini-1.5-Pro在物理、化學和生物學方面的表現顯著優於GPT-4V。然而,在數學和電腦科學方面,Gemini-1.5-Pro優勢不明顯甚至不如GPT-4V。

從這兩組比較中,可以看出:

  • OpenAI的GPT系列在傳統的數學推理和程式設計能力上表現突出。這表明GPT系列模型已經經過了嚴格訓練以處理需要大量演繹推理和演算法思維的任務。
  • 相反,當涉及到需要將知識與推理結合的學科,如物理、化學和生物學時,其他模型如Claude-3.5-Sonnet和Gemini-1.5-Pro展現出了具有競爭性的表現。這體現了不同模型的專業領域以及潛在的訓練重點,表明在推理密集型任務以及知識整合型任務可能存在的權衡。

針對推理型別的細粒度分析

圖片

Caption: 各模型在邏輯推理能力上的表現。邏輯推理能力包括:演繹推理(DED)、歸納推理(IND)、溯因推理(ABD)、類比推理(ANA)、因果推理(CAE)、批判性思維(CT)、分解推理(DEC)和定量推理(QUA)。

GPT-4o 與 Claude-3.5-Sonnet 在邏輯推理能力上的比較:

從表格的實驗結果可以看出,GPT-4o在大多數的邏輯推理能力上優於Claude-3.5-Sonnet,例如演繹推理歸納推理溯因推理類比推理和批判性思維方面。然而,Claude-3.5-Sonnet在因果推理、分解推理和定量推理上的表現超過了GPT-4o。整體而言,兩個模型的表現相當,雖然GPT-4o在大多數類別上略有優勢。

圖片

表: 各模型在視覺推理能力上的表現。視覺推理能力包括:模式識別(PR)、空間推理(SPA)、圖表推理(DIA)、符號解釋(SYB)和視覺比較(COM)。

GPT-4o vs. Claude-3.5-Sonnet 在視覺推理能力上的表現:

從表格的實驗結果可以看出,Claude-3.5-Sonnet在模式識別和圖表推理方面能力領先,展現了其在模式識別和解讀圖表方面的競爭力。兩個模型在符號解釋方面表現相當,表明它們在理解和處理符號資訊方面具有相當的能力。然而,GPT-4o在空間推理和視覺比較方面優於Claude-3.5-Sonnet,展示了其在需要理解空間關係和比較視覺資料的任務上的優越性。

綜合學科與推理型別的分析,研究團隊發現:

  • 數學和計算機程式設計強調複雜演繹推理技巧和基於規則匯出普適性結論,傾向於較少依賴預先存在的知識。相比之下,像化學和生物學這樣的學科往往需要大量的知識庫來基於已知的因果關係和現象資訊進行推理。這表明,儘管數學和程式設計能力仍然是衡量模型推理能力的有效指標,其他學科更好地測試了模型在基於其內部知識進行推理和問題分析方面的能力。
  • 不同學科的特點表明了定製化訓練資料集的重要性。例如,要提高模型在知識密集型學科(如化學和生物學)中的表現,訓練期間模型需要廣泛接觸特定領域的資料。相反,對於需要強大邏輯演繹推理的學科,如數學和電腦科學,模型則能從專注於純邏輯推理的訓練中受益。
  • 此外,推理能力和知識應用之間的區別表明了模型跨學科應用的潛力。例如,具有強大演繹推理能力的模型可以協助需要系統化思維解決問題的領域,如科學研究。而擁有豐富知識的模型在重度依賴現有資訊的學科中非常寶貴,如醫學和環境科學。理解這些細微差別有助於開發更專業和多功能的模型。

針對語言型別的細粒度分析

圖片 Caption: 各模型在不同語言問題的能力表現。

以上表格展示了模型在不同語言上的效能表現。研究團隊發現大多數模型在英語上的準確度比中文要高,這種差距在排名靠前的模型中尤為顯著。推測可能有以下幾個原因:

  • 儘管這些模型包含了大量中文訓練資料並且具有跨語言泛化能力,但它們的訓練資料主要以英語為主。
  • 中文問題的難度比英文問題更具挑戰性,尤其是在物理和化學等科目中,中國奧林匹克競賽的問題更難。
  • 這些模型在識別多模態影像中的字元方面能力不足,中文環境下這一問題更為嚴重。

然而,研究團隊也發現一些中國廠商開發或基於支援中文的基模型進行微調的模型,在中文場景下的表現優於英文場景,例如Qwen1.5-32B-Chat、Qwen-VL-Max、Yi-34B-Chat和Qwen-7B-Chat等。其他模型如InternLM2-Chat-20B和Yi-VL-34B,雖然仍然在英語上表現更好,但與排名靠前的閉源模型相比,它們在英語和中文場景間的準確度差異要小得多。這表明,為中文資料乃至全球更多語言最佳化模型,仍然需要顯著的關注。

針對模態的細粒度分析

圖片

Caption: 各模型在不同模態問題的能力表現。

以上表格展示了模型在不同模態上的效能表現。GPT-4o在純文字和多模態任務中均優於Claude-3.5-Sonnet,並在純文字上表現更突出。另一方面,Gemini-1.5-Pro在純文字和多模態任務上表現均優於GPT-4V。這些觀察表明,即使是目前可用的最強模型,在純文字任務上也比多模態任務有更高的準確率。這說明模型在利用多模態資訊解決複雜推理問題方面仍有相當大的改進空間。

結語

研究團隊在本次評測中主要關注最新的模型:Claude-3.5-Sonnet 和 Gemini-1.5-Pro,並將它們與 OpenAI 的 GPT-4o 和 GPT-4V 進行比較。此外,研究團隊還設計了一種用於大模型的新穎排名系統——OlympicArena Medal Table,用來清晰的比較不同的模型的能力。研究團隊發現,GPT-4o 在數學和電腦科學等科目上表現突出,具有較強的複雜演繹推理能力和基於規則得出普遍結論的能力。另一方面,Claude-3.5-Sonnet 更擅長根據已有的因果關係和現象進行推理。另外,研究團隊還觀察到這些模型在英語語言問題上表現更好,並且在多模態能力方面有顯著的改進空間。理解模型這些細微差別有助於開發更專業化的模型,以更好地滿足不同學術和專業領域的多樣化需求。

隨著四年一度的奧運盛事日益臨近,我們不禁想象,如果人工智慧也能參與其中,那將是一場怎樣的智慧與技術的巔峰對決?不再僅僅是肢體的較量,AI的加入無疑將開啟對智力極限的新探索, 也期待更多AI選手加入這場智力的奧運會。

參考連結:
[1] Huang et al., OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI https://arxiv.org/abs/2406.12753v1

相關文章