谷歌終於贏了OpenAI一回：實驗版本Gemini 1.5 Pro超越GPT-4o

机器之心發表於2024-08-02

原文網址 : https://www.jiqizhixin.com/articles/2024-08-02-5

谷歌OpenAIGPT

這麼強的模型，谷歌給大家免費試用。

近兩日，谷歌在不斷髮布最新研究。繼昨日放出最強端側 Gemma 2 2B 小模型後，剛剛，Gemini 1.5 Pro 實驗版本 (0801) 已經推出。

使用者可以透過 Google AI Studio 和 Gemini API 進行測試和反饋。

既然免費，那我們幫大家測試一下最近比較火的比大小問題。當我們問 Gemini 1.5 Pro (0801) 9.9 和 9.11 哪個數大時，模型一次就能回答正確，並給出了理由。

當我們繼續追問「Strawberry 單詞裡面有多少個 r」時，然而 Gemini 1.5 Pro (0801) 卻翻車了。在提示語中施加「咒語」一步一步來，模型分析到第四步就出錯了。

Google AI Studio 測試地址：https://aistudio.google.com/app/prompts/new_chat

不過，從官方評測來看，Gemini 1.5 Pro (0801) 各項指標還是很能打的。新模型迅速奪得著名的 LMSYS Chatbot Arena 排行榜榜首，並擁有令人印象深刻的 ELO 分數，得分為 1300。

這一成就使 Gemini 1.5 Pro (0801) 領先於 OpenAI 的 GPT-4o（ELO：1286）和 Anthropic 的 Claude-3.5 Sonnet（ELO：1271）等強大競爭對手，這或許預示著人工智慧格局的轉變。

Gemini 團隊關鍵成員 Simon Tokumine 稱 Gemini 1.5 Pro (0801) 是谷歌迄今為止製造的最強大、最智慧的 Gemini （模型）。

除了拿到 Chatbot Arena 榜首，Gemini 1.5 Pro (0801) 在多語言任務、數學、Hard Prompt 和編碼等領域也表現相當出色。

具體而言，Gemini 1.5 Pro (0801) 在中文、日語、德語、俄語方面均表現第一。

但在編碼、Hard Prompt 領域，Claude 3.5 Sonnet、GPT-4o、Llama 405B 仍然處於領先地位。

在 win-rate 熱圖上：Gemini 1.5 Pro (0801) 對陣 GPT-4o 的勝率為 54%，對陣 Claude-3.5-Sonnet 的勝率為 59%。

Gemini 1.5 Pro (0801) 在 Vision 排行榜上也第一！

網友紛紛表示，谷歌這次真是出乎所有人的預料，沒有提前官宣就突然開放測試最強模型，這次壓力給到了 OpenAI。

雖然 Gemini 1.5 Pro (0801) 取得了很高的成績，但它仍處於實驗階段。這意味著該模型在廣泛使用之前可能會進行進一步的修改。

網友評測

有網友對 Gemini 1.5 Pro (0801) 的內容提取能力、程式碼生成能力、推理能力等進行了測試，我們來看下他的測試結果。

^{來源：https://x.com/omarsar0/status/1819162249593840110}

首先，Gemini 1.5 Pro (0801) 的影像資訊提取功能很強，例如輸入一張發票影像，將發票細節用 JSON 格式編寫出來：

再來看下 Gemini 1.5 Pro (0801) 的 PDF 文件內容提取功能，以經典論文《Attention Is All You Need》為例，提取論文章節目錄：

讓 Gemini 1.5 Pro (0801) 生成一個幫助學習大型語言模型（LLM）知識的 Python 遊戲，該模型直接生成了一整段程式碼：

值得一提的是，Gemini 1.5 Pro (0801) 還給出了詳細的程式碼解釋，包括程式碼中函式的作用、該 Python 遊戲的玩法等等。

這段程式可以直接在 Google AI Studio 中執行，並且可以試玩，例如做道關於 Tokenization 定義的選擇題：

如果覺得選擇題太簡單無聊，可以進一步讓 Gemini 1.5 Pro (0801) 生成一個更復雜的遊戲：

得到一個 LLM 專業知識句子填空遊戲：

為了測試 Gemini 1.5 Pro (0801) 的推理能力，網友提問了一個「吹蠟燭」問題，但模型回答錯誤：

儘管有一些瑕疵，但 Gemini 1.5 Pro (0801) 的確表現出接近 GPT-4o 的視覺能力，以及接近 Claude 3.5 Sonnet 的程式碼生成和 PDF 理解、推理能力，值得期待。

^{參考連結：}

^{https://www.youtube.com/watch?v=lUA9elNdpoY}

^{https://x.com/lmsysorg/status/1819048821294547441}

相關文章

13種Gemini 1.5和GPT-4o使用案例
2024-05-22
GPT
ECCV 2024 | 比基準高30%，媲美Gemini 1.5 Pro，基於記憶的影片理解智慧體來了
2024-09-05
智慧體
終於來了！OpenAI開放GPT-4o高階語音，還用中文說「對不起」
2024-09-25
OpenAIGPT
谷歌Gemini 1.5：長上下文視窗意味著什麼？
2024-02-19
谷歌
推出不到一個月，谷歌Gemini翻車了
2024-02-23
谷歌
[轉帖]Oracle 敗了、谷歌贏了：Java API 版權案最終裁決
2024-04-21
Oracle谷歌JavaAPI
太貼心！OpenAI釋出了類人化重大版本：GPT-4o
2024-05-14
OpenAIGPT
推理最強也最快，谷歌釋出Gemini 2.0 Flash Thinking，全面超越o1-preview
2024-12-20
谷歌ThinkingView
Gemini 1.5 Pro裝進機器人，參觀一遍公司就能禮賓、帶路
2024-07-15
機器人
Llama分子嵌入優於GPT，LLM能理解分子嗎？這一局Meta贏了OpenAI
2024-07-11
GPTOpenAI
谷歌最強大模型Gemini 2.0被抬上來了，網友：好科幻
2024-12-12
谷歌大模型
StreamPark 2.0.0 重磅釋出，首個 Apache 版本終於來了！
2023-02-22
Apache
沒有等來OpenAI開源GPT-4o，等來了開源版VITA
2024-08-14
OpenAIGPT
擊敗Gemini-1.5-Pro、GPT-4V，從容大模型多模態能力躋身全球前三
2024-06-28
GPT大模型
谷歌Gemini 1.5技術報告：輕鬆證明奧數題，Flash版比GPT-4 Turbo快5倍
2024-05-18
谷歌GPT
寡姐怒了，GPT-4o系統配音強行模仿，OpenAI回應刪除
2024-05-21
GPTOpenAI
谷歌最終還是要對EV SSL擴充套件驗證證書下手了
2018-09-05
谷歌套件
GLM-4開源版本終於來了：超越Llama3，多模態比肩GPT4V，MaaS平臺也大升級
2024-06-06
GPT
重返谷歌的Transformer作者，開始掌管Gemini AI
2024-08-23
谷歌ORMAI
《怪物火車》：終於有一款卡牌構築遊戲超越了《殺戮尖塔》
2020-06-03
遊戲
8人小團隊單挑OpenAI，半年仿出GPT-4o，還開源了
2024-07-04
OpenAIGPT
MySQL 函式索引功能終於可以實現了
2023-10-17
MySql函式索引
一夜之間，谷歌版GPT-4o和AI手機全上市了
2024-08-14
谷歌GPTAI
重磅：谷歌釋出最強大AI模型【Google Gemini】
2023-12-14
谷歌AI模型Go
Flutter Web Beta版本終於釋出了
2019-12-12
FlutterWeb
終於實現了一門屬於自己的程式語言
2022-09-07
僅僅一天，Gemini就奪回了GPT-4o拿走的頭名
2024-11-22
GPT
AI 終於受涼了？？
2020-04-02
AI
CF終於打上1900了
2024-10-15
OpenAI 釋出適用於 .NET 庫的穩定版本
2024-10-06
OpenAI
微軟終於放棄了Electron了
2021-08-29
微軟
18個月，OpenAI這支團隊搞出了GPT-4o
2024-05-16
OpenAIGPT
行，Python終於玩大了！
2018-10-17
Python
VS Code Day，終於來了！
2023-04-18
裝修終於結束了
2020-04-07
終於，月薪過5萬了！
2020-04-06
GitHub 官方終於出 App 了！
2020-04-06
GithubAPP
攜程，終於反彈了？
2021-09-28