近兩日,谷歌在不斷髮布最新研究。繼昨日放出最強端側 Gemma 2 2B 小模型後,剛剛,Gemini 1.5 Pro 實驗版本 (0801) 已經推出。使用者可以透過 Google AI Studio 和 Gemini API 進行測試和反饋。既然免費,那我們幫大家測試一下最近比較火的比大小問題。當我們問 Gemini 1.5 Pro (0801) 9.9 和 9.11 哪個數大時,模型一次就能回答正確,並給出了理由。當我們繼續追問「Strawberry 單詞裡面有多少個 r」時,然而 Gemini 1.5 Pro (0801) 卻翻車了。在提示語中施加「咒語」一步一步來,模型分析到第四步就出錯了。- Google AI Studio 測試地址:https://aistudio.google.com/app/prompts/new_chat
不過,從官方評測來看,Gemini 1.5 Pro (0801) 各項指標還是很能打的。新模型迅速奪得著名的 LMSYS Chatbot Arena 排行榜榜首,並擁有令人印象深刻的 ELO 分數,得分為 1300。這一成就使 Gemini 1.5 Pro (0801) 領先於 OpenAI 的 GPT-4o(ELO:1286)和 Anthropic 的 Claude-3.5 Sonnet(ELO:1271)等強大競爭對手,這或許預示著人工智慧格局的轉變。Gemini 團隊關鍵成員 Simon Tokumine 稱 Gemini 1.5 Pro (0801) 是谷歌迄今為止製造的最強大、最智慧的 Gemini (模型)。除了拿到 Chatbot Arena 榜首,Gemini 1.5 Pro (0801) 在多語言任務、數學、Hard Prompt 和編碼等領域也表現相當出色。具體而言,Gemini 1.5 Pro (0801) 在中文、日語、德語、俄語方面均表現第一。但在編碼、Hard Prompt 領域,Claude 3.5 Sonnet、GPT-4o、Llama 405B 仍然處於領先地位。在 win-rate 熱圖上:Gemini 1.5 Pro (0801) 對陣 GPT-4o 的勝率為 54%,對陣 Claude-3.5-Sonnet 的勝率為 59%。Gemini 1.5 Pro (0801) 在 Vision 排行榜上也第一!網友紛紛表示,谷歌這次真是出乎所有人的預料,沒有提前官宣就突然開放測試最強模型,這次壓力給到了 OpenAI。雖然 Gemini 1.5 Pro (0801) 取得了很高的成績,但它仍處於實驗階段。這意味著該模型在廣泛使用之前可能會進行進一步的修改。 有網友對 Gemini 1.5 Pro (0801) 的內容提取能力、程式碼生成能力、推理能力等進行了測試,我們來看下他的測試結果。 來源:https://x.com/omarsar0/status/1819162249593840110首先,Gemini 1.5 Pro (0801) 的影像資訊提取功能很強,例如輸入一張發票影像,將發票細節用 JSON 格式編寫出來:再來看下 Gemini 1.5 Pro (0801) 的 PDF 文件內容提取功能,以經典論文《Attention Is All You Need》為例,提取論文章節目錄:讓 Gemini 1.5 Pro (0801) 生成一個幫助學習大型語言模型(LLM)知識的 Python 遊戲,該模型直接生成了一整段程式碼:值得一提的是,Gemini 1.5 Pro (0801) 還給出了詳細的程式碼解釋,包括程式碼中函式的作用、該 Python 遊戲的玩法等等。這段程式可以直接在 Google AI Studio 中執行,並且可以試玩,例如做道關於 Tokenization 定義的選擇題:如果覺得選擇題太簡單無聊,可以進一步讓 Gemini 1.5 Pro (0801) 生成一個更復雜的遊戲:為了測試 Gemini 1.5 Pro (0801) 的推理能力,網友提問了一個「吹蠟燭」問題,但模型回答錯誤:儘管有一些瑕疵,但 Gemini 1.5 Pro (0801) 的確表現出接近 GPT-4o 的視覺能力,以及接近 Claude 3.5 Sonnet 的程式碼生成和 PDF 理解、推理能力,值得期待。參考連結:
https://www.youtube.com/watch?v=lUA9elNdpoY
https://x.com/lmsysorg/status/1819048821294547441