谷歌最強大模型Gemini 2.0被抬上來了，網友：好科幻

机器之心發表於2024-12-12

原文網址 : https://www.jiqizhixin.com/articles/2024-12-12-3

谷歌大模型

能搜網頁、寫程式碼，還能教你打遊戲。

OpenAI 接連幾天的「轟炸」，已經讓人審美疲勞。

作為應對，週三，谷歌推出新一代至強 AI 大模型 Gemini 2.0 Flash 。

網友體驗先走一波。

^{就模型所看到的內容實時對話，感覺就像科幻小說一樣。} 谷歌最強大模型Gemini 2.0被抬上來了，網友：好科幻

^{透過共享螢幕，實時討論論文，這個研究助理很強啊。}

^{讓AI在對話過程中自然地生成影像。}

^{現在，一個提示詞就能生成包含步驟說明和配圖，食譜blog，一步到位。}

據谷歌介紹，除了能生成文字外，還能直接生成圖片和語音。

不僅如此，2.0 Flash 還能呼叫第三方應用和服務，比如可以使用谷歌搜尋、執行程式碼等功能。

從今天開始，開發者可以透過以下幾種方式嘗試使用 2.0 Flash 的測試版：

Gemini 的 API 介面
谷歌的 AI 開發平臺：AI Studio 和 Vertex AI

不過，生成圖片和語音的功能暫時只對「早期合作伙伴」開放，要等到明年 1 月才會向所有人開放。谷歌表示，在接下來幾個月裡，會把 2.0 Flash 的各種版本整合到多個產品中，包括：

Android Studio（安卓開發工具）
Chrome 開發工具
Firebase（應用開發平臺）
Gemini 程式碼助手

主力模型 Gemini 2.0

今天釋出的 Gemini 2.0 Flash 的實驗版本，是 Gemini 2.0 系列的第一個模型，也是當前主力模型。

它反應速度快（低延遲），效能強大，代表了谷歌 Gemini 最頂尖的技術水平。

除了速度是「前任」的 2 倍， 支援影像、影片和音訊等多模態輸入外，2.0 Flash 現在還支援多模態輸出，比如原生生成的影像與文字混合，以及可控制的多語言文字轉語音（ TTS ）音訊。

它還能夠原生呼叫工具，如谷歌搜尋、程式碼執行以及第三方使用者自定義函式。

下面這張圖展示了 Gemini 不同版本在各項測試中的表現對比。

總體來看，新模型在程式設計、數學和多模態處理方面都有明顯提升，特別是在程式碼生成方面的進步最為顯著。

有趣的是，在長文字理解( MRCR )這一項上，2.0 Flash ( 69.2% )反而比 1.5 Pro ( 82.6% )表現差一些，這是少數幾個沒有進步的指標之一。

^{圖表展示了Gemini不同版本在各項測試中的表現對比。}

Gemini 2.0 Flash 的正式版本將於 1 月份推出。但在此期間，谷歌正在釋出一個 API —— Multimodal Live API（多模態實時 API ），幫助開發者構建具有實時音訊和影片流功能的應用程式。

網友們已經快樂地玩耍起來。

^{能幫你畫好下一步棋子的位置。來自X網友@robertriachi}

使用 Multimodal Live API，開發者可以建立實時的多模態應用，這些應用能夠接收來自攝像頭或螢幕的音訊和影片輸入。該 API 支援整合各種工具來完成任務，並且能夠處理自然對話模式。

比如，對話中的打斷。這和 OpenAI 的 Realtime API 很像。

^{在對話中自然地生成影像，就像人類聊天時隨手畫個示意圖一樣自然}

^{對影像的後續編輯}

^{一邊處理實時音訊輸入，一邊執行資料視覺化等複雜任務}

Project Astra：通用助手的曙光

今年 5 月份，谷歌釋出了通用 AI 助手研究原型 Project Astra ，這是一個多模態 AI 智慧體專案，旨在為使用者提供一個能夠理解和響應複雜、動態真實世界「 AI 助手」。

這次，谷歌對搭載了 Gemini 2.0 的最新版本 Project Astra 進行了一系列改進：

更流暢的對話：Project Astra 現在能夠用多種語言和混合語言進行交流，對各種口音和生僻詞彙的理解也更加精準。

新工具的運用：藉助Gemini 2.0，Project Astra 能夠使用谷歌搜尋、谷歌鏡頭和谷歌地圖，使其成為你日常生活中更加得力的助手。

更強大的記憶功能：增強了 Project Astra 的記憶能力，並確保你可以控制其記憶。它現在能夠保持長達 10 分鐘的會話記憶，並能記住你過去與它進行的更多對話，從而為你提供更加個性化的服務。

更低的延遲：透過新的流媒體功能和原生音訊理解技術，智慧體能夠以接近人類對話的延遲速度理解語言。

他們正致力於將這些功能引入谷歌產品，如 Gemini app 以及眼鏡等其他形態的產品。同時，他們也開始在原型眼鏡上測試 Project Astra。

在官方演示影片中，外國小哥用一部安裝了最新測試版 Project Astra 的 Pixel 手機進行測試。

收到一封包含公寓資訊的電子郵件後，它可以告訴你公寓大門的密碼，並記住它。

只需要使用攝像頭拍攝衣服上的標籤和洗衣機上覆雜的按鈕，它就能告訴你這件衣服是否能機洗、漂白、烘乾，以及洗衣機該如何使用。

還可以把朋友讀過的書發給它，讓它以此分析出朋友的讀書品味並推薦相關書籍。

偶遇一輛巴士，問它是否可以去唐人街附近。Project Astra不僅可以搜尋出該巴士的行駛路線，還能回答出沿線著名地標。

此外，小哥還戴上原型眼鏡來測試Project Astra，效果相當酷炫。

只需一個問題指令，它就能進行天氣預報、告訴你是否可以騎腳踏車進公園，搜尋沿途是否有超市等。

Project Mariner：瀏覽器版「賈維斯」

Project Mariner 是一個基於 Gemini 2.0 構建的早期研究原型。它透過 Chrome 瀏覽器外掛，能理解你螢幕上的所有內容 —— 不管是文字、程式碼、圖片還是表單。

它的厲害之處在於，在 WebVoyager 基準測試中，Project Mariner 作為一個獨立智慧體設定，完成網頁任務的準確率達到了 83.5% ，這在目前來說是相當不錯的成績。

雖然現在可能還有點慢，準確度也不是百分之百，但這項技術正在快速進步。谷歌最強大模型Gemini 2.0被抬上來了，網友：好科幻

為了確保安全，谷歌做了很多防護措施。

比如，它只能在你當前開啟的網頁標籤裡操作，要做一些重要的事情（比如網購）時，還得先問問你同意不同意。這就像有個助手幫你辦事，但重要決定還是由你來做。

Jules：有經驗的程式設計助手

Jules 是一個懂程式設計的智慧助理，直接整合在 GitHub 工作流程中。假設你有一個程式問題需要解決，它能理解問題，制定解決方案，然後在你的指導和監督下把程式碼寫出來。谷歌最強大模型Gemini 2.0被抬上來了，網友：好科幻

就像是你多了一個有經驗的程式設計搭檔，能幫你分析問題、規劃方案、寫程式碼，但最終的決定權還是在你手中。你可以隨時檢查它的工作，確保一切都符合你的要求。

遊戲及其他領域的智慧體

谷歌 DeepMind 一直喜歡用遊戲來鍛鍊 AI 的能力，就像前幾天推出的 Genie 2 ，只要給它一張圖片，它就能創造出可以玩的 3D 世界。

現在，他們又在 Gemini 2.0 的基礎上開發了遊戲智慧體。

它特別有意思，能看懂你在玩什麼遊戲，理解遊戲畫面裡發生的事情，然後實時跟你聊天，給你建議該怎麼玩。就像有個資深玩家朋友在旁邊指點你。

他們還和 Supercell 這樣的大遊戲公司合作，在《部落衝突》這樣的策略遊戲和《卡通農場》這樣的模擬經營遊戲中測試 AI 。AI 需要理解不同型別遊戲的規則和挑戰，這可不是件容易的事。

更厲害的是，這個智慧體還能用谷歌搜尋，幫你找到網上的遊戲攻略和技巧。就像是一個既懂遊戲、又知道去哪找答案的玩伴。

除了在虛擬世界中探索智慧體能力，谷歌還在嘗試將 Gemini 2.0 的空間推理能力應用於機器人技術，幫助智慧體在現實世界中提供幫助，不過目前仍處於早期階段。

^{參考連結：
https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/?utm_source=deepmind.google&utm_medium=referral&utm_campaign=gdm&utm_content=
https://developers.googleblog.com/en/the-next-chapter-of-the-gemini-era-for-developers/
https://x.com/simonw/status/1866942603020910866}