谷歌最強大模型Gemini 2.0被抬上來了,網友:好科幻

机器之心發表於2024-12-12
能搜網頁、寫程式碼,還能教你打遊戲。

OpenAI 接連幾天的「轟炸」,已經讓人審美疲勞。

作為應對,週三,谷歌推出新一代至強 AI 大模型 Gemini 2.0 Flash 。

網友體驗先走一波。谷歌最強大模型Gemini 2.0被抬上來了,網友:好科幻 就模型所看到的內容實時對話, 感覺就像科幻小說一樣。 谷歌最強大模型Gemini 2.0被抬上來了,網友:好科幻
透過共享螢幕,實時討論論文,這個研究助理很強啊。
圖片
讓AI在對話過程中自然地生成影像。
圖片 現在,一個提示詞就能生成包含步驟說明和配圖,食譜blog,一步到位。

據谷歌介紹,除了能生成文字外,還能直接生成圖片和語音。

不僅如此,2.0 Flash 還能呼叫第三方應用和服務,比如可以使用谷歌搜尋、執行程式碼等功能。

從今天開始,開發者可以透過以下幾種方式嘗試使用 2.0 Flash 的測試版:

  • Gemini 的 API 介面
  • 谷歌的 AI 開發平臺:AI Studio 和 Vertex AI

不過,生成圖片和語音的功能暫時只對「早期合作伙伴」開放,要等到明年 1 月才會向所有人開放。谷歌表示,在接下來幾個月裡,會把 2.0 Flash 的各種版本整合到多個產品中,包括:

  • Android Studio(安卓開發工具)
  • Chrome 開發工具
  • Firebase(應用開發平臺)
  • Gemini 程式碼助手

主力模型 Gemini 2.0


今天釋出的 Gemini 2.0 Flash 的實驗版本,是 Gemini 2.0 系列的第一個模型,也是當前主力模型。

它反應速度快(低延遲),效能強大,代表了谷歌 Gemini 最頂尖的技術水平。

除了速度是「前任」的 2 倍, 支援影像、影片和音訊等多模態輸入外,2.0 Flash 現在還支援多模態輸出,比如原生生成的影像與文字混合,以及可控制的多語言文字轉語音( TTS )音訊。

它還能夠原生呼叫工具,如谷歌搜尋、程式碼執行以及第三方使用者自定義函式。
圖片下面這張圖展示了 Gemini 不同版本在各項測試中的表現對比。

總體來看,新模型在程式設計、數學和多模態處理方面都有明顯提升,特別是在程式碼生成方面的進步最為顯著。

有趣的是,在長文字理解( MRCR )這一項上,2.0 Flash ( 69.2% )反而比 1.5 Pro ( 82.6% )表現差一些,這是少數幾個沒有進步的指標之一。
圖片 圖表展示了Gemini不同版本在各項測試中的表現對比。

Gemini 2.0 Flash 的正式版本將於 1 月份推出。但在此期間,谷歌正在釋出一個 API —— Multimodal Live API(多模態實時 API ),幫助開發者構建具有實時音訊和影片流功能的應用程式。

網友們已經快樂地玩耍起來。

圖片

能幫你畫好下一步棋子的位置。來自X網友@robertriachi

使用 Multimodal Live API,開發者可以建立實時的多模態應用,這些應用能夠接收來自攝像頭或螢幕的音訊和影片輸入。該 API 支援整合各種工具來完成任務,並且能夠處理自然對話模式。

比如,對話中的打斷。這和 OpenAI 的 Realtime API 很像。
圖片 在對話中自然地生成影像,就像人類聊天時隨手畫個示意圖一樣自然
圖片 對影像的後續編輯
圖片 一邊處理實時音訊輸入,一邊執行資料視覺化等複雜任務

Project Astra:通用助手的曙光


今年 5 月份,谷歌釋出了通用 AI 助手研究原型 Project Astra ,這是一個多模態 AI 智慧體專案,旨在為使用者提供一個能夠理解和響應複雜、動態真實世界「 AI 助手」。

這次,谷歌對搭載了 Gemini 2.0 的最新版本 Project Astra 進行了一系列改進:

更流暢的對話:Project Astra 現在能夠用多種語言和混合語言進行交流,對各種口音和生僻詞彙的理解也更加精準。

新工具的運用:藉助Gemini 2.0,Project Astra 能夠使用谷歌搜尋、谷歌鏡頭和谷歌地圖,使其成為你日常生活中更加得力的助手。

更強大的記憶功能:增強了 Project Astra 的記憶能力,並確保你可以控制其記憶。它現在能夠保持長達 10 分鐘的會話記憶,並能記住你過去與它進行的更多對話,從而為你提供更加個性化的服務。

更低的延遲:透過新的流媒體功能和原生音訊理解技術,智慧體能夠以接近人類對話的延遲速度理解語言。

他們正致力於將這些功能引入谷歌產品,如 Gemini app 以及眼鏡等其他形態的產品。同時,他們也開始在原型眼鏡上測試 Project Astra。

在官方演示影片中,外國小哥用一部安裝了最新測試版 Project Astra 的 Pixel 手機進行測試。

收到一封包含公寓資訊的電子郵件後,它可以告訴你公寓大門的密碼,並記住它。
圖片
只需要使用攝像頭拍攝衣服上的標籤和洗衣機上覆雜的按鈕,它就能告訴你這件衣服是否能機洗、漂白、烘乾,以及洗衣機該如何使用。
圖片還可以把朋友讀過的書發給它,讓它以此分析出朋友的讀書品味並推薦相關書籍。

圖片

偶遇一輛巴士,問它是否可以去唐人街附近。Project Astra不僅可以搜尋出該巴士的行駛路線,還能回答出沿線著名地標。

圖片

此外,小哥還戴上原型眼鏡來測試Project Astra,效果相當酷炫。

只需一個問題指令,它就能進行天氣預報、告訴你是否可以騎腳踏車進公園,搜尋沿途是否有超市等。

圖片

Project Mariner:瀏覽器版「賈維斯」


Project Mariner 是一個基於 Gemini 2.0 構建的早期研究原型。它透過 Chrome 瀏覽器外掛,能理解你螢幕上的所有內容 —— 不管是文字、程式碼、圖片還是表單。

它的厲害之處在於,在 WebVoyager 基準測試中,Project Mariner 作為一個獨立智慧體設定,完成網頁任務的準確率達到了 83.5% ,這在目前來說是相當不錯的成績。

雖然現在可能還有點慢,準確度也不是百分之百,但這項技術正在快速進步。谷歌最強大模型Gemini 2.0被抬上來了,網友:好科幻
為了確保安全,谷歌做了很多防護措施。

比如,它只能在你當前開啟的網頁標籤裡操作,要做一些重要的事情(比如網購)時,還得先問問你同意不同意。這就像有個助手幫你辦事,但重要決定還是由你來做。

Jules:有經驗的程式設計助手


Jules 是一個懂程式設計的智慧助理,直接整合在 GitHub 工作流程中。假設你有一個程式問題需要解決,它能理解問題,制定解決方案,然後在你的指導和監督下把程式碼寫出來。谷歌最強大模型Gemini 2.0被抬上來了,網友:好科幻
就像是你多了一個有經驗的程式設計搭檔,能幫你分析問題、規劃方案、寫程式碼,但最終的決定權還是在你手中。你可以隨時檢查它的工作,確保一切都符合你的要求。

遊戲及其他領域的智慧體


谷歌 DeepMind 一直喜歡用遊戲來鍛鍊 AI 的能力,就像前幾天推出的 Genie 2 ,只要給它一張圖片,它就能創造出可以玩的 3D 世界。

現在,他們又在 Gemini 2.0 的基礎上開發了遊戲智慧體。

它特別有意思,能看懂你在玩什麼遊戲,理解遊戲畫面裡發生的事情,然後實時跟你聊天,給你建議該怎麼玩。就像有個資深玩家朋友在旁邊指點你。
圖片
他們還和 Supercell 這樣的大遊戲公司合作,在《部落衝突》這樣的策略遊戲和《卡通農場》這樣的模擬經營遊戲中測試 AI 。AI 需要理解不同型別遊戲的規則和挑戰,這可不是件容易的事。

更厲害的是,這個智慧體還能用谷歌搜尋,幫你找到網上的遊戲攻略和技巧。就像是一個既懂遊戲、又知道去哪找答案的玩伴。

除了在虛擬世界中探索智慧體能力,谷歌還在嘗試將 Gemini 2.0 的空間推理能力應用於機器人技術,幫助智慧體在現實世界中提供幫助,不過目前仍處於早期階段。

參考連結:
https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/?utm_source=deepmind.google&utm_medium=referral&utm_campaign=gdm&utm_content=
https://developers.googleblog.com/en/the-next-chapter-of-the-gemini-era-for-developers/
https://x.com/simonw/status/1866942603020910866

相關文章