能搜網頁、寫程式碼,還能教你打遊戲。
不僅如此,2.0 Flash 還能呼叫第三方應用和服務,比如可以使用谷歌搜尋、執行程式碼等功能。
Gemini 的 API 介面 谷歌的 AI 開發平臺:AI Studio 和 Vertex AI
不過,生成圖片和語音的功能暫時只對「早期合作伙伴」開放,要等到明年 1 月才會向所有人開放。谷歌表示,在接下來幾個月裡,會把 2.0 Flash 的各種版本整合到多個產品中,包括:
Android Studio(安卓開發工具) Chrome 開發工具 Firebase(應用開發平臺) Gemini 程式碼助手
主力模型 Gemini 2.0
今天釋出的 Gemini 2.0 Flash 的實驗版本,是 Gemini 2.0 系列的第一個模型,也是當前主力模型。
它反應速度快(低延遲),效能強大,代表了谷歌 Gemini 最頂尖的技術水平。
除了速度是「前任」的 2 倍, 支援影像、影片和音訊等多模態輸入外,2.0 Flash 現在還支援多模態輸出,比如原生生成的影像與文字混合,以及可控制的多語言文字轉語音( TTS )音訊。
總體來看,新模型在程式設計、數學和多模態處理方面都有明顯提升,特別是在程式碼生成方面的進步最為顯著。
有趣的是,在長文字理解( MRCR )這一項上,2.0 Flash ( 69.2% )反而比 1.5 Pro ( 82.6% )表現差一些,這是少數幾個沒有進步的指標之一。
圖表展示了Gemini不同版本在各項測試中的表現對比。
在對話中自然地生成影像,就像人類聊天時隨手畫個示意圖一樣自然
Project Astra:通用助手的曙光
這次,谷歌對搭載了 Gemini 2.0 的最新版本 Project Astra 進行了一系列改進:
更流暢的對話:Project Astra 現在能夠用多種語言和混合語言進行交流,對各種口音和生僻詞彙的理解也更加精準。
新工具的運用:藉助Gemini 2.0,Project Astra 能夠使用谷歌搜尋、谷歌鏡頭和谷歌地圖,使其成為你日常生活中更加得力的助手。
更強大的記憶功能:增強了 Project Astra 的記憶能力,並確保你可以控制其記憶。它現在能夠保持長達 10 分鐘的會話記憶,並能記住你過去與它進行的更多對話,從而為你提供更加個性化的服務。
更低的延遲:透過新的流媒體功能和原生音訊理解技術,智慧體能夠以接近人類對話的延遲速度理解語言。
他們正致力於將這些功能引入谷歌產品,如 Gemini app 以及眼鏡等其他形態的產品。同時,他們也開始在原型眼鏡上測試 Project Astra。
在官方演示影片中,外國小哥用一部安裝了最新測試版 Project Astra 的 Pixel 手機進行測試。
收到一封包含公寓資訊的電子郵件後,它可以告訴你公寓大門的密碼,並記住它。
Project Mariner:瀏覽器版「賈維斯」
Project Mariner 是一個基於 Gemini 2.0 構建的早期研究原型。它透過 Chrome 瀏覽器外掛,能理解你螢幕上的所有內容 —— 不管是文字、程式碼、圖片還是表單。
它的厲害之處在於,在 WebVoyager 基準測試中,Project Mariner 作為一個獨立智慧體設定,完成網頁任務的準確率達到了 83.5% ,這在目前來說是相當不錯的成績。
雖然現在可能還有點慢,準確度也不是百分之百,但這項技術正在快速進步。
比如,它只能在你當前開啟的網頁標籤裡操作,要做一些重要的事情(比如網購)時,還得先問問你同意不同意。這就像有個助手幫你辦事,但重要決定還是由你來做。
Jules:有經驗的程式設計助手
Jules 是一個懂程式設計的智慧助理,直接整合在 GitHub 工作流程中。假設你有一個程式問題需要解決,它能理解問題,制定解決方案,然後在你的指導和監督下把程式碼寫出來。
遊戲及其他領域的智慧體
谷歌 DeepMind 一直喜歡用遊戲來鍛鍊 AI 的能力,就像前幾天推出的 Genie 2 ,只要給它一張圖片,它就能創造出可以玩的 3D 世界。
現在,他們又在 Gemini 2.0 的基礎上開發了遊戲智慧體。
它特別有意思,能看懂你在玩什麼遊戲,理解遊戲畫面裡發生的事情,然後實時跟你聊天,給你建議該怎麼玩。就像有個資深玩家朋友在旁邊指點你。
除了在虛擬世界中探索智慧體能力,谷歌還在嘗試將 Gemini 2.0 的空間推理能力應用於機器人技術,幫助智慧體在現實世界中提供幫助,不過目前仍處於早期階段。
參考連結:
https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/?utm_source=deepmind.google&utm_medium=referral&utm_campaign=gdm&utm_content=
https://developers.googleblog.com/en/the-next-chapter-of-the-gemini-era-for-developers/
https://x.com/simonw/status/1866942603020910866