Gemini Live 對標 GPT-4o,谷歌 AI 手機全家桶上線。
在 GPT-4o 進 iPhone 之前,谷歌 Gemini 搶先了一步完成了手機版的落地。
週三凌晨,在人們期待 OpenAI 「草莓大模型」的時候,谷歌在 Made by Google 活動上正式釋出了 Gemini Live,以及一系列 Pixel 硬體產品。
今天的活動,谷歌充滿信心地進行了 100% 現場演示,雖然出現了一些小問題。
兩次讓手機識圖(不過用的是三星),都失敗了。
不過正如谷歌所說的,我們已經進入了「Gemini 的時代」。
在 Pixel 9 系列之後,今天釋出的一系列 Gemini AI 功能也將隨安卓 15 出現在各種 Android 手機上。
Gemini Live:對標 GPT-4o,即刻上線
Gemini Live 是谷歌針對 OpenAI 高階語音模式推出的一款產品,該功能與 ChatGPT 幾乎完全相同,之前一直處於 alpha 測試階段。
Gemini Live 提供了一種移動對話體驗,可以讓使用者和 Gemini 展開自由流暢的對話,甚至可以像在普通電話中一樣打斷或改變話題,而無需打字。
谷歌在部落格中這樣描述:你可以與 Gemini Live (透過 Gemini app)交談,並從 10 種新的自然聲音中選擇一種來回應,(而 OpenAI 僅提供 3 種聲音)。你甚至可以按照自己的節奏說話,或者在回答過程中打斷它並提出其他問題,就像在平時對話中一樣。
Gemini Live 是可以直接喚醒的,你可以在應用程式在後臺執行或手機鎖屏時繼續與 Gemini 對話,且對話可以隨時暫停和恢復。
Gemini Live 還將與多種安卓應用的功能(如 Keep)整合,從而提高 Gemini 的可用性。
今日起,谷歌開始在 Android 手機的 Gemini Advanced 使用者推出該功能,僅限英語,並將在未來幾周內擴充套件到 iOS 和更多語言版本。
不過,在現場演示中,當現場人員問到演唱會海報的相關資訊時,Gemini Live 失敗了兩次,需要演示者更換手機才能正常工作。雖然演示過程中遇到了一些問題,但最終成功了,Gemini Live 最終從圖片中提取相關資訊並連線日曆,為使用者提供了準確結果。
值得注意的是,據產品經理 Leland Rechis 介紹,谷歌不允許 Gemini Live 模仿這 10 種聲音以外的任何聲音。谷歌這樣做可能是為了避免與版權法發生衝突。此前,OpenAI 就因為使用了寡姐的聲音而被後者告到法庭。
總體而言,該功能似乎是一種比使用簡單的 Google 搜尋更自然地深入研究主題的好方法。谷歌指出,Gemini Live 是 Project Astra 邁出的一步,Project Astra 是該公司在 Google I/O 期間首次亮相的多模態 AI 模型。目前,Gemini Live 僅支援語音對話,谷歌希望在未來增加實時影片理解功能。
𝗧𝗲𝗻𝘀𝗼𝗿 𝗚𝟰晶片加持,谷歌硬體全家桶來了
在 Gemini Live 推出的同時,谷歌也推出了新一代智慧硬體裝置,比蘋果和華為更早。
今天凌晨新發布的硬體包括 Pixel 9、Pixel 9 Pro 和 Pixel 9 Pro XL,還有一款摺疊屏手機 Pixel 9 Pro Fold,它們均由全新的 Google Tensor G4 晶片提供支援,可以帶來各種生成式 AI 能力。
Pixel 9 手機採用全新外觀,將攝像頭置於正面和中心位置,改進了標誌性的攝像頭模組,提升了手感。谷歌宣稱,這些手機的耐用性是 Pixel 8 的兩倍。
這一次,Pixel Pro 機型首次提供兩種不同尺寸:Pixel 9 Pro(6.3 英寸)和 Pixel 9 Pro XL(6.8 英寸),均配備了 Super Actua 螢幕、42 MP 前置攝像頭。除了螢幕尺寸、充電速度和電池外,Pixel 9 Pro 和 Pixel 9 Pro XL 擁有相同的規格和功能。
值得注意的是,Pixel 9 手機採用谷歌全新的定製晶片 Tensor G4。這是全新一代高效能手機晶片,旨在改善日常用例,例如更快地開啟應用程式、瀏覽網頁等等。
Tensor G4 由 Google DeepMind 設計,三星代工生產,使用 Arm 架構。經過最佳化,G4 可執行最先進的人工智慧模型。它將是第一款執行多模態 Gemini Nano 模型的處理器 —— 僅在手機端側,就可以實現大模型理解文字、影像和音訊等任務。
從目前的訊息可知,Tensor G4 與前代產品相同,使用的核心是當前一代的技術 —— 這意味著它很快會在 9 月份成為落後的晶片組,名為 Mali 的靜態 GPU 核心也意味著不支援光線追蹤(支援的版本名為 Immortalis)。儘管如此,自己和自己比,相對前一代產品的效能提升還是很可觀的。
當然,作為 DeepMind 參與研發的晶片,Tensor G4 擁有不錯的 AI 算力,谷歌透露它擁有「業界領先」的每秒 45 token 輸出速度。
為了確保裝置上的 AI 體驗執行順暢,谷歌也升級了 Pixel 9 系列的記憶體,它們配備 12GB RAM,Pixel 9 Pro 和 Pixel 9 Pro XL 配備 16GB RAM。
Pixel 系列一直是谷歌技術應用的標杆,新的手機接入了 Gemini Live,且將在 8 月開賣。谷歌表示,Pixel 9 Pro、Pixel 9 Pro XL 和 Pixel 9 Pro Fold 使用者在購買手機後均可享受一年的 Gemini Advanced 訂閱。看來相比搭載 OpenAI 大模型的 iPhone 16 系列,谷歌這次做到了快人一步。
谷歌介紹了 Pixel 的一系列生成式 AI 能力。
其中,Pixel Studio 可以幫助你在手機上就能將想法轉化為影像。它由執行在 Tensor G4 上的裝置端擴散模型和雲端的 Imagen 3 文字到影像模型相結合而成。
谷歌的文生圖新模型 Imagen 3 最早是在 5 月份的 I/O 大會上釋出的。該模型在生成細節、光照、干擾等方面進行了最佳化升級,並且理解 Prompt 的能力顯著增強。隨著今天的釋出會,Google DeepMind 在 arXiv 上提交了 Imagen 3 的論文:
論文連結:https://arxiv.org/abs/2408.07009
Pixel Screenshots 可幫助你儲存、整理和回憶想要記住的重要資訊,以供日後使用。
假設你有朋友喜歡松鼠,她即將過生日。你可以在 Google Chrome 上尋找禮物,擷取松鼠襯衫、松鼠杯墊等所有松鼠相關的東西的螢幕截圖。Pixel Screenshots 將分析所有這些影像的內容,並幫你在應用中搜尋這些資訊。隨後,你只需開啟應用並搜尋「松鼠」,這些結果就會彈出。它還會包含你找到的所有內容的連結,以及正在檢視的內容的摘要和相關資訊。
人們在手機上最常做的事情之一就是檢視天氣。Pixel Weather 可以提供更加精確的天氣資訊,Gemini Nano 還會生成自定義人工智慧天氣報告,讓人們瞭解當天的天氣情況。
在所有手機都卷的拍照上,Pixel 9 增加了 AI 拍攝功能來提升出片效率。
通常,集體照中會遺漏一位指定攝影師。使用 Add Me,你就可以與在場的每個人合影,而無需攜帶三腳架或向陌生人尋求幫助。
利用重新設計的 Panorama,現在即使在弱光下也能拍攝出細節豐富的照片。這是所有智慧手機上質量最高的弱光全景圖。
此外,Google Photos 中的 Magic Editor 具有新的編輯功能,你可以拍攝出想要的照片,自動取景功能可以重新構圖,你只需輸入想要看到的內容(例如:在空曠的田野中新增野花)即可以給照片重新構圖,把想法變為現實。
大模型的智慧通話記錄現在也被整合在了安卓系統重。Clear Calling 功能進一步提高了音訊質量,新的通話記錄(Call Notes)功能會在使用者結束通話電話後立即傳送私人摘要和完整的通話記錄。因此,當你接到回電時,無需手忙腳亂地尋找紙筆進行記錄。為了保護隱私,通話記錄完全在裝置上執行。
最新的 Pixel 9 裝置是首批配備全新衛星 SOS 功能的 Android 手機,因此,即使沒有行動網路,使用者也可以透過衛星聯絡緊急救援人員並分享位置。衛星 SOS 將首先在美國的 Pixel 9 裝置上推出,無論你使用的運營商套餐是什麼。在 Pixel 上的前兩年,此功能將免費提供。
最後是定價,Pixel 9、Pixel 9 Pro 和 Pixel 9 Pro XL 均已開放預訂,起價分別為 799 美元、999 美元和 1099 美元。Pixel 9 和 Pixel 9 Pro XL 將於 8 月 22 日在 Google 商店和谷歌零售合作伙伴上市。Pixel 9 Pro 將於 9 月 4 日在美國上市,同時 Pixel 9 Pro Fold 也將在接下來的幾周內在其他市場上市。
參考內容:
https://blog.google/products/pixel/google-pixel-9-pro-xl/
https://www.androidauthority.com/google-tensor-g4-explained-3466184/