谷歌釋出 Android XR 整合 Gemini 語音對話；Voice Agent 平臺 Vapi 獲 2000 萬美元融資

開發者朋友們大家好：

這裡是 「RTE 開發者日報」 ，每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE（Real-Time Engagement）領域內「有話題的新聞」、「有態度的觀點」、「有意思的資料」、「有思考的文章」、「有看點的會議」，但內容僅代表編輯的個人觀點，歡迎大家留言、跟帖、討論。

本期編輯：@SSN，@ 鮑勃

01 有話題的新聞

1、Freestyler: 伴奏同步的說唱合成模型

歌唱是人類文化不可或缺的一部分，體現著人類的創造力。說唱（Rap）是歌唱各類流派中最具特色的一種。從本質上講，說唱的核心特點在於其強烈的節奏和風格，這使其與其他流派有著明顯的區別。說唱歌手通常會快速且有力地唱出歌詞段落，與伴奏節拍緊密同步，營造出一種充滿活力且動感十足的聽覺體驗。如何生成自然的說唱是一個極具價值的研究方向。

最近，西工大音訊語音與語言處理研究組（ASLP@NPU）與微軟、CUHK-Shenzhen 合作的論文「Drop the beat！Freestyler for Accompaniment Conditioned Rapping Voice Generation」被人工智慧領域頂級會議 AAAI2025 錄用，該論文針對上述問題開展了深入研究，提出首個說唱生成模型 Freestyler，以歌詞和伴奏輸入，生成與伴奏風格節奏匹配的說唱；同時開源了首個說唱資料集 RapBank。

論文原文：https://arxiv.org/abs/2408.15474@ 音訊語音與語言處理研究組）（

2、Google 釋出了「虛擬現實」版 Android，想讓你把熟悉的應用「戴在頭上」

谷歌日前正式釋出了用於頭顯和眼鏡裝置的作業系統 Android XR。這家公司將其定位為一個全面的空間計算平臺，並希望在 XR 領域與 Meta 和蘋果展開競爭。

如名字所示，這個基於 Android 的系統主要面向 XR 裝置，並支援所有的平面 Android 應用。

谷歌表示，目前 Play Store 的 Android 應用將預設支援 Android XR，除非開發者選擇退出。這意味著相關裝置從第一天開始就擁有了一個龐大的現有平面應用庫，包括谷歌的第一方應用，如 Chrome、Gmail、Calendar 和 Drive 等。實際上，谷歌自家的應用已經更新並實現了所謂的「空間化」。

就功能而言，這與蘋果的 visionOS 非常相似，但帶有 Android 的味道。

Android XR 的顯著區別在於它的人工智慧整合。Gemini 內建，但遠遠超出了聊天代理。Android XR 的 Gemini 可圍繞你在現實世界和虛擬世界中看到的一切進行自由形式的語音對話。

蘋果為 visionOS 帶來了 Siri，但並不能感知頭顯內外的檢視。Meta Horizon 作業系統有一個實驗性的 AI，可以支援現實世界檢視，但不支援虛擬世界的檢視。Gemini 可同時考慮真實和虛擬內容，所以你會感覺體驗更加無縫，更為有用。

另外，Android XR 不僅支援頭顯，同時支援智慧眼鏡。谷歌預計，Android XR 智慧眼鏡將很快成為智慧手機的外接螢幕工具。

Gemini 是 Android XR 計劃的核心，而一個關鍵載體是緊湊型眼鏡。它可以在普通眼鏡形態的基礎之上提供平視顯示和與 AI 對話時的音訊反饋。與頭顯相似，相關的智慧眼鏡幾乎肯定會配備攝像頭，它會與十年前的 Google Glass 十分相像，但更時尚、更智慧。

儘管目前尚沒有針對 Android XR 的具體智慧眼鏡產品，但谷歌和三星一直在合作開發一款名為「Project Moohan」的 MR 頭顯，並計劃於明年向消費者推出。

在開發方面，谷歌支援廣泛的開發途徑。對於使用 Android Studio 的開發者來說，新的 Jetpack XR SDK 擴充套件了相關的工作流程，以幫助開發者建立現有平面應用的空間版本。這包括一個新的 Android XR 模擬器，無需頭顯即可測試 Android XR 應用程式。Unity 同時提供了一個全新的 Android XR 擴充套件，以及 WebXR 和 OpenXR 得到支援。

谷歌同時表示，將透過供應商擴充套件為 OpenXR 帶來新的功能，包括：

人工智慧驅動的手形網格，從而適應不同手形和大小
詳細的深度紋理，允許真實世界的物件遮擋虛擬內容
複雜的光估計，以匹配現實世界的照明條件
新的可追蹤裝置，可允許你把現實世界的物品，如膝上型電腦、手機、鍵盤和滑鼠帶入虛擬環境

值得一提的是，谷歌將在 2025 年舉辦一個 Android XR 開發者訓練營，感興趣的開發者可以訪問頁面進行申請。（@ 映維網）

3、Voice Agent 框架 TEN 已經支援 Gemini Multimodal Live API

TEN 是一個開源的 Voice Agent 框架，用於輕鬆地構建具有語音對話、視覺理解能力、工具呼叫等能力的對話式 AI。

Gemini Multimodal Live API 釋出後 24 小時內，TEN 團隊迅速整合了 Live API。Live API 憑藉超低延遲、高階多模態功能和卓越的靈活性引領潮流。

此外，透過使用目前免費的 API 金鑰，你可以無縫地將其與 TEN 內部提供的 35+ 擴充套件整合，打造你自己的專屬應用場景。

瞭解 TEN：
https://github.com/TEN-framework/TEN-Agent

02 有亮點的產品

1、ChatGPT 推出視訊通話和螢幕共享功能

「OpenAI 12 天」活動已進入第六天，OpenAI 公司宣佈為 ChatGPT 的高階語音模式帶來影片輸入和螢幕共享功能，併為迎接聖誕節，限時推出全新的聖誕老人模式。

OpenAI 公司表示未來幾天時間內，會向大多數 ChatGPT Plus 和 Pro 使用者以及所有 Team 使用者，推出影片和螢幕共享。該聊天機器人的企業和教育使用者將在 1 月份獲得影片和螢幕共享功能。

ChatGPT 的高階語音模式現在可以透過智慧手機攝像頭支援影片聊天，並透過螢幕共享來識別裝置螢幕顯示的物體。

使用者可以透過以下步驟使用：

在手機上開啟 ChatGPT 應用
點選聊天欄附近的語音圖示
點選左下角的影片圖示即可啟用影片輸入
或者點選三個點的選單，選擇「共享螢幕」進行螢幕共享（@IT 之家）

2、Midjourney 推出多人協作的世界構建工具「Patchwork」支援 100 人同一畫布操作

Midjourney 是一家備受歡迎的 AI 影像生成初創公司，擁有超過 2100 萬名 Discord 使用者。近日，該公司宣佈將推出一款新的世界構建工具「Patchwork」，標誌著他們從影像創作擴充套件到更復雜的創意合作領域。

「Patchwork」在 Midjourney 的 Discord 頻道透過直播展示，使用者需要將他們的 Midjourney Discord 帳戶連線到他們的 Google 帳戶才能訪問 Patchwork 的研究預覽。

該工具提供一個白色的無限畫布，使用者可以使用工具箱中的各種按鈕來新增角色、事件、派系、地點、道具等元素。使用者可以透過「儲存」功能下載 JSON 檔案，包含在畫布上生成的所有 Midjourney 影像的連結。

要生成新世界，使用者需要在「create」螢幕頂部的編輯器欄中輸入文字提示，然後從一組 10 種不同的影像樣式中選擇一種或多種。這會生成一個新的白板，其中包含一堆新的靜止影像資產和文字框或實體（稱為「碎片」），包括允許使用者提示符合初始世界描述的新影像或設定的輸入框，甚至是全新的 AI 生成的角色描述。

可以新增新的角色框，然後使用者可以提示建立名稱和特徵。同時，使用者可以在角色之間建立連線，並撰寫動作序列和場景描述。

共享功能允許多個使用者實時協作，一個世界最多可支援 100 名使用者在同一畫布上操作，不過使用者越多，畫布上的協作可能會越混亂。

在未來的更新中，Midjourney 計劃允許非使用者檢視這些創作板，以便更多的創意團體能夠使用這一工具。Midjourney 的 V7 版本也將推出，支援角色在不同影像中的一致性。此外，Kreminski 提到，Patchwork 的背後有三個大型語言模型在運作，包括一個專為 Midjourney 定製的開源模型。（@AIbase 基地）

3、AI 語音智慧體平臺 Vapi 完成 2000 萬美元 A 輪融資，BVP 和 YC 等投資，估值達 1.3 億美元

AI 語音智慧體初創公司 Vapi（前身為 Superpowered Labs）今日宣佈完成 2000 萬美元 A 輪融資，由 Bessemer Venture Partners 領投，Abstract Ventures、AI Grant、Y Combinator、Saga Ventures 和 Michael Ovitz 參投。據知情人士透露，本輪融資後公司估值達 1.3 億美元。

Vapi 成立於 2023 年，專注於為開發者提供 AI 驅動的語音 Agent 部署平臺。其核心產品提供靈活的 API 介面，支援定製化對話流程，並可與 CRM 和電子健康記錄等現有系統無縫整合。平臺採用基於 Kubernetes 的架構和私有網際網路骨幹網，能夠同時處理數百萬併發通話，確保實時自然的對話體驗。

值得注意的是，Vapi 在成立僅六個月內就實現了數百萬美元的營收。目前，Y Combinator、Deepgram、Speaksage、Luma Health 和 Playn Voice 等知名企業已成為其客戶。平臺支援 iOS、Flutter、React Native 和 Web 應用程式的整合，並提供功能呼叫能力，使語音 Agent 能夠執行預約和實時資料檢索等任務。(@Saasverse)

4、Cartesia 融資 2700 萬美元，用於構建下一代實時 AI 模型

Cartesia 公司今天宣佈獲得由 Index Ventures 領投的 2200 萬美元新融資，其開創性的狀態空間模型（SSM）正在引領生成式人工智慧的下一波創新浪潮，總融資額達到 2700 萬美元。這筆新資金將使 Cartesia 能夠擴充套件並加速其在任何裝置上構建實時、多模態智慧的使命。

Cartesia 的創始團隊由一群傑出的史丹佛大學研究人員組成，其中包括 Goel、他的前實驗室同事 Albert Gu（被《時代》雜誌評選為人工智慧領域 100 位最具影響力人物之一）、Arjun Desai 和 Brandon Yang，以及他們的前教授 Chris Ré。該團隊因其開發的 SSM 而享譽全球，位於一個充滿才華的博士和學術合作伙伴的豐富生態系統中心，特別是 Ré 的史丹佛實驗室近年來一直是多個數十億美元創業公司的溫床，如 SambaNova、Snorkel AI 和 Together AI。他們還匯聚了一支多元化且經驗豐富的產品團隊，成員來自 DoorDash、Salesforce、Meta、Scale AI、Microsoft、Google Brain 和 Zoom 等知名公司，確保 Cartesia 能為各行業的企業帶來實實在在的價值。

Cartesia 的 SSM 架構在效能上明顯優於傳統的 Transformer 模型，因為它能夠與序列長度線性擴充套件，實現高效、低成本的推理。儘管 Transformer 模型徹底改變了人工智慧的格局，並支援了我們今天所見的眾多應用，但它們在上下文長度上的二次方擴充套件限制了推理速度。相較之下，Cartesia 的模型高效且具備更好的長期記憶和更低的延遲，同時能夠在任何裝置上本地執行。與 Transformer 需要關注每一個過去的標記不同，SSM 在標記流入時會動態更新模型狀態並丟棄之前的標記，這使其成為實時推理的理想選擇。Cartesia 創始團隊廣為引用的 Mamba 架構證明，SSM 已能以更少的資源匹配 Transformer 的效能，為開發人員提供了一種更高效、經濟的實時人工智慧應用開發方案。

2024 年 5 月，Cartesia 釋出了 Sonic，這是一款低延遲語音模型，能夠生成富有表現力、逼真的語音，展示了其 SSM 架構在實時 AI 應用中的強大功能。除了是速度最快的文字轉語音模型（首個音訊延遲<90 毫秒）之外，在第三方評估機構（如 Labelbox）進行的盲測中，Sonic 在語音質量、穩定性和準確性方面均優於市場上現有的最佳模型。

Cartesia 計劃在其 Sonic 成功的基礎上，制定一項長期路線圖，其中包括開發能夠攝取和處理不同輸入（例如文字、音訊、影片、影像和時間序列資料）的多模態 AI 模型，目標是建立能夠在廣泛應用中跨越海量上下文進行推理的實時智慧。透過構建具有長期記憶和低延遲的下一代基礎模型，Cartesia 旨在改變從醫療保健到機器人技術再到遊戲的各個行業，為任何人在任何裝置上都能使用的無處不在的、互動式的和實時的 AI 鋪平道路。(@PRWEB)

03 有態度的觀點

1、Discord 創始人：AI 會大大降低創作出好內容的成本

近期，Discord 創始人&CEO Jason Citron ，接受了著名播客 20VC 的訪談。在訪談中，Jason Citron 表示，Discord 的故事說明了「打造好產品，使用者就會來」並不總是奏效。而 Discord 使用者增長的突破點在於，邀請人們對應用提出反饋，而不是像在推銷產品一樣讓他們嘗試。

當時，Discord 的工作人員在 Reddit 的一篇貼子裡，發了一個 Discord 伺服器的連結。使用者在看到帖子後，點進了 Discord ，然後和工作人員交流，適用產品。Jason Citron 說，「那天我們透過這個帖子獲得了 50 個使用者，第二天，這 50 個使用者變成了 100 個，然後開始滾雪球式增長。」

當被問到「AI 如何改變遊戲創意」時，Jason Citron 表示，「我認為 AI 會大大降低創作出好內容的成本」。

他認為，以後像《艾爾登法環》這樣的遊戲，可能只需要 20 人，而不是 300 人來完成。AI 還會使得一些個人開發者或獨立創作者能夠製作出今天他們無法做到的遊戲，因為現在他們會面臨制作週期太長和技術限制的問題。總之，「以後我們會看到更多更小型、更高質量的遊戲。」(@APPSO)

更多 Voice Agent 學習筆記：

市場規模超 60 億美元，語音如何改變對話式 AI？

2024 語音模型前沿研究整理，Voice Agent 開發者必讀

從開發者工具轉型 AI 呼叫中心，這家 Voice Agent 公司已服務 100+ 客戶

WebRTC 建立者剛加入了 OpenAI，他是如何思考語音 AI 的未來？

人類級別語音 AI 路線圖丨 Voice Agent 學習筆記

語音 AI 革命：未來，消費者更可能傾向於與 AI 溝通，而非人工客服

語音 AI 迎來爆發期，也仍然隱藏著被低估的機會丨 RTE2024 音訊技術和 Voice AI 專場

下一代 AI 陪伴 | 平等關係、長久記憶與情境共享 | 播客《編碼人聲》

Voice-first，閉關做一款語音產品的思考｜社群來稿

寫在最後：

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創，感興趣的朋友請透過開發者社群或公眾號留言聯絡，記得報暗號「共創」。

對於任何反饋（包括但不限於內容上、形式上）我們不勝感激、並有小驚喜回饋，例如你希望從日報中看到哪些內容；自己推薦的信源、專案、話題、活動等；或者列舉幾個你喜歡看、平時常看的內容渠道；內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

谷歌釋出 Android XR 整合 Gemini 語音對話；Voice Agent 平臺 Vapi 獲 2000 萬美元融資

01 有話題的新聞

02 有亮點的產品

03 有態度的觀點

相關文章