阿里通義實驗室語音團隊負責人鄢志傑離職；蘋果計劃在 AirPods 上配備實時對話翻譯功能丨日報

開發者朋友們大家好：

這裡是 「RTE 開發者日報」 ，每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE（Real-Time Engagement）領域內「有話題的技術」、「有亮點的產品」、「有思考的文章」、「有態度的觀點」、「有看點的活動」，但內容僅代表編輯的個人觀點，歡迎大家留言、跟帖、討論。

本期編輯：@qqq、@ 鮑勃

01 有話題的技術

1、Google Gemini 2.0 Flash 引入原生影像生成功能

昨日，Google 發文宣佈，Google Gemini 2.0 Flash 正式引入原生影像生成功能。據官方介紹，Gemini 2.0 Flash 結合多模態輸入、增強版推理以及自然語言理解來進行影像生成。Gemini 2.0 Flash 支援文字理解並生成影像，並能夠理解上下文保持角色和影像場景的一致性；同時 Gemini 2.0 Flash 還支援自然語言對話的理解，以及利用現實世界的內容和增強版推理來生成影像，Google 官方指出，這對繪製食譜等精準類的內容將會有很大幫助。

值得關注的是，Gemini 2.0 Flash 能夠對長文字進行精準繪製。從官方釋出的樣張顯示，Gemini 2.0 Flash 能夠準確生成出正確的文字內容，減少生成出扭曲的「抽象」字型。

但據網友實測，目前 Gemini 2.0 Flash 對於過長的提示詞文字依然沒有能力處理好。Gemini 團隊的研究員 Kaushik Shivakumar 也現身回覆上述情況稱，未來團隊將會改進，目前如果需要輸入較長的提示詞，建議先讓模型以文字形式思考，從而更好地生成影像。目前，Google 已將上述功能提供給 Google AI Studio 的開發者，開發者可以透過 Gemini API 進行體驗測試。(@APPSO)

2、Sesame Labs 釋出了 CSM（對話語音模型）採用 Apache 2.0 許可協議

Sesame Labs 釋出了 CSM（對話語音模型），採用 Apache 2.0 許可協議。該模型基於 100 萬小時資料訓練，具備情境感知和情感智慧語音功能，支援語音克隆和水印技術，並能實現超快速、實時語音合成。模型架構基於 llama，並使用類似 Mimi 的解碼器。權重檔案已在 HF Model Hub 上提供。

Sesame 近日釋出了超真實的 AI 語音產品的 demo，核心目標是創造一種數字伴侶，不僅僅是處理請求的工具，而是能夠進行真實對話的夥伴。為此，Sesame 團隊專注於幾個關鍵的組成部分，包括情感智慧、對話動態、上下文意識和一致的人格特徵。(@Vaibhav (VB) Srivastav@X)

3、Google 推出新 AI 模型，Gemini Robotics 可實現多硬體機器人語音操控

（圖片來源：Google）

Google DeepMind，谷歌的人工智慧研究實驗室，於 3 月 12 日宣佈推出名為 Gemini Robotics 的新 AI 模型，旨在使現實世界的機器能夠與物體互動、導航環境等。

DeepMind 釋出了一系列演示影片，展示了配備 Gemini Robotics 的機器人根據語音指令執行摺疊紙張、將眼鏡放入眼鏡盒等任務。

據實驗室介紹，Gemini Robotics 經過訓練，能夠在一系列不同的機器人硬體上推廣應用，並將機器人「看到」的物品與可能採取的行動聯絡起來。

DeepMind 聲稱，在測試中，Gemini Robotics 使機器人能夠在訓練資料未涵蓋的環境中表現出色。

該實驗室已釋出了一個精簡版模型 Gemini Robotics-ER，研究人員可用來訓練自己的機器人控制模型，同時還推出了一個名為 Asimov 的基準，用於評估 AI 驅動機器人的風險。 (@Z Potentials)

4、位元組音效生成模型來了，一鍵生成大片感音效！已上線即夢

位元組跳動豆包大模型語音團隊最新提出的 SeedFoley 模型，透過端到端架構實現了影片音效的智慧生成，將 AI 影片創作帶入「有聲時代」。 相關功能「AI 音效」已在即夢上線 ，使用者使用即夢生成影片後，選擇「AI 音效」功能，即可生成 3 個專業級音效方案。

SeedFoley 是一種端到端的影片音效生成架構，透過融合時空影片特徵與擴散生成模型，實現了音效和影片的高度同步。首先，用固定的影片幀率對影片序列進行抽幀提取，然後使用一個影片編碼器提取影片的表徵資訊，並透過多層線形變換將影片表徵投射到條件空間，在改進的擴散模型框架中構建音效生成路徑。（@ 機器之心）

5、阿里通義實驗室語音團隊負責人鄢志傑離職，系達摩院十三位「掃地僧」成員

Tech 星球獨家獲悉，阿里通義實驗室語音團隊負責人鄢志傑已於近期離職，離職時間為 2 月 15 日，按照以前的 P 序列（原阿里內部職級體系）比照，其職級為 P10。

鄢志傑是智慧語音領域的技術大牛。公開資料顯示，2003 年，鄢志傑大學本科畢業，升入中科大語音實驗室，攻讀博士學位，師從語音領域專家王仁華教授（科大訊飛創始人之一，曾任科大訊飛公司董事長）。

2008 年在中國科學技術大學語音實驗室獲博士學位之後，至 2015 年在微軟亞洲研究院語音組任主管研究員。研究領域主要包括語音識別、語音合成、聲紋、語音互動、手寫及光學字元識別等。

鄢志傑曾在語音及文字識別領域頂級學術期刊及會議發表多篇論文，長期擔任語音領域頂級學術會議及期刊的專家評審，並擁有多項美國及 PCT 專利。

隨著 2023 年大模型的時代到來，鄢志傑開始擔任通義聽悟技術負責人，負責聚焦音影片內容的工作學習 AI 助手「聽悟」，這款產品也成為阿里在國內首個開放公測的大模型應用產品。2024 年，鄢志傑以通義實驗室語音團隊負責人的身份出席外界活動。（@Tech 星球）

02 有亮點的產品

1、蘋果計劃在 AirPods 上配備實時對話翻譯功能

知情人士透露，蘋果公司正在計劃推出一項新的 AirPods 功能，可以讓耳機將面對面的對話實時翻譯成另一種語言。由於事未公開而要求匿名的知情人士說，這項功能將作為今年晚些時候 AirPods 軟體升級的一部分推出，將與即將推出的蘋果移動裝置作業系統 iOS 19 捆綁在一起。（@ 新浪財經）

2、MiniMax 計劃收購 AI 影片初創公司鹿影科技

智東西 3 月 13 日訊息，據藍鯨新聞今日報導，多位知情人士稱，上海大模型獨角獸 MiniMax 將收購深圳 AI 影片生成創企鹿影科技（Avolution.ai），雙方目前已經敲定收購意向，相關流程還在持續進行。2024 年，鹿影科技在天使輪融資時的估值水平約在 1 億人民幣左右。

知情人士稱，去年以來（據相關報導應為去年 8 月左右），鹿影科技一直在持續尋求第二輪融資，但過程中並不順利，團隊本身在 AI 影片生成領域方面有一定的經驗，最終選擇和 MiniMax 合作屬於共贏。鹿影科技成立於 2023 年 9 月，從事 AI 影片生成技術的研發，他們採用基於自研的 LCM 視覺模型打造 AI 影片生成創作平臺 YoYo，主要面向二次元創作者，提供了文生影片與圖生影片兩種選擇。（@ 智東西）

3、YC 孵化的公司 Vogent 利用強化學習改善語音通話

YC 孵化的公司 Vogent 利用強化學習改善語音通話： 自我設計和改進的 AI 代理，從真實失敗案例中學習，無需提示工程。不再需要數百次提示迭代，或浪費 GPU（和人力）時間在無效的微調上。

他們利用強化學習方法，如 Deepseek 和其他研究實驗室所使用的，其語音代理能夠根據通話錄音自行設計，並透過評估每一次撥號和糾正不良行為來提升自己。( @Y Combinator)

03 有態度的觀點

1、Anthropic CEO：未來各領域都能有諾貝爾獎得主一樣聰明的模型

近日，Anthropic CEO 兼聯合創始人 Dario Amodei 在 The CEO Speaker series 論壇接受採訪，深入探討了 AI 未來方向、AI 對社會的影響，以及 AI 對未來的發展。採訪中，Dario Amodei 透露出對於 AI 的發展抱有很大的憧憬。他透過這幾年 AI 呈指數級增長分析，認為未來 AI 能夠很自然地融入人類生活中。同時 Dario Amodei 預測，如果時間再向前推進兩三年，甚至是四年，人類將擁有在各個領域都與諾貝爾獎獲得者一樣聰明的模型。「AI 是否會衝擊就業」這一問題上，Dario Amodei 認為有好有壞：一方面，他認為比較優勢仍然是一個強大的工具，並且總有 AI 無法替代人類的領域，也正因如此，AI 始終是幫助人類提升生產力的「好幫手」；另一方面，Dario Amodei 認為 AI 或將會令一部分人感到沮喪，甚至情緒陷入自身的懷疑。但 Dario Amodei 表示，人是可以多樣性的，並且成就感會遠比結果來得更加具有實在感。因此 Dario Amodei 也建議，人類在 AI 的幫助下，更應該建立一個有意義的世界，而在這個世界裡人類也許可以在 AI 的幫助下，或者與 AI 合作，並創造出真正偉大的成就。(@APPSO)

更多 Voice Agent 學習筆記：

端側 AI 時代，每臺家居裝置都可以是一個 AI Agent 丨 Voice Agent 學習筆記

世界最炙手可熱的語音 AI 公司，舉辦了一場全球駭客松，冠軍作品你可能已經看過

多模態 AI 怎麼玩？這裡有 18 個腦洞

AI 重塑宗教體驗，語音 Agent 能否成為突破點？

對話 TalktoApps 創始人：Voice AI 提高了我五倍的生產力，語音輸入是人機互動的未來

2024，語音 AI 元年；2025，Voice Agent 即將爆發丨年度報告發布

對話谷歌 Project Astra 研究主管：打造通用 AI 助理，主動影片互動和全雙工對話是未來重點

這家語音 AI 公司新融資 2700 萬美元，並預測了 2025 年語音技術趨勢

寫在最後：

我們歡迎更多的小夥伴參與 「RTE 開發者日報」 內容的共創，感興趣的朋友請透過開發者社群或公眾號留言聯絡，記得報暗號「共創」。

對於任何反饋（包括但不限於內容上、形式上）我們不勝感激、並有小驚喜回饋，例如你希望從日報中看到哪些內容；自己推薦的信源、專案、話題、活動等；或者列舉幾個你喜歡看、平時常看的內容渠道；內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

阿里通義實驗室語音團隊負責人鄢志傑離職；蘋果計劃在 AirPods 上配備實時對話翻譯功能丨日報

01 有話題的技術

02 有亮點的產品

03 有態度的觀點

相關文章