阿里通義實驗室語音團隊負責人鄢志傑離職;蘋果計劃在 AirPods 上配備實時對話翻譯功能丨日報

RTE开发者社区發表於2025-03-14

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 技術 」、「有亮點的 產品 」、「有思考的 文章 」、「有態度的 觀點 」、「有看點的 活動 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@qqq、@ 鮑勃

01 有話題的技術

1、Google Gemini 2.0 Flash 引入原生影像生成功能

昨日,Google 發文宣佈,Google Gemini 2.0 Flash 正式引入原生影像生成功能。據官方介紹,Gemini 2.0 Flash 結合多模態輸入、增強版推理以及自然語言理解來進行影像生成。Gemini 2.0 Flash 支援文字理解並生成影像,並能夠理解上下文保持角色和影像場景的一致性;同時 Gemini 2.0 Flash 還支援自然語言對話的理解,以及利用現實世界的內容和增強版推理來生成影像,Google 官方指出,這對繪製食譜等精準類的內容將會有很大幫助。

值得關注的是,Gemini 2.0 Flash 能夠對長文字進行精準繪製。從官方釋出的樣張顯示,Gemini 2.0 Flash 能夠準確生成出正確的文字內容,減少生成出扭曲的「抽象」字型。

但據網友實測,目前 Gemini 2.0 Flash 對於過長的提示詞文字依然沒有能力處理好。Gemini 團隊的研究員 Kaushik Shivakumar 也現身回覆上述情況稱,未來團隊將會改進,目前如果需要輸入較長的提示詞,建議先讓模型以文字形式思考,從而更好地生成影像。目前,Google 已將上述功能提供給 Google AI Studio 的開發者,開發者可以透過 Gemini API 進行體驗測試。(@APPSO)

2、Sesame Labs 釋出了 CSM(對話語音模型)採用 Apache 2.0 許可協議

Sesame Labs 釋出了 CSM(對話語音模型),採用 Apache 2.0 許可協議。該模型基於 100 萬小時資料訓練,具備情境感知和情感智慧語音功能,支援語音克隆和水印技術,並能實現超快速、實時語音合成。模型架構基於 llama,並使用類似 Mimi 的解碼器。權重檔案已在 HF Model Hub 上提供。

Sesame 近日釋出了超真實的 AI 語音產品的 demo,核心目標是創造一種數字伴侶,不僅僅是處理請求的工具,而是能夠進行真實對話的夥伴。為此,Sesame 團隊專注於幾個關鍵的組成部分,包括情感智慧、對話動態、上下文意識和一致的人格特徵。(@Vaibhav (VB) Srivastav@X)

3、Google 推出新 AI 模型,Gemini Robotics 可實現多硬體機器人語音操控

(圖片來源:Google)

Google DeepMind,谷歌的人工智慧研究實驗室,於 3 月 12 日宣佈推出名為 Gemini Robotics 的新 AI 模型,旨在使現實世界的機器能夠與物體互動、導航環境等。

DeepMind 釋出了一系列演示影片,展示了配備 Gemini Robotics 的機器人根據語音指令執行摺疊紙張、將眼鏡放入眼鏡盒等任務。

據實驗室介紹,Gemini Robotics 經過訓練,能夠在一系列不同的機器人硬體上推廣應用,並將機器人「看到」的物品與可能採取的行動聯絡起來。

DeepMind 聲稱,在測試中,Gemini Robotics 使機器人能夠在訓練資料未涵蓋的環境中表現出色。

該實驗室已釋出了一個精簡版模型 Gemini Robotics-ER,研究人員可用來訓練自己的機器人控制模型,同時還推出了一個名為 Asimov 的基準,用於評估 AI 驅動機器人的風險。 (@Z Potentials)

4、位元組音效生成模型來了,一鍵生成大片感音效!已上線即夢

位元組跳動豆包大模型語音團隊最新提出的 SeedFoley 模型,透過端到端架構實現了影片音效的智慧生成,將 AI 影片創作帶入「有聲時代」。 相關功能「AI 音效」已在即夢上線 ,使用者使用即夢生成影片後,選擇「AI 音效」功能,即可生成 3 個專業級音效方案。

SeedFoley 是一種端到端的影片音效生成架構,透過融合時空影片特徵與擴散生成模型,實現了音效和影片的高度同步。首先,用固定的影片幀率對影片序列進行抽幀提取,然後使用一個影片編碼器提取影片的表徵資訊,並透過多層線形變換將影片表徵投射到條件空間,在改進的擴散模型框架中構建音效生成路徑。(@ 機器之心)

5、阿里通義實驗室語音團隊負責人鄢志傑離職,系達摩院十三位「掃地僧」成員

Tech 星球獨家獲悉,阿里通義實驗室語音團隊負責人鄢志傑已於近期離職,離職時間為 2 月 15 日,按照以前的 P 序列(原阿里內部職級體系)比照,其職級為 P10。

鄢志傑是智慧語音領域的技術大牛。公開資料顯示,2003 年,鄢志傑大學本科畢業,升入中科大語音實驗室,攻讀博士學位,師從語音領域專家王仁華教授(科大訊飛創始人之一,曾任科大訊飛公司董事長)。

2008 年在中國科學技術大學語音實驗室獲博士學位之後,至 2015 年在微軟亞洲研究院語音組任主管研究員。研究領域主要包括語音識別、語音合成、聲紋、語音互動、手寫及光學字元識別等。

鄢志傑曾在語音及文字識別領域頂級學術期刊及會議發表多篇論文,長期擔任語音領域頂級學術會議及期刊的專家評審,並擁有多項美國及 PCT 專利。

隨著 2023 年大模型的時代到來,鄢志傑開始擔任通義聽悟技術負責人,負責聚焦音影片內容的工作學習 AI 助手「聽悟」,這款產品也成為阿里在國內首個開放公測的大模型應用產品。2024 年,鄢志傑以通義實驗室語音團隊負責人的身份出席外界活動。(@Tech 星球)

02 有亮點的產品

1、蘋果計劃在 AirPods 上配備實時對話翻譯功能

知情人士透露,蘋果公司正在計劃推出一項新的 AirPods 功能,可以讓耳機將面對面的對話實時翻譯成另一種語言。由於事未公開而要求匿名的知情人士說,這項功能將作為今年晚些時候 AirPods 軟體升級的一部分推出,將與即將推出的蘋果移動裝置作業系統 iOS 19 捆綁在一起。(@ 新浪財經)

2、MiniMax 計劃收購 AI 影片初創公司鹿影科技

智東西 3 月 13 日訊息,據藍鯨新聞今日報導,多位知情人士稱,上海大模型獨角獸 MiniMax 將收購深圳 AI 影片生成創企鹿影科技(Avolution.ai),雙方目前已經敲定收購意向,相關流程還在持續進行。2024 年,鹿影科技在天使輪融資時的估值水平約在 1 億人民幣左右。

知情人士稱,去年以來(據相關報導應為去年 8 月左右),鹿影科技一直在持續尋求第二輪融資,但過程中並不順利,團隊本身在 AI 影片生成領域方面有一定的經驗,最終選擇和 MiniMax 合作屬於共贏。鹿影科技成立於 2023 年 9 月,從事 AI 影片生成技術的研發,他們採用基於自研的 LCM 視覺模型打造 AI 影片生成創作平臺 YoYo,主要面向二次元創作者,提供了文生影片與圖生影片兩種選擇。(@ 智東西)

3、YC 孵化的公司 Vogent 利用強化學習改善語音通話

YC 孵化的公司 Vogent 利用強化學習改善語音通話: 自我設計和改進的 AI 代理,從真實失敗案例中學習,無需提示工程。不再需要數百次提示迭代,或浪費 GPU(和人力)時間在無效的微調上。

他們利用強化學習方法,如 Deepseek 和其他研究實驗室所使用的,其語音代理能夠根據通話錄音自行設計,並透過評估每一次撥號和糾正不良行為來提升自己。( @Y Combinator)

03 有態度的觀點

1、Anthropic CEO:未來各領域都能有諾貝爾獎得主一樣聰明的模型

近日,Anthropic CEO 兼聯合創始人 Dario Amodei 在 The CEO Speaker series 論壇接受採訪,深入探討了 AI 未來方向、AI 對社會的影響,以及 AI 對未來的發展。採訪中,Dario Amodei 透露出對於 AI 的發展抱有很大的憧憬。他透過這幾年 AI 呈指數級增長分析,認為未來 AI 能夠很自然地融入人類生活中。同時 Dario Amodei 預測,如果時間再向前推進兩三年,甚至是四年,人類將擁有在各個領域都與諾貝爾獎獲得者一樣聰明的模型。「AI 是否會衝擊就業」這一問題上,Dario Amodei 認為有好有壞:一方面,他認為比較優勢仍然是一個強大的工具,並且總有 AI 無法替代人類的領域,也正因如此,AI 始終是幫助人類提升生產力的「好幫手」;另一方面,Dario Amodei 認為 AI 或將會令一部分人感到沮喪,甚至情緒陷入自身的懷疑。但 Dario Amodei 表示,人是可以多樣性的,並且成就感會遠比結果來得更加具有實在感。因此 Dario Amodei 也建議,人類在 AI 的幫助下,更應該建立一個有意義的世界,而在這個世界裡人類也許可以在 AI 的幫助下,或者與 AI 合作,並創造出真正偉大的成就。(@APPSO)

更多 Voice Agent 學習筆記:

端側 AI 時代,每臺家居裝置都可以是一個 AI Agent 丨 Voice Agent 學習筆記

世界最炙手可熱的語音 AI 公司,舉辦了一場全球駭客松,冠軍作品你可能已經看過

多模態 AI 怎麼玩?這裡有 18 個腦洞

AI 重塑宗教體驗,語音 Agent 能否成為突破點?

對話 TalktoApps 創始人:Voice AI 提高了我五倍的生產力,語音輸入是人機互動的未來

2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布

對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點

這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢

寫在最後:

我們歡迎更多的小夥伴參與 「RTE 開發者日報」 內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章