阿里通義實驗室語音團隊負責人鄢志傑離職;蘋果計劃在 AirPods 上配備實時對話翻譯功能丨日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 技術 」、「有亮點的 產品 」、「有思考的 文章 」、「有態度的 觀點 」、「有看點的 活動 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@qqq、@ 鮑勃
01 有話題的技術
1、Google Gemini 2.0 Flash 引入原生影像生成功能
昨日,Google 發文宣佈,Google Gemini 2.0 Flash 正式引入原生影像生成功能。據官方介紹,Gemini 2.0 Flash 結合多模態輸入、增強版推理以及自然語言理解來進行影像生成。Gemini 2.0 Flash 支援文字理解並生成影像,並能夠理解上下文保持角色和影像場景的一致性;同時 Gemini 2.0 Flash 還支援自然語言對話的理解,以及利用現實世界的內容和增強版推理來生成影像,Google 官方指出,這對繪製食譜等精準類的內容將會有很大幫助。
值得關注的是,Gemini 2.0 Flash 能夠對長文字進行精準繪製。從官方釋出的樣張顯示,Gemini 2.0 Flash 能夠準確生成出正確的文字內容,減少生成出扭曲的「抽象」字型。
但據網友實測,目前 Gemini 2.0 Flash 對於過長的提示詞文字依然沒有能力處理好。Gemini 團隊的研究員 Kaushik Shivakumar 也現身回覆上述情況稱,未來團隊將會改進,目前如果需要輸入較長的提示詞,建議先讓模型以文字形式思考,從而更好地生成影像。目前,Google 已將上述功能提供給 Google AI Studio 的開發者,開發者可以透過 Gemini API 進行體驗測試。(@APPSO)
2、Sesame Labs 釋出了 CSM(對話語音模型)採用 Apache 2.0 許可協議
Sesame Labs 釋出了 CSM(對話語音模型),採用 Apache 2.0 許可協議。該模型基於 100 萬小時資料訓練,具備情境感知和情感智慧語音功能,支援語音克隆和水印技術,並能實現超快速、實時語音合成。模型架構基於 llama,並使用類似 Mimi 的解碼器。權重檔案已在 HF Model Hub 上提供。
Sesame 近日釋出了超真實的 AI 語音產品的 demo,核心目標是創造一種數字伴侶,不僅僅是處理請求的工具,而是能夠進行真實對話的夥伴。為此,Sesame 團隊專注於幾個關鍵的組成部分,包括情感智慧、對話動態、上下文意識和一致的人格特徵。(@Vaibhav (VB) Srivastav@X)
3、Google 推出新 AI 模型,Gemini Robotics 可實現多硬體機器人語音操控
(圖片來源:Google)
Google DeepMind,谷歌的人工智慧研究實驗室,於 3 月 12 日宣佈推出名為 Gemini Robotics 的新 AI 模型,旨在使現實世界的機器能夠與物體互動、導航環境等。
DeepMind 釋出了一系列演示影片,展示了配備 Gemini Robotics 的機器人根據語音指令執行摺疊紙張、將眼鏡放入眼鏡盒等任務。
據實驗室介紹,Gemini Robotics 經過訓練,能夠在一系列不同的機器人硬體上推廣應用,並將機器人「看到」的物品與可能採取的行動聯絡起來。
DeepMind 聲稱,在測試中,Gemini Robotics 使機器人能夠在訓練資料未涵蓋的環境中表現出色。
該實驗室已釋出了一個精簡版模型 Gemini Robotics-ER,研究人員可用來訓練自己的機器人控制模型,同時還推出了一個名為 Asimov 的基準,用於評估 AI 驅動機器人的風險。 (@Z Potentials)
4、位元組音效生成模型來了,一鍵生成大片感音效!已上線即夢
位元組跳動豆包大模型語音團隊最新提出的 SeedFoley 模型,透過端到端架構實現了影片音效的智慧生成,將 AI 影片創作帶入「有聲時代」。 相關功能「AI 音效」已在即夢上線 ,使用者使用即夢生成影片後,選擇「AI 音效」功能,即可生成 3 個專業級音效方案。
SeedFoley 是一種端到端的影片音效生成架構,透過融合時空影片特徵與擴散生成模型,實現了音效和影片的高度同步。首先,用固定的影片幀率對影片序列進行抽幀提取,然後使用一個影片編碼器提取影片的表徵資訊,並透過多層線形變換將影片表徵投射到條件空間,在改進的擴散模型框架中構建音效生成路徑。(@ 機器之心)
5、阿里通義實驗室語音團隊負責人鄢志傑離職,系達摩院十三位「掃地僧」成員
Tech 星球獨家獲悉,阿里通義實驗室語音團隊負責人鄢志傑已於近期離職,離職時間為 2 月 15 日,按照以前的 P 序列(原阿里內部職級體系)比照,其職級為 P10。
鄢志傑是智慧語音領域的技術大牛。公開資料顯示,2003 年,鄢志傑大學本科畢業,升入中科大語音實驗室,攻讀博士學位,師從語音領域專家王仁華教授(科大訊飛創始人之一,曾任科大訊飛公司董事長)。
2008 年在中國科學技術大學語音實驗室獲博士學位之後,至 2015 年在微軟亞洲研究院語音組任主管研究員。研究領域主要包括語音識別、語音合成、聲紋、語音互動、手寫及光學字元識別等。
鄢志傑曾在語音及文字識別領域頂級學術期刊及會議發表多篇論文,長期擔任語音領域頂級學術會議及期刊的專家評審,並擁有多項美國及 PCT 專利。
隨著 2023 年大模型的時代到來,鄢志傑開始擔任通義聽悟技術負責人,負責聚焦音影片內容的工作學習 AI 助手「聽悟」,這款產品也成為阿里在國內首個開放公測的大模型應用產品。2024 年,鄢志傑以通義實驗室語音團隊負責人的身份出席外界活動。(@Tech 星球)
02 有亮點的產品
1、蘋果計劃在 AirPods 上配備實時對話翻譯功能
知情人士透露,蘋果公司正在計劃推出一項新的 AirPods 功能,可以讓耳機將面對面的對話實時翻譯成另一種語言。由於事未公開而要求匿名的知情人士說,這項功能將作為今年晚些時候 AirPods 軟體升級的一部分推出,將與即將推出的蘋果移動裝置作業系統 iOS 19 捆綁在一起。(@ 新浪財經)
2、MiniMax 計劃收購 AI 影片初創公司鹿影科技
智東西 3 月 13 日訊息,據藍鯨新聞今日報導,多位知情人士稱,上海大模型獨角獸 MiniMax 將收購深圳 AI 影片生成創企鹿影科技(Avolution.ai),雙方目前已經敲定收購意向,相關流程還在持續進行。2024 年,鹿影科技在天使輪融資時的估值水平約在 1 億人民幣左右。
知情人士稱,去年以來(據相關報導應為去年 8 月左右),鹿影科技一直在持續尋求第二輪融資,但過程中並不順利,團隊本身在 AI 影片生成領域方面有一定的經驗,最終選擇和 MiniMax 合作屬於共贏。鹿影科技成立於 2023 年 9 月,從事 AI 影片生成技術的研發,他們採用基於自研的 LCM 視覺模型打造 AI 影片生成創作平臺 YoYo,主要面向二次元創作者,提供了文生影片與圖生影片兩種選擇。(@ 智東西)
3、YC 孵化的公司 Vogent 利用強化學習改善語音通話
YC 孵化的公司 Vogent 利用強化學習改善語音通話: 自我設計和改進的 AI 代理,從真實失敗案例中學習,無需提示工程。不再需要數百次提示迭代,或浪費 GPU(和人力)時間在無效的微調上。
他們利用強化學習方法,如 Deepseek 和其他研究實驗室所使用的,其語音代理能夠根據通話錄音自行設計,並透過評估每一次撥號和糾正不良行為來提升自己。( @Y Combinator)
03 有態度的觀點
1、Anthropic CEO:未來各領域都能有諾貝爾獎得主一樣聰明的模型
近日,Anthropic CEO 兼聯合創始人 Dario Amodei 在 The CEO Speaker series 論壇接受採訪,深入探討了 AI 未來方向、AI 對社會的影響,以及 AI 對未來的發展。採訪中,Dario Amodei 透露出對於 AI 的發展抱有很大的憧憬。他透過這幾年 AI 呈指數級增長分析,認為未來 AI 能夠很自然地融入人類生活中。同時 Dario Amodei 預測,如果時間再向前推進兩三年,甚至是四年,人類將擁有在各個領域都與諾貝爾獎獲得者一樣聰明的模型。「AI 是否會衝擊就業」這一問題上,Dario Amodei 認為有好有壞:一方面,他認為比較優勢仍然是一個強大的工具,並且總有 AI 無法替代人類的領域,也正因如此,AI 始終是幫助人類提升生產力的「好幫手」;另一方面,Dario Amodei 認為 AI 或將會令一部分人感到沮喪,甚至情緒陷入自身的懷疑。但 Dario Amodei 表示,人是可以多樣性的,並且成就感會遠比結果來得更加具有實在感。因此 Dario Amodei 也建議,人類在 AI 的幫助下,更應該建立一個有意義的世界,而在這個世界裡人類也許可以在 AI 的幫助下,或者與 AI 合作,並創造出真正偉大的成就。(@APPSO)
更多 Voice Agent 學習筆記:
端側 AI 時代,每臺家居裝置都可以是一個 AI Agent 丨 Voice Agent 學習筆記
世界最炙手可熱的語音 AI 公司,舉辦了一場全球駭客松,冠軍作品你可能已經看過
多模態 AI 怎麼玩?這裡有 18 個腦洞
AI 重塑宗教體驗,語音 Agent 能否成為突破點?
對話 TalktoApps 創始人:Voice AI 提高了我五倍的生產力,語音輸入是人機互動的未來
2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布
對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點
這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢
寫在最後:
我們歡迎更多的小夥伴參與 「RTE 開發者日報」 內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- ChatGPT 支援語音實時搜尋;Meta Ray-Ban 智慧眼鏡新增影片識別與實時語音翻譯功能丨 RTE 開發者日報ChatGPT開發者日報
- Vidu 全球首發「主體參照」新功能,一鍵同步角色特徵;GPT-4o 實時音訊專案負責人離職創業丨 RTE 開發者日報特徵GPT音訊創業開發者日報
- 基於環信實現實時視訊語音通話功能
- iOS音訊程式設計之實時語音通訊(對講機功能)iOS音訊程式設計
- Anthropic 計劃為 Claude 釋出「雙向」語音模式;商湯「日日新」實時音影片對話服務開放商用丨 RTE 開發者日報模式開發者日報
- DeepL Voice:會議、對話實時語音翻譯工具;吳佳俊團隊:場景語言,智慧補全文字到 3D 的場景理解3D
- DeepSeek 即將釋出 5 個開源專案;Cartesia Voice Changer:聲音轉換、克隆和實時語音翻譯丨日報
- ChatGPT 開啟「眼睛」,實時攝像頭對話來了;崑崙萬維推出實時語音助手 Skyo 丨 RTE 開發者日報ChatGPT開發者日報
- ChatGPT 開啟「眼睛」,實時攝像頭對話來了;崑崙萬維推出實時語音助手 Skyo丨 RTE 開發者日報ChatGPT開發者日報
- 語音翻譯軟體怎麼用?怎麼實現語音的翻譯
- Grok 3 語音功能上線,「髒話冒犯」模式引熱議;Voice Agent Demo 分享:實時 AI 解說員丨日報模式AI
- 在 Unity 多人遊戲中實現語音對話Unity遊戲
- 特斯拉Autopilot自動駕駛軟體負責人離職自動駕駛
- 小米小愛團隊負責人王剛:語音互動背後,有多少人工就有多少智慧
- Ilya官宣離職,超級對齊負責人Jan直接辭職,OpenAI還是走散了OpenAI
- 中小團隊的技術負責人如何做好技術團隊建設
- Meta AR 眼鏡團隊前負責人加入 OpenAI;visionOS 2.2 Beta 引入超寬屏投屏模式丨 RTE 開發者日報OpenAI模式開發者日報
- 實驗15:職責鏈模式模式
- 谷歌:4Q19財報電話會議實錄 谷歌雲團隊計劃三年內翻三倍谷歌
- 用javascrip在瀏覽器上實現語音輸入和語義理解功能(speex壓Java瀏覽器
- 多款重磅翻譯產品落地之際,我們獨家專訪了搜狗語音負責人王硯峰
- 獨家對話阿里雲函式計算負責人不瞋:你所不知道的 Serverless阿里函式Server
- Hume 語音模型 OCTAVE:實現情感語音合成、聲音克隆和多角色對話生成;通義開源多模態說話人識別專案 3D-Speaker模型3D
- 對話阿里雲彈性計算負責人褚霸:把計算做到極致,關鍵還不加價!阿里
- 蘋果滑鼠有望加入 AI 語音控制功能;Accent Oracl :準確識別你口音的 AI 丨 RTE 開發者日報蘋果AI開發者日報
- WWDC 蘋果釋出 AI 全家桶;三星宣佈「實時翻譯」將相容第三方 App 丨 RTE 開發者日報 Vol.222蘋果AIAPP開發者日報
- 《心跳文學部 Plus!》日語本地化團隊訪談:民間翻譯團隊的轉正之路
- 快速實現語音轉文字,還自帶翻譯
- Ti-Click:通過瀏覽器快速搭建 TiDB 線上實驗室 | Ti-可立刻團隊訪談瀏覽器TiDB
- 原蘋果首任AI負責人、楊植麟導師Russ領隊Meta Agent研究,WebArena作者加盟蘋果AIWeb
- 深入瞭解蘋果iOS12新功能:語音備忘錄使用教程蘋果iOS
- Llama 4 即將釋出,引入語音能力;AI 智慧運動眼鏡 BleeqUp:實時對講、AI 自動成片等功能丨日報AI
- 前 OpenAI 首席科學家建「安全超級智慧」實驗室;Meta 重組元宇宙團隊丨 RTE 開發者日報 Vol.228OpenAI元宇宙開發者日報
- Facebook遊戲配對計劃:幫助優秀獨立、初創團隊遊戲
- 微軟預計年底實現實時語音介面;矽基智慧開源 AI 數字人互動平臺 Duix 丨 RTE 開發者日報微軟AIUI開發者日報
- 產品經理和產品負責人之間的職責是如何劃分? - Reddit
- Cartesia 升級 TTS 模型,可在音訊中無縫填充內容;索尼 AI 遊戲角色原型:結合語音與動畫,與玩家實時對話丨日報TTS模型音訊AI遊戲原型動畫
- 對話阿里雲彈性計算負責人褚霸:把計算做到極致,關鍵還加量不加價!阿里