Kyutai 釋出實時同傳語音模型 Hibiki,可在 iPhone 執行;清華、東大等釋出音訊生成動作模型 EMAGE
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@qqq,@ 鮑勃
01 有話題的技術
1、清華、東大等釋出 EMAGE:音訊自動生成動作豐富的影片
東京大學、清華大學、慶應義塾大學等研究人員聯合開發了創新模型——EMAGE。
EMAGE 可以根據音訊自動生成連貫、逼真、一致的全身動作、面部表情和手部動作的共語手勢影片。例如,上傳一段歌曲或者旁白的音訊,就能生成一個帶豐富動作的影片。這可以幫助數字人等應用生成更精準的動作手勢和表情。
此外,研究人員還發布了目前最大的「共語手勢」資料集 BEAT2。該資料集整合了 SMPLX 人體模型和 FLAME 面部模型,將原始的動作、面部捕捉資料轉換為高質量的全身三維網格序列,總時長超過 60 小時。
EMAGE 主要透過遮罩手勢重建特徵以增強人體提示編碼能力,並與音訊特徵相結合,生成面部表情、手部動作和身體動作一致的共語手勢。
(@ AIGC 開放社群)
2、Kyutai 釋出實時同聲傳譯語音模型 Hibiki,小模型版本可在 iPhone 執行
Kyutai 推出了一款先進的實時同聲傳譯語音模型——Hibiki,旨在提供接近人類同聲傳譯的效果。該模型能夠同時輸出語音和文字翻譯,保留說話者的聲音特徵,並自動調整語速以適應源語言的語義內容。目前,Hibiki 支援法語到英語的實時翻譯。
Hibiki 的「小模型」版本——Hibiki-M,甚至能夠在裝置上實時執行,且具備 17 億引數,是完整模型的蒸餾版本。Hibiki-M 能夠在 iPhone 16 Pro 上執行超過一分鐘,顯示出其強大的實時處理能力。
Hibiki 基於 Moshi 的多流音訊 - 文字語言模型(LM)構建,能夠同時處理源語言和目標語言的語音,類似於 Moshi 處理對話的方式。此外,Moshi 的「內心獨白」(Inner Monologue)功能幫助改善口語翻譯,提供了更加流暢的實時同聲傳譯體驗。(@ kyutai@X)
3、RIME 釋出 TTS 模型重大更新 Mist v2
RIME 興奮地宣佈其旗艦 TTS 模型的重大更新——Mist v2,具備以下特點:
增強的真實感和對話韻律
多語言,從西班牙語開始
高度直觀的發音控制
低延遲 + 本地部署(70 毫秒)
更多聲音多樣性
該技術目前已為每月數百萬次互動提供支援,且使用者增長迅速。(@ lily clifford@X)
02 有亮點的產品
1、ChatGPT :公開 o3 思維鏈,但不完整
DeepSeek 帶來的壓力已經傳遞給了每一個科技公司。最近一段時間,很多生成式 AI 產品正在加速更新技術。
今天凌晨,OpenAI 為 ChatGPT 上線了多項更新,其中之一是讓使用者可以更詳細地檢視 o3-mini、o3-mini-high 的思維鏈內容。
但遺憾的是,ChatGPT 向使用者展示的並非完整的思維鏈,而是經過總結的版本(而且這個總結版有時候還是錯誤的)。
相較之下,今年 1 月份推出的 DeepSeek R1 可以展示其完整的思維過程。在 AI 社群的很多人看來,展示完整的思維鏈不僅有助於科學研究,而且在很多時候也能為使用者創造更好的使用體驗,幫助使用者引導模型的思考過程,從而得到滿意的結果。
科技媒體 TechCrunch 從 OpenAI 獲悉,為 o3-mini 更新思維鏈的目的是「讓人們更容易理解模型的思維方式。透過此更新,你將能夠跟蹤模型的推理,從而更清晰、更有信心地理解其響應。」
而 OpenAI 之所以選擇展示總結版本,而不是完整的思維鏈,部分原因是競爭。該公司表示其找到了一個平衡:o3-mini 可以「自由思考」,然後將其「思維」組織成某個總結版本。(@ 機器之心)
2、Mistral AI 推出全新聊天機器人應用「Le Chat」:基礎版免費
Mistral AI 近日在蘋果 App Store 上架了一款全新的聊天機器人應用「Le Chat」。這款應用的推出讓使用者能夠更加方便地進行自然語言對話、實時網頁搜尋、文件分析以及影像生成等多種功能。
目前,使用者可以免費下載基礎版,享受基本的聊天功能;此外,使用者也可以選擇每月 14.99 美元的 Pro 訂閱,體驗更為專業的模型。
Mistral AI 是一家總部位於法國的人工智慧公司,由多位曾在谷歌和 Meta 工作的工程師共同創辦。該公司專注於開發開源的大型語言模型,而「Le Chat」則是其推出的一款獨立應用,旨在為使用者提供便捷的 AI 聊天體驗。之前,「Le Chat」已在網頁上開放使用,而此次上線的移動應用則是基於瀏覽器的客戶端,暫時只支援 iPhone 和 iPad,不支援 macOS 系統。
「Le Chat」應用的功能設計十分實用,使用者可以利用該應用進行自然語言的交流,AI 能夠理解並生成相關的回應。此外,應用還支援實時網頁搜尋,讓使用者能夠迅速獲取所需資訊。文件分析功能則幫助使用者更好地處理和理解各種文件內容,而影像生成能力則為使用者帶來了全新的視覺體驗。(@ AIbase 基地)
3、AI Chat-avatar:一款多模態智慧對話助手
(圖片來源:Product Hunt)
AI Chat-avatar 是 Pitch Avatar 推出的對話式人工智慧助手,定位於需要提升客戶互動效率的 B2B 企業,主要服務於銷售團隊、客戶成功部門及培訓機構。其核心價值在於透過角色化行為引擎,使虛擬助手能自動適配銷售代表、客戶經理等不同崗位的溝通策略,解決傳統客戶互動中個性化不足、響應滯後等痛點。產品差異化體現在多模態互動能力,支援在對話中實時呼叫幻燈片、圖片、影片等動態內容,結合 5 種預置角色模板快速部署。功能亮點包括基於崗位自動調整話術、相容 6 種檔案格式以及對透過主動提問推進業務流程。體驗設計強調低程式碼配置,提供實時會話分析看板與話術最佳化建議。(@ Z Potentials)
4、Stella AI :整合於即時通訊工具的智慧行政助理
(圖片來源:Product Hunt)
Stella AI 是一款面向個人使用者和中小企業的智慧生產力工具,透過與 WhatsApp 和 iMessage 的深度整合,將複雜的行政任務簡化為自然語言對話。產品定位於需要高效時間管理但缺乏專職行政團隊的創業者、自由職業者和職場人士,核心價值在於透過 AI 技術將日程安排、郵件處理、待辦管理等高頻任務轉化為即時通訊場景中的對話式操作。Stella AI 解決了傳統效率工具使用門檻高、多平臺切換繁瑣等痛點,為使用者提供一站式的行政事務管理解決方案。在功能設計上,Stella AI 突出了智慧日程管理和多語言支援兩大特點。智慧日程管理系統能自動識別時間衝突並提供調整建議,大幅提升使用者的時間管理效率。多語言支援(覆蓋 50+ 種語言)則滿足了國際化團隊的溝通需求。
產品的差異化優勢主要體現在其原生嵌入即時通訊工具的互動模式,透過對話式指令互動顯著降低了使用者的操作複雜度。(@ Z Potentials)
03 有態度的觀點
1、木頭姐:DeepSeek 只是加速了降本程序;堪比大蕭條時期的極端集中市場格局將改變
(圖片來源:Bloomberg Television)
木頭姐(Cathie Wood)在發言中提到,專注於 AI 推理的公司,例如雲端計算服務提供商、邊緣計算公司以及 AI 應用企業,可能將迎來強勁的市場需求增長。她還強調,未來的監管措施將逐步放寬,尤其是 AI 領域的監管。她認為,比特幣和區塊鏈技術正在成為金融服務行業重大革命的核心,同時比特幣正逐步融入全球貨幣體系。
木頭姐指出,未來最強勁的牛市應當是廣泛覆蓋各個行業的市場,而不僅僅由少數幾隻股票主導。她認為這一趨勢與「成本正在大幅下降」這一觀點相符。她進一步解釋,成本本就處於下降軌道,而 DeepSeek 則加速了這一程序。(@ Z Potentials)
更多 Voice Agent 學習筆記:
2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布
對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點
這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢
語音即入口:AI 語音互動如何重塑下一代智慧應用
Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……
幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記
市場規模超 60 億美元,語音如何改變對話式 AI?
2024 語音模型前沿研究整理,Voice Agent 開發者必讀
從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶
WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- 智譜釋出端到端多模態模型 GLM-Realtime,2 分鐘記憶能力;訊飛星火同傳語音大模型釋出,5 秒時延大模型
- 通義釋出語音模型 MinMo:全雙工、多口音;MiniCPM-o :端側 GPT-4o 級視覺、語音、多模態實時流式大模型GPT視覺大模型
- gpt-4o-audio-preview 釋出,支援 STT/TTS 不含實時音訊;Ministral 3B/8B 端側模型釋出GPTViewTTS音訊模型
- 位元組音樂大模型炸場!Seed-Music釋出,支援一鍵生成高質量歌曲、片段編輯等大模型
- 小林同學智慧AI大模型語音助手AI大模型
- OpenAI Realtime API 升級,整合 WebRTC 且降價 60%;豆包釋出視覺理解模型,實時語音模型也將上線OpenAIAPIWeb視覺模型
- 大模型Grok-1.5釋出大模型
- 復旦等釋出AnyGPT:任意模態輸入輸出,影像、音樂、文字、語音都支援GPT
- 【重磅】華為雲盤古大模型5.0,正式釋出!大模型
- 近期大模型AIGC概要:Adobe釋出AI編輯影片等大模型AIGC
- 深度解析RAG大模型知識衝突,清華西湖大學港中文聯合釋出大模型
- 首個實時 AI 影片生成技術釋出;科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報AI大模型開發者日報
- 語音合成領域的首個完全端到端模型,百度提出並行音訊波形生成模型ClariNet模型並行音訊
- WebRTC 作者加入 OpenAI 主導實時 AI 專案;TTS 小模型 OuteTTS v0.2 釋出:聲音克隆 + 多語言WebOpenAITTS模型
- WebRTC 作者加入 OpenAI 主導實時 AI 專案;TTS 小模型 OuteTTS v0.2 釋出:聲音克隆+多語言WebOpenAITTS模型
- Istio 1.1釋出,中文文件同時釋出
- Pornhub:iPhone XS釋出時“動作片”觀看人數暴減iPhone
- 抖音一鍵釋出工具,一鍵釋出抖音影片
- 小愛同學語音模型評測 - 董沐模型
- Mistral 釋出 Large 2 123B 大模型;微軟釋出 VALL-E 2,零樣本實現聲音克隆丨 RTE 開發者日報大模型微軟開發者日報
- Python 潮流週刊#54:ChatTTS 強大的文字生成語音模型PythonTTS模型
- 語音識別模型模型
- 融入語音互動技術,搜狗地圖釋出智慧副駕地圖
- 火山引擎釋出大模型訓練影片預處理方案,已應用於豆包影片生成模型大模型
- 重磅:谷歌釋出最強大AI模型【Google Gemini】谷歌AI模型Go
- 語音生成模型 PlayDialog:可生成對話播客、旁白;小米 AI 眼鏡將於明年 Q2 釋出丨 RTE 開發者日報模型AI開發者日報
- 谷歌釋出人體影像分割工具BodyPix 2.0,可在iPhone上流暢執行谷歌iPhone
- CosyVoice: 多語言大規模語音生成模型的全棧解決方案模型全棧
- 清華、華為等提出iVideoGPT:專攻互動式世界模型IDEGPT世界模型
- uniGUI釋出時執行時包的處理GUI
- GPT-SoVITS語音合成模型實踐GPT模型
- 火山引擎釋出豆包大模型文旅解決方案大模型
- M5Stack 釋出全雙工通訊語音識別硬體;雷蛇釋出 AI 遊戲伴侶 Project AVA,實時指導覆盤AI遊戲Project
- 微軟 Azure 推出文字到語音虛擬人;英偉達釋出 8B 小語言模型,可在 RTX 工作站部署丨 RTE 開發者日報微軟模型開發者日報
- 長文字、語音、視覺、結構化資料全覆蓋,中國移動九天善智多模態大模型震撼釋出視覺大模型
- 基於函式計算部署GPT-Sovits語音生成模型實現AI克隆聲音函式GPT模型AI
- 校園資訊釋出平臺(清遠大學城)
- 音樂ChatGPT時刻來臨!「天工SkyMusic」音樂大模型今日啟動邀測ChatGPT大模型
- 阿里釋出革新的音訊多模態模型 Qwen2-Audio;月之暗面回應大模型顯示「9.11 大於 9.9」丨 RTE 開發者日報阿里音訊大模型開發者日報