Kyutai 釋出實時同傳語音模型 Hibiki,可在 iPhone 執行;清華、東大等釋出音訊生成動作模型 EMAGE

RTE开发者社区發表於2025-02-07

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@qqq,@ 鮑勃

01 有話題的技術

1、清華、東大等釋出 EMAGE:音訊自動生成動作豐富的影片
東京大學、清華大學、慶應義塾大學等研究人員聯合開發了創新模型——EMAGE。

EMAGE 可以根據音訊自動生成連貫、逼真、一致的全身動作、面部表情和手部動作的共語手勢影片。例如,上傳一段歌曲或者旁白的音訊,就能生成一個帶豐富動作的影片。這可以幫助數字人等應用生成更精準的動作手勢和表情。

此外,研究人員還發布了目前最大的「共語手勢」資料集 BEAT2。該資料集整合了 SMPLX 人體模型和 FLAME 面部模型,將原始的動作、面部捕捉資料轉換為高質量的全身三維網格序列,總時長超過 60 小時。

EMAGE 主要透過遮罩手勢重建特徵以增強人體提示編碼能力,並與音訊特徵相結合,生成面部表情、手部動作和身體動作一致的共語手勢。

(@ AIGC 開放社群)

2、Kyutai 釋出實時同聲傳譯語音模型 Hibiki,小模型版本可在 iPhone 執行

Kyutai 推出了一款先進的實時同聲傳譯語音模型——Hibiki,旨在提供接近人類同聲傳譯的效果。該模型能夠同時輸出語音和文字翻譯,保留說話者的聲音特徵,並自動調整語速以適應源語言的語義內容。目前,Hibiki 支援法語到英語的實時翻譯。

Hibiki 的「小模型」版本——Hibiki-M,甚至能夠在裝置上實時執行,且具備 17 億引數,是完整模型的蒸餾版本。Hibiki-M 能夠在 iPhone 16 Pro 上執行超過一分鐘,顯示出其強大的實時處理能力。

Hibiki 基於 Moshi 的多流音訊 - 文字語言模型(LM)構建,能夠同時處理源語言和目標語言的語音,類似於 Moshi 處理對話的方式。此外,Moshi 的「內心獨白」(Inner Monologue)功能幫助改善口語翻譯,提供了更加流暢的實時同聲傳譯體驗。(@ kyutai@X)

3、RIME 釋出 TTS 模型重大更新 Mist v2

RIME 興奮地宣佈其旗艦 TTS 模型的重大更新——Mist v2,具備以下特點:

  • 增強的真實感和對話韻律

  • 多語言,從西班牙語開始

  • 高度直觀的發音控制

  • 低延遲 + 本地部署(70 毫秒)

  • 更多聲音多樣性

該技術目前已為每月數百萬次互動提供支援,且使用者增長迅速。(@ lily clifford@X)

02 有亮點的產品

1、ChatGPT :公開 o3 思維鏈,但不完整

DeepSeek 帶來的壓力已經傳遞給了每一個科技公司。最近一段時間,很多生成式 AI 產品正在加速更新技術。

今天凌晨,OpenAI 為 ChatGPT 上線了多項更新,其中之一是讓使用者可以更詳細地檢視 o3-mini、o3-mini-high 的思維鏈內容。

但遺憾的是,ChatGPT 向使用者展示的並非完整的思維鏈,而是經過總結的版本(而且這個總結版有時候還是錯誤的)。

相較之下,今年 1 月份推出的 DeepSeek R1 可以展示其完整的思維過程。在 AI 社群的很多人看來,展示完整的思維鏈不僅有助於科學研究,而且在很多時候也能為使用者創造更好的使用體驗,幫助使用者引導模型的思考過程,從而得到滿意的結果。

科技媒體 TechCrunch 從 OpenAI 獲悉,為 o3-mini 更新思維鏈的目的是「讓人們更容易理解模型的思維方式。透過此更新,你將能夠跟蹤模型的推理,從而更清晰、更有信心地理解其響應。」

而 OpenAI 之所以選擇展示總結版本,而不是完整的思維鏈,部分原因是競爭。該公司表示其找到了一個平衡:o3-mini 可以「自由思考」,然後將其「思維」組織成某個總結版本。(@ 機器之心)

2、Mistral AI 推出全新聊天機器人應用「Le Chat」:基礎版免費

Mistral AI 近日在蘋果 App Store 上架了一款全新的聊天機器人應用「Le Chat」。這款應用的推出讓使用者能夠更加方便地進行自然語言對話、實時網頁搜尋、文件分析以及影像生成等多種功能。

目前,使用者可以免費下載基礎版,享受基本的聊天功能;此外,使用者也可以選擇每月 14.99 美元的 Pro 訂閱,體驗更為專業的模型。

Mistral AI 是一家總部位於法國的人工智慧公司,由多位曾在谷歌和 Meta 工作的工程師共同創辦。該公司專注於開發開源的大型語言模型,而「Le Chat」則是其推出的一款獨立應用,旨在為使用者提供便捷的 AI 聊天體驗。之前,「Le Chat」已在網頁上開放使用,而此次上線的移動應用則是基於瀏覽器的客戶端,暫時只支援 iPhone 和 iPad,不支援 macOS 系統。

「Le Chat」應用的功能設計十分實用,使用者可以利用該應用進行自然語言的交流,AI 能夠理解並生成相關的回應。此外,應用還支援實時網頁搜尋,讓使用者能夠迅速獲取所需資訊。文件分析功能則幫助使用者更好地處理和理解各種文件內容,而影像生成能力則為使用者帶來了全新的視覺體驗。(@ AIbase 基地)

3、AI Chat-avatar:一款多模態智慧對話助手

(圖片來源:Product Hunt)

AI Chat-avatar 是 Pitch Avatar 推出的對話式人工智慧助手,定位於需要提升客戶互動效率的 B2B 企業,主要服務於銷售團隊、客戶成功部門及培訓機構。其核心價值在於透過角色化行為引擎,使虛擬助手能自動適配銷售代表、客戶經理等不同崗位的溝通策略,解決傳統客戶互動中個性化不足、響應滯後等痛點。產品差異化體現在多模態互動能力,支援在對話中實時呼叫幻燈片、圖片、影片等動態內容,結合 5 種預置角色模板快速部署。功能亮點包括基於崗位自動調整話術、相容 6 種檔案格式以及對透過主動提問推進業務流程。體驗設計強調低程式碼配置,提供實時會話分析看板與話術最佳化建議。(@ Z Potentials)

4、Stella AI :整合於即時通訊工具的智慧行政助理

(圖片來源:Product Hunt)

Stella AI 是一款面向個人使用者和中小企業的智慧生產力工具,透過與 WhatsApp 和 iMessage 的深度整合,將複雜的行政任務簡化為自然語言對話。產品定位於需要高效時間管理但缺乏專職行政團隊的創業者、自由職業者和職場人士,核心價值在於透過 AI 技術將日程安排、郵件處理、待辦管理等高頻任務轉化為即時通訊場景中的對話式操作。Stella AI 解決了傳統效率工具使用門檻高、多平臺切換繁瑣等痛點,為使用者提供一站式的行政事務管理解決方案。在功能設計上,Stella AI 突出了智慧日程管理和多語言支援兩大特點。智慧日程管理系統能自動識別時間衝突並提供調整建議,大幅提升使用者的時間管理效率。多語言支援(覆蓋 50+ 種語言)則滿足了國際化團隊的溝通需求。

產品的差異化優勢主要體現在其原生嵌入即時通訊工具的互動模式,透過對話式指令互動顯著降低了使用者的操作複雜度。(@ Z Potentials)

03 有態度的觀點

1、木頭姐:DeepSeek 只是加速了降本程序;堪比大蕭條時期的極端集中市場格局將改變

(圖片來源:Bloomberg Television)

木頭姐(Cathie Wood)在發言中提到,專注於 AI 推理的公司,例如雲端計算服務提供商、邊緣計算公司以及 AI 應用企業,可能將迎來強勁的市場需求增長。她還強調,未來的監管措施將逐步放寬,尤其是 AI 領域的監管。她認為,比特幣和區塊鏈技術正在成為金融服務行業重大革命的核心,同時比特幣正逐步融入全球貨幣體系。

木頭姐指出,未來最強勁的牛市應當是廣泛覆蓋各個行業的市場,而不僅僅由少數幾隻股票主導。她認為這一趨勢與「成本正在大幅下降」這一觀點相符。她進一步解釋,成本本就處於下降軌道,而 DeepSeek 則加速了這一程序。(@ Z Potentials)

更多 Voice Agent 學習筆記:

2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布

對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點

這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢

語音即入口:AI 語音互動如何重塑下一代智慧應用

Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……

幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記

市場規模超 60 億美元,語音如何改變對話式 AI?

2024 語音模型前沿研究整理,Voice Agent 開發者必讀

從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶

WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章