Tavus 釋出對話輪次控制模型:能理解對話節奏和意圖;百度推出 AI 情感陪伴應用月匣,整合 MiniMax 等模型丨日報

RTE开发者社区發表於2025-03-11

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 技術 」、「有亮點的 產品 」、「有思考的 文章 」、「有態度的 觀點 」、「有看點的 活動 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@qqq、@ 鮑勃

01 有話題的技術

1、騰訊混元-TurboS:首個混合 Transformer-Mamba MoE 超大模型來了

騰訊混元團隊釋出了他們最新的力作—— Hunyuan-TurboS ,首個混合 Transformer-Mamba MoE 架構的超大模型大家都知道,傳統 Transformer 模型在處理長文字時一直面臨挑戰,O(N²)的複雜度以及 KV-Cache 問題讓長文字訓練和推理效率大打折扣。 而這次,混元-TurboS 巧妙地融合了 MambaTransformer 兩種架構的優勢:

  • Mamba 的高效長序列處理能力

  • Transformer 強大的上下文理解能力強強聯合,效果自然驚豔!官方資料顯示,Hunyuan-TurboS 在多個關鍵 benchmark 上表現出色:

  • 數學、推理、對齊 能力超越或持平 GPT-4o-0806DeepSeek-V3 以及各類開源模型。

  • 知識 能力同樣突出,在 MMLU-Pro 等專業評測中也具備競爭力

Hunyuan-TurboS 的 推理成本 相比之前的 Turbo 模型 降低了整整 7 倍 。 效能提升的同時,成本大幅下降為了進一步提升模型能力,混元團隊還對 TurboS 進行了多項 後訓練最佳化:

  • 引入 慢思考(Slow-thinking)整合 ,顯著提升了模型在數學、程式設計和推理任務上的表現。

  • 透過 精細化的指令調優 ,增強了模型的對齊性和 Agent 執行能力。

  • 進行了 英語訓練最佳化 ,從而提升模型的通用效能。
    除了模型架構和訓練最佳化,混元團隊還升級了 獎勵系統:

  • 採用 基於規則的評分和一致性驗證 ,保證模型輸出的質量和可靠性。

  • 引入 程式碼沙箱反饋 ,大幅提升模型在 STEM 領域的準確性。

  • 使用 生成式獎勵 ,最佳化模型在問答和創意性任務上的表現,並有效減少獎勵作弊現象。(@AI 寒武紀)

2、Tavus 釋出輪次控制模型 Sparrow-0:能夠理解對話節奏、意圖和節拍

Tavus 釋出了其下一代情感智慧作業系統,其中包括輪次控制模型 Sparrow-0,旨在讓 AI 對話更自然。

傳統 AI 經常在不恰當的時候打斷或停頓,導致互動體驗不佳。Sparrow-0 基於 Transformer 的輪次控制引擎,透過理解對話的節奏、意圖和節拍來解決這個問題。它不僅能檢測靜默,還能實時適應對話,確保流暢自然的交流。

Sparrow-0 的主要特點:

  • 對話感知: 透過語調、節奏和語義分析,精準判斷最佳回應時機。

  • 輪次敏感與控制: 能夠捕捉細微的語言線索,尊重停頓,靈活適應不同對話風格。

  • 時機智慧: 根據語音模式動態調整響應延遲,使 AI 對話更自然。

  • 極速響應: 響應時間小於 600 毫秒,確保實時流暢的交流。(@ 帶你學 AI)

3、RWKV 基金會正式釋出 RWKV7-G1 0.1B 推理模型,原生支援 100+ 種語言和程式碼

2025年3月10日,RWKV 基金會正式釋出 RWKV7-G1 0.1B 推理模型。這是 RWKV-7 系列的首個 Reasoning Model,具備強大的推理能力,並且 原生支援 100+ 種語言和程式碼。

儘管僅有 0.1B 引數規模,RWKV7-G1 依然能夠回答開放性和創造性問題,在多工處理上表現突出。

RWKV7-G1 系列的核心特點

💡 模型背景

RWKV7-G1(「GooseOne」)基於 World v3.5 資料集 繼續訓練 RWKV-7「Goose」World 系列。

World v3.5 資料集包含 更多小說、網頁、數學、程式碼及推理(reasoning)資料 ,總量達到 5.16T tokens 。其中,RWKV7-G1 0.1B 在訓練過程中 隨機取樣 1T tokens 進行學習。

💡 高效推理,適用於移動端和嵌入式

RWKV 團隊表示,目前 RWKV7-G1 1.5B 已可在 高通 8gen3 以 62 token/s 速度執行 ,而 0.1B 版本甚至可在 樹莓派 上流暢執行,適合移動裝置和嵌入式應用開發。(@Safphere)

02、有亮點的產品

1、蘋果新專利,允許攝像師在 Vision Pro 上新增額外的攝像頭和音訊系統

據 patentlyapple 報導,近日,美國專利局公佈了三項新的 HMD 相關專利申請。其中一項主要專利涉及一種攝像師配件,該配件允許攝像師在 Vision Pro 上新增額外的攝像頭和音訊系統,旨在提供穩定功能和增強拍攝過程中的運動。另外兩項專利涉及 Vision Pro 使用頭部運動來滾動內容,以及涉及顯示器的緩衝墊。

(圖片來源:patentlyapple)

據專利描述,頭戴式裝置可用於捕獲、建立和編輯媒體,例如,透過捕獲影像、錄製音訊等。此類捕獲和錄製操作可在使用者佩戴頭戴式裝置時執行。這可允許使用者在佩戴頭戴式裝置時透過自然移動來確定要捕獲的視野。當此類捕獲和錄製操作生成媒體時,可在回放操作中檢視該媒體。這可在相同或不同的電子裝置上完成。因此,其他人可在稍後體驗捕獲和錄製的影像和/或音訊。
當使用者佩戴頭戴式裝置時進行捕獲,使用者的移動可以決定頭戴式裝置捕獲的視野。最好提供機制來支援、引導和/或增強使用者和頭戴式裝置在捕獲過程中的移動,以便錄製的媒體在播放時具有所需的功能。

本專利的系統和裝置可以包括穩定功能,以支援頭戴式裝置,從而促進和增強捕獲過程中的運動。系統可以包括一個與頭戴式裝置接合並提供外部環境檢視的外殼。系統提供的支撐可以為佩戴頭戴式裝置的使用者提供廣泛的運動範圍(例如,平移和傾斜),同時還可以引導範圍內的運動。(@patentlyapple)

2、百度推出 AI 情感陪伴類 App「月匣」搭載 DeepSeek 等模型

百度近期悄然上線了一款名為「月匣」的情感陪伴類 App,該應用以高自由度 AI 對話與沉浸式劇本互動為核心功能,旨在泛娛樂社交領域探索新的發展方向。

月匣不僅搭載了百度自研的文心一言大模型,還整合了 DeepSeek、豆包、MiniMax abab 三大外部大模型,這一創新設計使得月匣能夠覆蓋從知識問答到內容共創的全鏈路社交需求,為使用者提供更為豐富和個性化的互動體驗。

目前,月匣的聊天物件涵蓋了後宮、穿越、玄幻、職場等 300 多個型別,使用者可以像刷短影片一樣切換聊天物件,享受不同的劇情和故事。聊天記錄會儲存在使用者的個人中心內,方便使用者隨時回顧和分享。

月匣透過多模型協同 + 沉浸式劇本互動的創新架構,重新定義了情感陪伴類應用的邊界。(@AIbase 基地)

3、一加 13 手機推新 ColorOS 15.0.0.701,首發 AIGC 合成語音識別功能

一加 13 手機迎來了 ColorOS15.0.0.701 版本的重大升級。這次更新的系統包大小約為 1.33GB,除了諸多最佳化和修復,還引入了行業首發的 AIGC 合成語音識別功能,為使用者的安全與便利提供了全新保障。

此次更新中,桌面功能得到了顯著改善,使用者現在可以透過拖拽的方式輕鬆調整資料夾的大小至 1×2 或 2×1 的尺寸。同時,在桌面四列布局下,使用者可以在 dock 欄中放置多達五個應用,使得手機的操作更加靈活方便。此外,通知和控制中心的動畫流暢度也進行了最佳化,讓使用者的操作體驗更加絲滑順暢。

在安全與隱私方面,新增的 AIGC 合成語音識別功能可智慧識別通話中對方聲音是否經過 AI 合成或變聲,大大降低了使用者在網路通話中受騙的風險。 此外,手機管家的隱私中心模組也上線,支援定期檢測許可權的過度授權行為,便於使用者一鍵回收閒置許可權。值得注意的是,如果應用在後臺連續三天讀取位置資訊,系統將主動彈出提醒,保護使用者的個人資訊保安。

在網路通訊方面,WLAN 網路連線體驗同樣得到了最佳化,特別是在抖音直播和微信視訊通話時,流暢性顯著提升。此外,新增的智慧車載投屏功能,允許使用者將手機上的所有應用投屏至車載螢幕上使用,為車主提供了更多的便捷體驗。(@AIbase 基地)

03、有態度的觀點

1、圖靈獎得主:科學裡沒有權威

近日,2024 年圖靈獎(ACM A.M。 圖靈獎)獲得者 Richard Sutton 接受了一場獨家採訪。他表示,當初收到獲獎通知時完全出乎意料,甚至因忘記會議時間而遲到,直到看到一群他略感面熟的前圖靈獎得主才意識到發生了什麼。在訪談中,Sutton 強調了強化學習的核心理念——從經驗中學習。他指出這與大語言模型等其他人工智慧技術有著本質區別,大語言模型主要是從人類那裡學習並模仿人類行為,而強化學習是從直接經驗中學習,這是最自然的學習方式。Sutton 還特別提到,這一理念可以追溯到人工智慧之父艾倫·圖靈。

早在 1947 年,圖靈在倫敦數學學會的演講中就明確表示「我們想要的是一臺能從經驗中學習的機器。」不僅如此,圖靈還提出了獎勵和懲罰的概念,這正是現代強化學習的基礎。面對近年來強化學習技術在 AlphaGo 和最近 DeepSeek 等專案中的重大突破,Sutton 保持著冷靜的態度。他認為 AI 的發展是一場馬拉松而非短跑,儘管取得了巨大進步,「AI 最具影響力的部分還沒到來。」對於年輕研究者,這點陣圖靈獎得主建議要志向遠大,但別驕傲自滿。

他特別強調了「科學裡沒有權威」的理念,鼓勵研究者保持質疑精神,不論對方擁有什麼頭銜或榮譽。Sutton 也分享了自己的一個重要理念:「每個人能做的最重要貢獻,往往是那些對自己來說顯而易見的東西。」這也許正是這位強化學習先驅最終獲得電腦科學最高榮譽的秘訣。(@APPSO)

更多 Voice Agent 學習筆記:

世界最炙手可熱的語音 AI 公司,舉辦了一場全球駭客松,冠軍作品你可能已經看過

多模態 AI 怎麼玩?這裡有 18 個腦洞

AI 重塑宗教體驗,語音 Agent 能否成為突破點?

對話 TalktoApps 創始人:Voice AI 提高了我五倍的生產力,語音輸入是人機互動的未來

2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布

對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點

這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢

語音即入口:AI 語音互動如何重塑下一代智慧應用

寫在最後:

我們歡迎更多的小夥伴參與 「RTE 開發者日報」 內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章