Kyutai 開源端側模型 Helium -1 preview；FoloToy 內測「超級智慧體」，支援聯網查詢和語音調整音量語速

RTE开发者社区發表於2025-01-14

原文網址 : https://testerhome.com/topics/41389

開發者朋友們大家好：

這裡是 「RTE 開發者日報」 ，每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE（Real-Time Engagement）領域內「有話題的新聞」、「有態度的觀點」、「有意思的資料」、「有思考的文章」、「有看點的會議」，但內容僅代表編輯的個人觀點，歡迎大家留言、跟帖、討論。

本期編輯：@qqq，@Suna，@ 鮑勃

01 有話題的新聞

1、小紅書位居美國 App Store 下載榜第一

昨日（1 月 13 日），美區 App Store 的 Top 2 分別為位元組版小紅書 Lemon8 以及小紅書，同時「小紅書美國 appstore 下載榜第一」這一詞條也登上熱搜。

在小紅書上搜尋「Tiktok Refugee」的關鍵詞，可以看到有大量美國 ip 的使用者發帖。而這一情況的出現，或與 TikTok 禁令有關。

據彭博社近期的報導指出，美國最高法院在聽證會時曾表示，如果 TikTok 的中國母公司未在 1 月 19 日前出售該平臺，很可能會維持一項禁止這款短影片應用在美國運營的法律。

因此，部分的 TikTok 創作者正在透過遷移到小紅書來制定應急計劃。截至發稿前，小紅書位居美區 App Store 榜首。(@ APPSO)

2、索尼新專利可解決遊戲延遲問題

近日，索尼獲批一項新專利，其旨在透過 AI 模型解決多人遊戲中的延遲問題。據公開的專利檔案顯示，索尼計劃利用攝像頭捕捉玩家的動作（如手柄操控動作），並透過 AI 模型實時分析、預測玩家所輸入的動作指令，提前判斷玩家所發出的動作意圖，進而在遊戲中提前執行相關的指令。

據瞭解，該專利目前命名為「TIMED INPUT/ACTION RELEASE（定時輸入/動作釋放）」，其中還提到，系統還會透過分析玩家未完成的操控動作，來完成預測，並非完全依賴攝像頭。

此外，索尼還在專利中提到，該 AI 模型也可以針對特定玩家進行定製化訓練，以便對玩家的行為進行更準確的推斷。(@ APPSO)

3、潞晨科技釋出全新 Video Ocean V2.0：免費影片生成模型再進化，20 秒高畫質大片一鍵成型

潞晨科技最新發布 Video Ocean V2.0，這款源自開源專案 Open Sora 的影片生成模型，已經在開發者社群收穫 23，000 多枚星標。網友們用它創作的作品令人驚豔：從攀爬長城的巨型熊貓，到與魚尾獅互動的趣味場景，每一幀畫面都栩栩如生，動作細節的還原度令人歎為觀止。

本次升級的核心亮點集中在三個方面：首先是畫質的全面提升，無論是人物的面部細節、光影變化，還是與環境的互動，都達到了超高的真實感。其次是動作幅度的重大突破，從日常動作到極限運動，都能實現流暢自然的呈現。最後在創作風格上，覆蓋了從 3D 寫實到 2D 動畫、從電影質感到賽博朋克等多種畫風。

使用方式也十分便捷，支援文生影片、圖生影片和角色生影片三種模式。使用者只需輸入文字提示或上傳參考圖片，就能生成最長 20 秒的高質量影片。如果對效果不滿意，系統支援無限重試直到達到預期效果。新版本還最佳化了操作介面，真正做到了讓專業人士和普通使用者都能輕鬆上手。

無論是自媒體創作者、電影工作者、還是普通愛好者，都能免費使用這一強大工具。值得一提的是，潞晨科技在底層算力上的最佳化，讓這款工具即使在配置一般的裝置上也能實現不錯的效果。（@ AIbase 基地）

4、Codestral 25.01：輕量級、快速以及精通 80 多種程式語言程式設計輔助模型

Codestral 25.01 是由 Mistral AI 推出的一款先進的程式設計輔助模型，它代表了當前程式設計模型領域的前沿技術。

該模型具有輕量級、快速以及精通 80 多種程式語言的特點，專為低延遲、高頻率的使用場景進行了最佳化，並支援諸如程式碼填充（FIM）、程式碼糾正和測試生成等任務。Codestral 25.01 在架構和分詞器方面進行了改進，程式碼生成和補全速度比前代產品快約 2 倍，成為了同級別中程式設計任務的領導者，尤其在 FIM 用例中表現突出。其主要優點包括高效的架構、快速的程式碼生成能力以及對多種程式語言的精通，對於提升開發者的程式設計效率具有重要意義。

Codestral 25.01 目前透過 Continue.dev 等 IDE/IDE 外掛合作伙伴向全球開發者推出，並支援本地部署，以滿足企業對於資料和模型駐留的需求。（@ AIbase 基地）

5、Kyutai 釋出端側小模型 Helium-1 preview

Helium-1 preview 是 Kyutai 釋出的 2B 多語言 LLM，該模型針對邊緣和移動裝置，根據 CC-BY 許可釋出。

Helium 目前支援 6 種語言（英語、法語、德語、義大利語、葡萄牙語和西班牙語），不久將擴充套件到更多語言。

Helium 在多語言基準測試中取得了不錯的表現，接下來開發者還將釋出完整的模型、技術報告，並將開源用於訓練模型和復現資料集的程式碼。(@ kyutai@X)

02 有亮點的產品

1、Refly：一站式 AI 創作工具，縮短創作時間至分鐘級

Refly 是一個基於自由畫布的 AI 原生創作引擎，旨在透過多執行緒對話、知識庫整合、上下文記憶和智慧搜尋技術，幫助使用者將創意轉化為高質量內容。

該平臺覆蓋了超過 20 種專業場景模板，包括學術研究和技術文件，利用 AI 分析主題，智慧構建研究框架，並基於個人知識庫持續積累，建立深度思維連線。

Refly 的主要優勢在於其強大的 AI 輔助功能和個性化創作環境，提升了學術和技術寫作的效率，同時確保專業輸出的質量。(@ Refly)

2、梅賽德斯：賓士與谷歌聯手推出智慧汽車語音助手 MBUX

在 2024 年消費電子展（CES）上，梅賽德斯 - 賓士宣佈了與谷歌合作的全新汽車虛擬助手。這款助手基於谷歌雲最新推出的汽車 AI 智慧體平臺，能夠在使用者駕駛過程中「繼續對話並參考資訊」。

首款搭載該助手的車型是全新的梅賽德斯 CLA，這款車配備了下一代 MB.OS 作業系統和升級版的 MBUX 虛擬助手。

目前，梅賽德斯的 MBUX 語音助手系統可以透過「嘿，梅賽德斯」觸發約 20 個語音指令。而此次升級後，MBUX 助手將藉助 OpenAI 的 ChatGPT 和微軟 Bing 的結果，進一步增強其智慧性。

新款 MBUX 虛擬助手將具備四種「個性特徵」，包括自然、預測、個人化和同理心。這意味著助手不僅能理解使用者的基本需求，還能透過提問獲取更多資訊，以提供更準確的服務。

此外，谷歌的 AI 智慧體能夠利用谷歌地圖資料為使用者尋找興趣點，查詢餐廳評論，提供推薦，並回答後續問題。谷歌表示，MBUX 虛擬助手的使用者將享受到「幾乎實時」的谷歌地圖更新，並能夠處理複雜的多輪對話。（@ AIbase 基地）

2、Topview 2.0 Product Avatar：AI 驅動的產品展示工具

Topview 2.0 Product Avatar 是一款創新的 AI 驅動產品展示工具，專為電子商務和數字營銷領域設計。其核心價值主張是透過 AI 技術生成高質量的產品展示影片，讓數字化虛擬人物完美地展示和介紹產品。該產品主要面向需要高效、專業產品展示方案的電商賣家和營銷人員，解決了傳統產品拍攝耗時耗力的痛點。

在功能方面，Topview 2.0 突出了 AI 虛擬人物生成、產品影像智慧整合以及一鍵式影片製作三大特點。使用者只需上傳產品圖片，AI 就能自動建立虛擬人物手持並展示產品的影片，大大簡化了產品展示流程。產品的差異化優勢在於其高度自動化和個性化的影片生成能力，為使用者提供了快速、經濟且專業的產品展示解決方案。

從使用者體驗角度來看，Topview 2.0 注重操作簡便性和輸出質量，使得即使是沒有影片製作經驗的使用者也能輕鬆建立吸引人的產品展示內容。(@ Z Potentials)

03 有態度的觀點

1、祖克伯：蘋果透過壓榨使用者和開發者來賺錢

1 月 11 日，Meta CEO 馬克·祖克伯在做客播客節目 Joe Rogan Experience 時，對蘋果的封閉生態系統進行抨擊。

在節目中他談及了對於 Vision Pro 的看法：「他們推出了一款售價 3500 美元的產品，我認為還不如我們售價 300 或 400 美元的產品好。」

同時，他還直接表示「蘋果已經很久沒有發明什麼真正偉大的東西了。」他認為，史蒂夫·賈伯斯發明了 iPhone，而現在蘋果只是在這個成就上躺了 20 年。「實際上，我覺得他們的 iPhone 銷量可能在下降。」

祖克伯認為，蘋果賺更多錢的方式，就是透過壓榨使用者來實現的。比如向開發者收取 30% 的稅費，讓使用者購買更多外設和配件。(@ APPSO)

2、前 OpenAI 首席研究官萬字對談：AGI 真正到來時或顯得平淡無奇

前 OpenAI 首席研究官近期參加了一次訪談，在訪談中，他提到了自己對 AGI 的看法。他提出：「想要實現 GPT-4 到 GPT-5 的完整躍遷，還需要時間。人們往往忽視了從 GPT-3 到 GPT-3.5 再到 GPT-4 的逐步迭代過程。接下來，我們可能會先經歷一個計算力提升 10 倍的過渡階段，而不是直接迎來下一代大模型。」

「可靠性比過去顯得更加重要。」他認為可以用一個經驗法則來理解：從 90% 的可靠性提高到 99%，可能需要 10 倍的計算力，而從 99% 提升到 99.9%，則需要再增加一個數量級。每提高一個百分點都需要巨大的模型效能飛躍。這種 10 倍的跨越通常需要 1 到 2 年的時間來完成。

「今天一個 PT-3 級別的語言模型生成一個 token 的成本，已經比 GPT-3 剛推出時低了 100 倍。」他相信 Sora 影片模型也會遵循相同的軌跡——我們將看到這些逼真、精美的影片生成不僅質量更高，而且成本幾乎可以忽略。這種效能和成本的同步提升，將使影片生成技術變得更加普及和易用，真正改變使用者的創作方式。(@ Z Potentials)

04 社群專案推薦

1、FoloToy 超級智慧體

產品亮點：

播放音樂： 根據聊天內容，隨機播放適合的音樂風格。

查詢天氣： 快速獲取天氣預報，告別天氣困擾，出門穿衣更輕鬆。

聯網查詢新聞： 關注最新新聞動態？FoloToy 為你提供全天候新聞更新。

語音指令調整音量/語速： 想要更高音量或更慢語速？只需發出語音指令，FoloToy 瞬間調整。

隱藏功能： 用特別的語句觸發播放特殊的歌曲！只需輸入特定指令，FoloToy 會播放獨特的音樂。

使用方法：

在我們的 WebApp（https://webapp.folotoy.cn）或小程式（在微信搜尋「FoloToy」），只需將角色的大語音模型切換到「FoloToy 超級智慧體」，即可立即體驗這一全新智慧體的強大功能。

注意：目前處於 Beta 版，如果遇到任何問題或有建議，歡迎隨時聯絡我們，我們會盡力為你提供幫助！

以上資訊由 RTE 開發者社群成員透過社群網站投稿提供，如果你也有與實時互動（Real-Time Engagement，RTE）相關的專案分享，歡迎訪問網站 rtecommunity.dev 釋出，優秀專案將會在公眾號釋出分享。同時還有 RTE Meetup demo 分享、《編碼人聲》播客錄製、RTE Open Day 展位優先申請等機會。

有意投稿者請聯絡微信 creators2022 ，請備註身份和來意。

更多 Voice Agent 學習筆記：

對話谷歌 Project Astra 研究主管：打造通用 AI 助理，主動影片互動和全雙工對話是未來重點

這家語音 AI 公司新融資 2700 萬美元，並預測了 2025 年語音技術趨勢

語音即入口：AI 語音互動如何重塑下一代智慧應用

Gemini 2.0 來了，這些 Voice Agent 開發者早已開始探索……

幫助使用者與 AI 實時練習口語，Speak 為何能估值 10 億美元？丨 Voice Agent 學習筆記

市場規模超 60 億美元，語音如何改變對話式 AI？

2024 語音模型前沿研究整理，Voice Agent 開發者必讀

從開發者工具轉型 AI 呼叫中心，這家 Voice Agent 公司已服務 100+ 客戶

WebRTC 建立者剛加入了 OpenAI，他是如何思考語音 AI 的未來？

人類級別語音 AI 路線圖丨 Voice Agent 學習筆記

寫在最後：

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創，感興趣的朋友請透過開發者社群或公眾號留言聯絡，記得報暗號「共創」。

對於任何反饋（包括但不限於內容上、形式上）我們不勝感激、並有小驚喜回饋，例如你希望從日報中看到哪些內容；自己推薦的信源、專案、話題、活動等；或者列舉幾個你喜歡看、平時常看的內容渠道；內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

國內首個端到端通用語音大模型——心辰Lingo開放內測預約
2024-08-29
大模型Go
CosyVoice 2.0 支援雙向流式語音合成；無問芯穹開源全模態理解端側模型丨 RTE 開發者日報
2024-12-16
模型開發者日報
開源大語言模型作為 LangChain 智慧體
2024-02-22
模型LangChain智慧體
讓大模型能聽會說，國內機構開源全球首個端到端語音對話模型Mini-Omni
2024-09-06
大模型
通義釋出語音模型 MinMo：全雙工、多口音；MiniCPM-o ：端側 GPT-4o 級視覺、語音、多模態實時流式大模型
2025-01-15
GPT視覺大模型
人工智慧大模型之開源大語言模型彙總（國內外開源專案模型彙總）
2024-06-21
人工智慧大模型
雷朋 Meta 眼鏡視覺識別功能開放測試；Ultravox 新版語音模型：語音理解超 GPT-4o 和 Gemini
2025-02-12
視覺模型GPT
MySQL內連線查詢語句
2020-05-29
MySql
Solr 客戶端查詢語法
2020-11-13
Solr客戶端
oracle查詢語句查詢增加一列內容
2018-06-05
Oracle
android4.4調整音量調節速度
2018-05-10
Android
gpt-4o-audio-preview 釋出，支援 STT/TTS 不含實時音訊；Ministral 3B/8B 端側模型釋出
2024-10-18
GPTViewTTS音訊模型
Go語言專案實戰：基於開源資料的成語查詢
2018-11-16
Go
小林同學智慧AI大模型語音助手
2024-07-12
AI大模型
2018-12-16 語音、聽力、口語的內在聯絡
2018-12-16
語音識別模型
2024-10-29
模型
Kyutai 釋出實時同傳語音模型 Hibiki，可在 iPhone 執行；清華、東大等釋出音訊生成動作模型 EMAGE
2025-02-07
AI模型iPhone音訊
GPUStack v0.4：文生圖模型、語音模型、推理引擎版本管理、離線支援和部署本地模型
2024-12-09
GPU模型
帶你讀論文 | 端到端語音識別模型
2020-11-18
模型
Zonos-v0.1：開源 TTS 模型，支援多語言和高保真聲音克隆；「Apple 智慧」或即將在國內上線，蘋果舉行開發者活動
2025-02-11
TTS模型APP蘋果
人工智慧語音機器人如何完美模模擬人語調？
2021-07-27
人工智慧機器人
mysql查詢語句
2024-04-04
MySql
YouGov：1/3的智慧音響使用者不知道語音錄音儲存在雲端
2019-07-30
Go
小愛同學語音模型評測 - 董沐
2020-06-04
模型
物聯網路卡、物聯網語音卡你能分清嗎？
2022-05-10
新一代 Kaldi: 支援 JavaScript 進行本地語音識別和語音合成啦！
2024-03-17
JavaScript
CosyVoice多語言、音色和情感控制模型，one-shot零樣本語音克隆模型本地部署(Win/Mac),通義實驗室開源
2024-07-07
模型Mac
Spotify開始測試語音搜尋技術，或將打造智慧音響
2018-04-11
微調大語言模型
2024-08-28
模型
蘋果OpenELM：開源小語言模型
2024-04-25
蘋果模型
語音控制智慧插座
2018-11-09
智慧語音爬天井
2022-01-24
mysql查詢語句5：連線查詢
2020-12-22
MySql
C語言實現雙連結串列的（終端）新增和查詢
2019-05-10
C語言
Hive內部函式簡介及查詢語法
2018-07-02
Hive函式
[20220331]如何調整sql語句.txt
2022-04-01
SQL
阿里開源！輕量級深度學習端側推理引擎 MNN
2019-05-07
阿里深度學習
5 款不錯的開源語音識別/語音文字轉換系統
2019-06-22

Kyutai 開源端側模型 Helium -1 preview；FoloToy 內測「超級智慧體」，支援聯網查詢和語音調整音量語速

01 有話題的新聞

02 有亮點的產品

03 有態度的觀點

04 社群專案推薦

相關文章