OpenAI 推出嵌入式硬體 SDK，支援 ESP32 語音開發；INFP：音訊驅動的雙人對話頭像生成，自動區分說話者和傾聽者

開發者朋友們大家好：

這裡是 「RTE 開發者日報」，每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE（Real-Time Engagement）領域內「有話題的新聞」、「有態度的觀點」、「有意思的資料」、「有思考的文章」、「有看點的會議」，但內容僅代表編輯的個人觀點，歡迎大家留言、跟帖、討論。

本期編輯：@SSN，@ 鮑勃

01 有話題的新聞

1、GPT-5「難產」細節曝光

近日，據華爾街日報報導，OpenAI 的 GPT-5 進度出現落後，並且將不能按時釋出。

和此前爆料一致，代號為獵戶座（Orion）的 GPT-5 開發週期已經超過 18 個月。OpenAI「金主」微軟本來預計它能在 2024 年中釋出，但結果顯而易見，GPT-5 已經「難產」。

據悉，OpenAI 給 GPT-5 設定的目標不低，Orion 至少試了兩輪大規模訓練，但效果都未達預期，成品只是比現在的產品是強了點，但投入產出比極低，據估計，六個月的訓練執行就要燒掉大約 5 億美元（摺合人民幣 36.48 億元）。

2023 年年中，OpenAI 啟動了代號為「Arrakis」的測試專案，旨在驗證 Orion 新設計的有效性和可行性，測試過程成本過高。2024 年初，OpenAI 決定開始新一輪嘗試。5 月，研究團隊認為時機成熟，啟動了一項預計持續到 11 月的大規模訓練。但訓練中出現資料多樣性不足的問題。此後，OpenAI 另闢蹊徑，專門招聘軟體工程師和數學家寫程式碼、解數學題來為 Orion 提供學習材料，並詳細記錄解決問題的思維過程。同時尋求專家合作以及用推理模型 o1 生成合成資料，並結合傳統資料來不斷改進模型生成結果。

目前，迫於研發進度的延緩，OpenAI 開始將注意力轉向其他專案，包括開發 GPT-4 的各種版本和 Sora 等。知情人士透露，這也導致開發新產品的團隊和 Orion 研究人員之間為爭奪有限的計算資源打得不可開交。

此前，包括 Ilya Sutskever、Mira Murati、Alec Radford 在內的 20 多名核心高管和資深員工都離開了 OpenAI，給 OpenAI 帶來了不小的衝擊。(@ APPSO)

2、Livekit 開源精準語音輪次檢測模型，可精準識別使用者是否說完話

目前 AI 語音最難解決的問題之一是回合結束檢測，也就是要麼：

過早響應：使用者只是停頓思考，系統卻以為使用者說完了
過晚響應：使用者已經完成發言，但系統未及時反應

Livekit 模型能精準判斷「使用者是否說完話」，然後才開始響應。

傳統方法主要依賴語音活動檢測（VAD），但 VAD 只關注語音訊號的存在與否，忽略了語義層面的資訊，因此容易受到停頓和背景噪聲的干擾。

Livekit 透過結合 Transformer 模型和傳統的語音活動檢測（VAD），來改進對「輪次結束檢測」（End of Turn Detection， EOT）的判斷。以更好地判斷使用者是否完成發言。

測試結果顯示，錯誤打斷減少了 85%，也就是說，語音助手變得更加自然和不容易誤判。

這種技術相比傳統方法更加準確和智慧，可以用來改進語音人工智慧（比如語音助手、客服機器人）在對話中判斷「使用者是否說完話」的能力。(@ xiaohu@X)

3、INFP：基於音訊驅動的雙人對話中的互動頭像生成，能自動區分誰在說話，誰在聽

INFP 是由位元組跳動開發的一種音訊驅動的互動式頭部生成框架，主要應用於雙人對話場景。意為「在雙人對話中基於音訊驅動的互動式頭像生成」。

它能透過語音輸入生成動態頭像動畫，包括嘴唇同步、面部表情和頭部動作。這些生成的頭像能自然地模擬對話雙方的互動狀態，而且能自動切換「說話者」和「傾聽者」的角色，也就是兩個人對話時，它能自動區分誰在說話，誰在聽。對於說話者，它能嘴唇同步語音內容，同時展現自然的頭部和表情動作，而對於傾聽者，它能夠生成自然的面部反應（如點頭、微笑、疑惑）和傾聽姿態。（@ 小互 AI）

4、DeepSeek 關鍵開發者將加入小米，領導大模型團隊

據第一財經獲悉，DeepSeek 開源大模型 DeepSeek-V2 的關鍵開發者之一羅福莉將加入小米，或供職於小米 AI 實驗室，領導小米大模型團隊。

據有知情人士稱，雷軍認為小米在大模型領域發力太晚，於是親自挖人，重金招募能夠領軍小米大模型的人才，支付的薪酬水平在千萬元級別。

小米 AI 實驗室正式成立於 2016 年年初，目前團隊大約有 250 人，研究方向包括視覺、聲學、語音、自然語言處理（NLP）、知識圖譜、機器學習和大模型。2023 年 4 月，小米成立專門的大模型團隊，由欒劍擔任負責人。小米的大模型技術主要聚焦於模型的輕量和本地部署，已研發出 MiLM 系列模型，並升級至第二代 MiLM2，部分模型已在小米的產品中得到應用。

據悉，羅福莉碩士畢業於北京大學計算語言學研究所，並在自然語言處理領域有著傑出的研究經歷和成果。此後，羅福莉在阿里巴巴的達摩院機器智慧實驗室工作，並主導開發了多語言預訓練模型 VECO。2022 年，羅福莉參與 DeepSeek 的 MoE 大模型 DeepSeek-V2 的開發。報導指出，羅福莉的加入可能加速小米在大模型領域的研發進度。(@ APPSO)

02 有亮點的產品

1、OpenAI 推出 Realtime Embedded SDK 專門用在小型硬體裝置

OpenAI 推出 Realtime Embedded SDK，使微控制器（如 ESP32）實現實時 AI 功能，支援語音互動與自然語言處理；

應用場景覆蓋智慧家居、物聯網與機器人，增強裝置智慧互動與環境理解能力。

SDK 提供便捷工具鏈，支援快速部署與雲端 AI 連線，或激發相關硬體市場需求，支援 Linux 和 ESP32S3 平臺，無需額外硬體即可在 Linux 上執行。

開發者只需安裝 protobufc 和設定目標平臺，配置 WiFi 和 OpenAI API 金鑰後即可構建和部署應用。（@ 騰訊研究院）

2、湯姆貓推出 AI 童伴機器人：支援主動聊天、情緒識別

湯姆貓於 12 月 21 日在京東等平臺推出 AI 童伴機器人，共有經典款、豪華款、尊享款三個版本，售價分別為 1499 元、1699 元、1999 元。

商品頁面顯示，這款產品配備「靈動雙眼」，支援情緒識別、趣味打斷、主動聊天 等功能。無需觸發按鍵，一聲「湯姆貓」即可切換對話場景。此外，該產品還支援一次喚醒，連續對話。

功能上，新品支援中英文雙語互動、萬物百科等，產品外觀為膚感矽膠材質。

湯姆貓此前介紹稱，AI 語音情感陪伴機器人的頭部設有傳動裝置，可以自動根據聽到的聲音辨別位置與方向，120° 自由轉頭，面向使用者進行語音對話。此外，該產品支援耳朵和嘴巴自然活動，設計了 20 多款靈動表情；3000 毫安時容量電池，產品採用膚感矽膠材質，可自由擺動的手臂。（@IT 之家）

03 有態度的觀點

1、戴爾創始人：產品更新通常會被低估

近日，戴爾創始人邁克爾・戴爾向《財富》雜誌表示，並不擔心 AI PC 遇冷，產品更新通常會被低估。

在回覆中他指出，儘管 AI 技術發展迅速，但將 AI 應用到消費者級別的裝置和應用中仍需要時間。他表示，已經不止一次經歷過這樣的情況了，產品更新通常會被低估，有時進展稍微快一點，有時則較慢。

戴爾提到，AI 不僅將影響 PC 裝置，還將在雲端計算和企業級應用中扮演越來越重要的角色。他看好 AI 技術對各個行業的滲透，特別是在資料分析、自動化和智慧化方面。

戴爾表示，對未來保持樂觀，並不擔心 AI PC 遇冷。認為隨著技術的成熟，AI 將徹底改變 PC 市場，推動新一輪的裝置更新換代，尤其是在高效能運算和智慧硬體方面。(@ APPSO)

04 社群專案推薦

1、remixly.ai ：一款由 AI 驅動的音訊處理平臺

remixly.ai 是一款由 AI 驅動的音訊處理平臺，整合了多種音訊編輯功能，包括伴奏移除、音調調節和人聲轉換，旨在簡化音訊創作與處理流程，節省時間和精力。remixly 不僅滿足音訊編輯的常見需求，還支援自定義工作流，讓團隊根據自身需求靈活調整處理流程，提升創作效率。無論是進行內容生產，甚至是構建自己的音訊應用，remixly 都能提供高效的支援。

產品亮點：

多功能音訊處理工具集： 包含伴奏移除、音調調節、人聲轉換等功能，減少工具切換，提升工作效率。
自定義工作流： 為中小型團隊提供靈活的工作流設計，可以根據不同音訊處理場景定製自動化流程，顯著節省人工操作時間。
API 支援與整合： 可為開發者和企業客戶提供全面的 API 介面，支援與現有系統、產品的整合，幫助您基於我們的平臺快速構建音訊處理應用。

2、Tempo-Pulse 觸覺音樂播放器

Tempo-Pulse 是一款由 AI 驅動的音樂觸覺播放器，你可以搜尋或上傳任何你喜歡的音樂，Tempo 會為你帶來獨一無二的觸覺體驗，聽障人士也可以透過 Tempo-Pulse 感受音樂的律動，享受音樂的魅力。

以上資訊由 RTE 開發者社群成員透過社群網站投稿提供，如果你也有與實時互動（Real-Time Engagement，RTE）相關的專案分享，歡迎訪問網站 rtecommunity.dev 釋出，優秀專案將會在公眾號釋出分享。同時還有 RTE Meetup demo 分享、《編碼人聲》播客錄製、RTE Open Day 展位優先申請等機會。

有意投稿者請聯絡微信 creators2022 ，請備註身份和來意。

更多 Voice Agent 學習筆記：

語音即入口：AI 語音互動如何重塑下一代智慧應用

Gemini 2.0 來了，這些 Voice Agent 開發者早已開始探索……

幫助使用者與 AI 實時練習口語，Speak 為何能估值 10 億美元？丨 Voice Agent 學習筆記

市場規模超 60 億美元，語音如何改變對話式 AI？

2024 語音模型前沿研究整理，Voice Agent 開發者必讀

從開發者工具轉型 AI 呼叫中心，這家 Voice Agent 公司已服務 100+ 客戶

WebRTC 建立者剛加入了 OpenAI，他是如何思考語音 AI 的未來？

人類級別語音 AI 路線圖丨 Voice Agent 學習筆記

語音 AI 革命：未來，消費者更可能傾向於與 AI 溝通，而非人工客服

語音 AI 迎來爆發期，也仍然隱藏著被低估的機會丨 RTE2024 音訊技術和 Voice AI 專場

下一代 AI 陪伴 | 平等關係、長久記憶與情境共享 | 播客《編碼人聲》

Voice-first，閉關做一款語音產品的思考｜社群來稿

寫在最後：

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創，感興趣的朋友請透過開發者社群或公眾號留言聯絡，記得報暗號「共創」。

對於任何反饋（包括但不限於內容上、形式上）我們不勝感激、並有小驚喜回饋，例如你希望從日報中看到哪些內容；自己推薦的信源、專案、話題、活動等；或者列舉幾個你喜歡看、平時常看的內容渠道；內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

OpenAI 推出嵌入式硬體 SDK，支援 ESP32 語音開發；INFP：音訊驅動的雙人對話頭像生成，自動區分說話者和傾聽者

01 有話題的新聞

02 有亮點的產品

03 有態度的觀點

04 社群專案推薦

相關文章