豆包 APP 上線端到端語音能力,低時延、可打斷;OpenAI 實時 Agent 原始碼:20 分鐘開發 Voice Agent
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@qqq,@ 鮑勃
01 有話題的技術
1、OpenAI 原始碼分享!實時 AI Agent,20 分鐘開發語音智慧體
實時 Agent 技術特點: 能提供高效的資料互動能力,在使用者說話的同時就能立刻響應,極大減少了等待時間,同時最佳化了資料傳輸和處理流程,確保了高效率和低延遲,這對於開發語音類智慧體非常重要。
多層級協作 Agent 框架, 提供了一個預定義的 Agent 流程圖,開發者可以快速配置和使用。每個 Agent 都有明確的職責和任務,確保任務能夠按照預設的順序順利進行,減少了大量從頭設計任務流程的時間。
實時 Agent 還支援靈活的任務交接,Agent 之間可以無縫傳遞任務, 確保每個步驟都能由最合適的 Agent 處理,大大提高了任務處理的效率和準確性。
狀態機驅動的任務處理是實時 Agent 另外一大技術亮點。透過狀態機將複雜的任務分解為多個小步驟,逐步處理。每個步驟都有明確的狀態和轉換條件,確保任務能夠按順序、逐步完成。
同時狀態機可以實時監控任務的執行狀態,根據使用者的輸入和反饋進行調整。 如果使用者在某個步驟中遇到問題,狀態機可以及時調整任務流程,提供幫助或重新引導使用者。
藉助大模型提升 Agent 決策能力,在面對複雜或重要的任務決策時,實時 Agent 可以自動將任務升級到更智慧的大模型,例如,OpenAI 的 o1-mini。開發者也可以根據任務的具體需求,選擇合適的大模型。
清晰視覺化 WebRTC 介面,使用者可以透過下拉選單選擇不同的場景和 Agent,實時檢視對話記錄和事件日誌。
提供詳細的事件日誌和監控功能,為開發者提供了強大的除錯和最佳化工具。詳細的事件日誌,記錄了客戶端和伺服器的事件。開發者可以透過這些日誌,實時監控任務的執行狀態,及時發現和解決問題。
透過實時監控可以及時發現 Agent 效能瓶頸,進行特定的最佳化和調整。 例如,如果某個 Agent 的響應時間過長,可以及時調整任務分配,確保系統的整體效能。
此外,這個實時 Agent 還借鑑了之前 OpenAI 開源的著名多層級協作 Agent 框架 swarm,所以,在業務執行和穩定性方面非常可靠。(@AIGC 開放社群)
2、三星擬攜手 OpenAI 研發智慧電視:將支援實時對話及內容推薦
據國外媒體報導,三星電子正與 OpenAI 洽談「開放夥伴關係」,計劃將 OpenAI 的先進技術融入電視產品線,以提升其在全球電視市場的競爭優勢。
據悉,三星計劃引入 OpenAI 的多項核心技術,包括 GPT 文字生成、DALL·E 影像生成、Whisper 語音識別以及 O1 推理模型等。這些技術將為使用者帶來個性化內容推薦、對話式助手、實時翻譯等創新功能。例如,使用者可在觀看節目時實時提問,獲取演員資訊或相關教育資料,系統還能基於觀看歷史推薦相似內容。
市場調查機構 Omdia 資料顯示,2024 年上半年三星在全球電視市場的營收份額達 28.8%,繼續保持全球領先。然而從出貨量來看,三星份額為 18.3%,與中國廠商 TCL 的 13.3% 差距逐漸縮小,顯示出中國企業在低價市場的強勁攻勢。
在今年 CES2025 展會上,三星已展示部分 AI 電視功能,如時尚資訊查詢和實時字幕翻譯等。不過,與 OpenAI 的合作能否最終達成,仍取決於雙方對合作費用的談判。對於相關合作傳聞,OpenAI 表示「無法確認」。
這一潛在合作顯示出三星以 AI 技術創新應對市場競爭的戰略意圖。作為連續 19 年蟬聯全球電視市場第一的品牌,三星正尋求透過 AI 技術建立新的競爭壁壘。此前,該公司影像顯示器部門已與微軟達成合作,展現出其在 AI 生態系統構建方面的積極佈局。(@AIbase 基地)
3、OpenAI 即將釋出博士級,超級 AI Agent
超級 Agent,作為生成式 AI 發展的新階段產物,被設計用於解決人類思維難以應對的複雜、多層次現實世界問題。
與傳統的 AI 工具不同,Agent 不會僅僅響應單一指令,而是能夠自主設定並追求目標。例如,當使用者下達「構建一個新的支付軟體」的指令時,超級 Agent 將憑藉其強大的能力,自行完成從設計、測試到交付一個可正常執行產品的全過程。
在這一過程中,需要綜合分析海量資料,全面評估各種可行方案,並高效整合不同領域的知識與技術。其核心技術涉及先進的機器學習演算法、自然語言處理技術、複雜系統建模與最佳化等多個領域的深度融合。
從機器學習演算法角度來看,超級 Agent 可能運用了強化學習與深度學習相結合的方式。透過強化學習,Agent 能夠在不斷與環境互動的過程中,根據反饋訊號學習到最優的行為策略,以實現給定的目標。
深度學習則為其提供了強大的特徵提取和模式識別能力,使其能夠從海量的文字、影像、資料等資訊源中快速準確地提取有價值的資訊,為決策提供堅實的資料支援。
在自然語言處理方面,超級 Agent 具備高度的語言理解和生成能力。不僅能夠理解人類用自然語言表達的複雜任務需求,還能夠以清晰、準確的語言向使用者反饋任務的執行進度和結果,實現人機之間的高效溝通與協作。
這一能力的實現依賴於大規模的語言模型以及基於 Transformer 架構的預訓練技術,使得 Agent 能夠學習到豐富的語言知識和語義關係,從而在不同的語言場景下都能表現出色。
目前,雖然超級 Agent 尚未全面推向市場,但部分早期測試結果和相關研究已經展示出其巨大的潛力。在一些模擬實驗中,超級 Agent 在處理複雜的資料分析任務時,能夠比傳統的資料分析方法快數倍甚至數十倍地提取出有價值的資訊和洞察。(@AIGC 開放社群)
02 有亮點的產品
1、360 集團釋出鴻蒙原生 AI 應用奈米 AI 搜尋:使用者可選擇不同風格的 AI 聲音進行互動
360 集團近日宣佈旗下奈米 AI 搜尋和 360AI 辦公兩款應用正式推出鴻蒙原生版本,標誌著該公司在 AI 應用領域的重要佈局。
作為被業界稱為「搜尋引擎 3.0」的多模態內容創作引擎,奈米 AI 搜尋自 2024 年 11 月上線以來表現亮眼。資料顯示,該應用首日訪問量突破 100 萬,到 2024 年 12 月訪問量已達 3.59 億,躍居「AI 產品榜 · 全球總榜」第四位,成為榜單 TOP10 中唯一的國產 AI 產品,月環比增長 27.1%。
鴻蒙原生版奈米 AI 搜尋支援多種互動方式,包括文字、語音輸入、拍照識圖和影片提問等。除基礎問答功能外,該應用還提供 PDF 檔案解析、食物卡路里計算、圖片文案生成等特色功能。使用者還可選擇不同風格的 AI 聲音進行互動,提供更個性化的使用體驗。
同期釋出的 360AI 辦公則整合了超過 100 款 AI 工具,覆蓋圖片處理、寫作輔助、文件編輯、影片製作和文件模板五大核心場景。該應用特別為學生群體提供了試卷練習功能,支援擦除手寫筆跡便於重複練習。
目前,兩款應用已在 HarmonyOS NEXT 應用市場上線,使用者可透過「我的華為 App-升級嚐鮮」申請體驗。360 表示,這兩款應用將持續迭代升級,進一步提升使用者體驗。(@AIbase 基地)
2、豆包 APP 上線端到端語音能力:低時延、可打斷
豆包實時語音大模型於今日正式推出,並在豆包 APP 全量開放,將豆包 APP 升級至 7.2.0 版本即可體驗。
豆包實時語音大模型,是一款語音理解和生成一體化的模型,實現了端到端語音對話。相比傳統級聯模式,在語音表現力、控制力、情緒承接方面表現驚豔,並具備低時延、對話中可隨時打斷等特性。
根據外部使用者真實反饋,該模型整體滿意度較 GPT-4o 有明顯優勢 ,特別是語音語氣自然度和情緒飽滿度遠高於後者。團隊認為,該模型的推出具備里程碑式意義,不僅貼閤中國使用者實際需求,且釋出即上線,有能力直接服務億萬使用者,而非停留於演示 Demo 層面。
技術展示頁:https://team.doubao.com/realtime_voice@ 豆包大模型團隊)(
03 有態度的觀點
1、MiniMax CEO:千萬別套用移動網際網路的邏輯來做 AI
近日,MiniMax CEO 閆俊傑接受採訪,並表示千萬別套用移動網際網路的邏輯來做 AI。閆俊傑提到,移動網際網路的邏輯認為使用者越多,產品迭代速度越快,但在 AI 領域,這個邏輯並不成立。並且他表示複雜任務的解決更多依賴技術突破,而非大規模使用者行為資料。閆俊傑還認為,AI 模型在很多場景中比普通使用者更「聰明」,大部分使用者的使用並不足以推動模型進一步改進。
閆俊傑預測,Agent 很快還會看到一類應用—資訊的獲取,從而讓使用者能更好地使用 Agent 去獲取資訊。同時他對比了移動網際網路產品和 AI:移動網際網路產品,要思考有哪些供給、哪些消費;而 AI 產品其實不需要人為供給,AI 既有分發,也有供給能力,而且 AI 能力會不停變化。此外,閆俊傑還提及了模型開源。他認為,大模型都應該開源,並表示所有模型一年之後都會落後。同時他認為,如 OpenAI,它的核心能力已不再是對比,而是 ChatGPT 的品牌和心智。(@APPSO)
2、小米語音首席科學家 Daniel Povey:語音識別卷完了,下一個機會在哪裡?
《智者訪談》邀請到著名開源語音識別專案 Kaldi 的創始人、小米集團語音首席科學家 Daniel Povey 博士。
他在採訪中提到:「現在大家對文字轉語音(TTS)更感興趣,最近幾年興起的流匹配(flow matching)方法簡單易懂,而且效果特別好,也很穩定,我很喜歡研究它們。
我在小米的團隊正在轉向 TTS(文字轉語音)。一般來說,TTS 的速度要比語音識別慢,特別是在手機上執行的時候。我們希望開發一個既能在手機上快速執行,又能保持完美音質的 TTS 系統。」(@ 機器之心)
更多 Voice Agent 學習筆記:
2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布
對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點
這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢
語音即入口:AI 語音互動如何重塑下一代智慧應用
Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……
幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記
市場規模超 60 億美元,語音如何改變對話式 AI?
2024 語音模型前沿研究整理,Voice Agent 開發者必讀
從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶
WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- Voice Agent 開發者必讀,2024 最前沿語音模型梳理模型
- 豆包全新端到端語音功能上線!智商情商雙線上,中文語音對話斷崖式領先
- 2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布AI
- 智譜釋出端到端多模態模型 GLM-Realtime,2 分鐘記憶能力;訊飛星火同傳語音大模型釋出,5 秒時延大模型
- Fish Agent:多語言 Voice-to-Voice 開源語音模型;Runway 推出攝像機運鏡功能丨 RTE 開發者日報模型開發者日報
- 釦子OpenAPI突進智慧語音戰場!點滿低延時、定製化、隨時打斷和音色克隆技能(內測開啟!)API
- 端到端最佳化所有能力,位元組跳動提出強化學習LLM Agent框架AGILE強化學習框架
- Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……
- OpenAI Realtime API 升級,整合 WebRTC 且降價 60%;豆包釋出視覺理解模型,實時語音模型也將上線OpenAIAPIWeb視覺模型
- 活動報名:Voice Agent 開發者分享會丨 RTE Meetup
- 時延測評|免費又好用的低延時遠端控制軟體竟是它!
- Java Agent(上)Java
- newrelic python agent 原始碼分析-1Python原始碼
- Java Agent 開發初探Java
- 線上直播原始碼開發IOS端問題解決方案原始碼iOS
- Java Agent入門實戰(二)-Instrumentation原始碼概述Java原始碼
- 谷歌釋出 Android XR 整合 Gemini 語音對話;Voice Agent 平臺 Vapi 獲 2000 萬美元融資谷歌AndroidAPI
- 幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記AI筆記
- 詳解音視訊直播中的低延時
- 直播app原始碼,定時開關,實現計時器功能APP原始碼
- 端到端的實時計算:TiDB + Flink 最佳實踐TiDB
- JVMTI Agent 工作原理及核心原始碼分析JVM原始碼
- Agent 工具開發指南:從設計到最佳化
- 智慧小車開發篇 - 低時延直播測試
- 5分鐘搞定 服務端 本地開發 遠端執行服務端
- [iOS]5 分鐘實現抖音 APPiOSAPP
- Java中OpenAI API客戶端原始碼教程JavaOpenAIAPI客戶端原始碼
- linux zabbix-6.0.1-Agent客戶端的安裝配置Linux客戶端
- 阿里雲AIoT雲端一體:迎接雲原生+低程式碼時代的到來阿里AI
- 開發直播app 軟體時iOS端廣告功能設定APPiOS
- 端到端智慧音響
- 遠端裝置管理opendx平臺搭建-server,agent以及front實際搭建Server
- LOL 客戶端實時計分板工具客戶端
- 帶你讀論文 | 端到端語音識別模型模型
- 遊戲5分鐘,上頭2小時!畫風可愛的音樂遊戲《Like A Giraffe!》遊戲
- 從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+客戶AI
- 詳解低延時高音質:編解碼篇
- open policy agent 語法總結