位元組 GUI 代理模型 UI-TARS:具備像人一樣的感知、推理、行動能力;SLAM-Omni:支援可控音色的語音對話模型
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@qqq,@ 鮑勃
01 有話題的技術
1、SLAM-Omni:單階段訓練下支援可控音色的語音對話模型
近幾個月來,許多端到端的語音對話系統湧現,旨在解決級聯絡統中互動延遲過高以及基於文字互動下副語言資訊丟失的問題。然而,目前大多數語音對話模型依賴於大量的語音對話資料以及高昂的訓練代價,且存在響應音色單一的弊端。
近日,上海交通大學計算機系 X-LANCE 實驗室聯合微軟亞洲研究院推出了面向低資源場景下支援可控音色的語音對話模型——SLAM-Omni。該模型只需要在 4 張 GPU 上單階段訓練 15 小時,即可獲得遠超此前同等規模模型的對話能力,並且具有優越的語音質量以及生成語音 - 文字一致性。在更大規模資料集上的實驗表明 SLAM-Omni 在中文對話以及多輪對話上都有不俗的表現。
目前所有的資料準備、模型訓練、推理已經開源。(@ 語音之家)
2、位元組跳動釋出了新一代原生 GUI 代理模型:UI-TARS,具備像人一樣的感知、推理、行動能力
位元組跳動釋出了新一代原生 GUI 代理模型:UI-TARS,具備像人一樣的感知、推理、行動能力,它把感知、推理、定位和記憶整合在了一起,不需要提前寫規則或設定固定流程即可實現端到端的任務自動化。
其支援跨平臺,桌面、移動端、網頁等,可以執行復雜的多步驟任務 ;理解文字、影像、互動多模態輸入,可實時監控介面變化,準確響應動態變化 ;支援點選、長按、快捷鍵等操作 ;支援任務分解和反思,具有錯誤修正能力。(@ AIGCLINK@X)
3、智譜 GLM-PC 開放體驗:自主操作電腦的多模態 Agent 再升級
GLM-PC 是基於智譜多模態大模型 CogAgent,全球首個面向公眾、回車即用的電腦智慧體(agent)。它能像人類一樣「觀察」和「操作」計算機,協助使用者高效完成各類電腦任務。
自2024年11月29日釋出 GLM-PC v1.0 並開放內測以來,智譜不斷最佳化升級,最新推出了「深度思考」模式,是結合當前流行的 AI 技術,包括自然語言處理(NLP)和機器學習(ML)等,確保使用者在多種情境下都能獲得精準的資訊處理建議。這種設計不僅符合現代辦公的需求,也為學生、程式設計師等專業使用者提供了強有力的工具支援。
除此之外,還增加了專用來做邏輯推理和程式碼生成的功能並且提供了對 Windows 系統的支援。(@ 智譜)
4、網易有道子曰-o1 推理模型正式開源釋出 專為消費級顯示卡設計
1 月 22 日,網易有道宣佈正式推出國內首個輸出分步式講解的推理模型「子曰-o1」,並宣佈該模型開源。
「子曰-o1」是一款 14B 輕量級單模型,專為消費級顯示卡設計,能夠在低視訊記憶體裝置上穩定執行。該模型採用思維鏈技術,能夠提供詳細的解題過程和邏輯推理,其執行思路更接近人類的思考方式。透過「自言自語」和自我糾錯的方式,模型可以輸出分步解題過程,幫助使用者更好地理解和掌握知識。
在教育領域的應用中,「子曰-o1」表現出色。它透過對教育領域資料的深度學習,最佳化了長思維鏈的準確度,並在訓練指令選擇上,大量使用學生試卷習題作為樣本,進一步提升了模型在教育場景中的應用效果。目前,「子曰-o1」已成功應用於有道旗下的「有道小 P」產品中,能夠實現「先提供解析思路、再提供答案」的答疑過程,引導學生主動思考,提升自主學習能力。
此次釋出的「子曰-o1」模型不僅在技術上實現了輕量化和高效推理,還為開發者提供了更具實效的工具。其開源的特性也意味著更多的開發者可以利用這一模型進行創新和開發,推動教育領域 AI 技術的進一步發展。
有道表示,將繼續以「場景為先」的理念,釋放推理模型在教育領域的應用價值,為學習者提供更高效、更智慧的學習體驗。(@ AIbase 基地)
5、階躍語音模型 Step-1o Audio 再升級
去年 12 月階躍釋出了國內首個千億引數端到端語音大模型,如今在情緒感知與理解、多語種和多方言、通話體驗上,又有了新的突破。
現在,它能感知你的情緒,精準識別出語氣語調中的特別之處。
共情是深度溝通的基礎。當使用者吐槽今天工作太累太累,它會貼心地送上問候,並願意傾聽,甚至還站在使用者的角度去考慮問題。
Step-1o Audio 也通曉一些人情世故。當男朋友生氣了,使用者尋求幫助,它會獻上高情商的良策。更有趣的是,還能夠讓 AI 線上「撒嬌」教學。
同時,它還支援多語種、多方言對話,在中英交流時,直接達到「同傳」的水平,而通話體驗,也更加低延遲、聲音更自然,有了個性化的風格。(@ 新智元)
6、位元組啟動 Seed Edge,加碼 AGI 研究
(圖片來源:EqualOcean)
據媒體報導,位元組豆包大模型團隊已在內部組建 AGI 長期研究團隊,代號「Seed Edge」,鼓勵專案成員探索更長週期、具有不確定性和大膽的 AGI 研究課題。Seed Edge 擬定的 5 大研究方向都相對長期,不會像迭代模型那樣追求快速出成果:
下一代推理:探索更高效且更通用、提升模型推理能力的方法。
下一代感知:找到統一生成和理解表示的方法,表示和壓縮真實世界,構建「世界模型」。
軟硬一體的模型設計:從軟硬一體出發,探索 Transformer+GPU 之外的模型設計,發揮下一代硬體的能力。
下一代正規化:在反向傳播、Transformer 架構、預訓練 + 對齊的模式之外,探索更高效的模型結構和學習方法。
下一代 Scaling 方向:在預訓練和推理階段的 Scaling Laws 之外,探索 Multi-Agent(多智慧體)和 Test-Time Training(測試時間訓練,動態調整模型引數)等方向。(@ 晚點獨家)
02 有亮點的產品
1、谷歌 Gemini Live 支援影像、影片和檔案互動
今日,谷歌宣佈了一些功能,這些功能使 Gemini 成為 Android 裝置上更實用、更個性化、更易用的助手。以下是 Gemini 的新功能。其中就包括透過 Gemini Live 使用影像、影片和檔案。
Gemini Live 提供更加自然流暢的對話體驗,能夠輔助使用者進行頭腦風暴、整理思路或簡化複雜議題。該功能專門為 Android 平臺設計,使用者可以輕鬆地從手機上的操作過渡到與 Gemini 的對話。目前,Gemini Live 變得更加靈活,允許使用者在對話中新增影像、檔案和 YouTube 影片。
Gemini Live 的影像、檔案和 YouTube 影片支援功能已於今日起在三星 Galaxy S24 和 S25 系列以及 Pixel 9 裝置上推出。谷歌計劃在未來幾周內將其擴充套件到更多 Android 裝置。此外,未來幾個月內,谷歌還將率先在 Android 上的 Gemini 移動應用和三星 Galaxy S25 上引入 Project Astra 功能,例如螢幕共享和實時影片流。(@ 谷歌)
2、未來智慧 AI 辦公耳機:可錄音轉寫、同傳聽譯、摘要總結、待辦提取等
據鈦媒體報導,AI 耳機公司未來智慧在北京宣佈完成數千萬元的 Pre-A 輪融資,此輪融資由萬物創投領投,初心資本跟投。
這家公司在 2021 年完成種子輪融資,2023 年完成天使輪融資,積累了不少資本支援。未來智慧表示,此次融資將主要用於提升算力和演算法服務、持續迭代與擴充產品矩陣、擴充海外市場以及完善線下渠道佈局。
未來智慧的 CEO 馬嘯表示,該公司致力於開發符合當前 AI 發展特點的耳機產品,選擇了一個更貼近使用者的場景 —— 辦公耳機。未來智慧在產品中引入了多項 AI 功能,包括錄音轉寫、同傳聽譯、摘要總結、待辦提取等,這些功能幫助使用者提升工作效率。
值得注意的是,未來智慧的耳機不僅在音質、續航和降噪等基礎功能上表現出色,還在 AI 應用方面不斷創新。馬嘯提到,未來智慧的新功能包括通話翻譯和 AI「嘴替」,這些功能可以在跨語言溝通中幫助使用者實現即時翻譯。該公司的產品迭代快,使用者留存率高,月活躍使用者增長顯著。(@ AIbase 基地)
3、Halliday AI 智慧眼鏡 Kickstarter 眾籌,有望首日實現 100 萬美金
2025年1月22日,備受關注的 Halliday AI 智慧眼鏡開始 Kickstarter 為期 45 天的眾籌。截至目前不到 24 小時已完成超 2000 單,85 萬美金的成績。按照現在的趨勢,今天有望首日實現 100 萬美金的成績,這是繼國產 AI 智慧眼鏡 Looktech、閃極 Loomos 之後,第 3 款登陸 Kickstarter 進行眾籌的 AI 智慧眼鏡。
從產品層面上 Halliday 的差異化較為明顯,主動式的 AI+ 獨特的 DigiWindows 的顯示方案一經發布便受到了廣泛的關注。Halliday AI 智慧眼鏡是由 Moody 聯合 Gyges Labs 共同打造的產品。
Halliday AI 智慧眼鏡售價 399 美金,且不帶拍攝功能,相比支援拍攝功能的 Meta-Rayban 還要貴 100 美金,這也表明沒有知名品牌加持的 AI 智慧眼鏡依然有很大的市場需求。(@ XR Vision Pro)
03 有態度的觀點
1、現代計算型強化學習之父:從瞬時到持續,邁向更好的深度學習
(圖片來源:Amii)
Rich Sutton 表示:「到了 2024 年,深度學習仍然在快速發展,但我們應該重新審視它的侷限性。因為對於智慧體來說,對於我們真正需要的強化學習來說,傳統的深度學習效果並不好。」
他還說:「我們應該有一個穩定的主幹網路,並且依賴這個主幹,在此基礎上不斷積累更多的知識。這種持續的積累和保護,將是實現動態深度學習的關鍵。而在主幹的外圍,有一個更加動態的邊緣網路。邊緣部分的任務是探索新可能性,嘗試變得有用併為主幹提供支援。」(@ Z potentials)
更多 Voice Agent 學習筆記:
2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布
對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點
這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢
語音即入口:AI 語音互動如何重塑下一代智慧應用
Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……
幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記
市場規模超 60 億美元,語音如何改變對話式 AI?
2024 語音模型前沿研究整理,Voice Agent 開發者必讀
從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶
WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- 海南話語音識別模型——模型訓練(一)模型
- GPUStack v0.4:文生圖模型、語音模型、推理引擎版本管理、離線支援和部署本地模型GPU模型
- 大模型缺乏基本推理能力?大模型
- .NET使用OllamaSharp實現大模型推理對話的簡單演示大模型
- 利用AutoGpt將任何模型支援o1模型的推理實現GPT模型
- CVPR 2024 | 一統所有目標感知任務,華科&位元組提出目標感知基礎模型GLEE模型
- 首個影片思維鏈推理框架Video-of-Thought來了:像人一樣從感知到認知全面推理影片框架IDE
- CosyVoice多語言、音色和情感控制模型,one-shot零樣本語音克隆模型本地部署(Win/Mac),通義實驗室開源模型Mac
- 投機取樣會損失大語言模型的推理精度嗎?模型
- 音訊驅動人像影片模型:位元組Loopy、CyberHost研究成果揭秘音訊模型OOP
- 【論文速讀】位元組跳動音樂生成模型 Seed-Music模型
- 利用非對話語料來豐富對話生成模型模型
- OpenAI 推出嵌入式硬體 SDK,支援 ESP32 語音開發;INFP:音訊驅動的雙人對話頭像生成,自動區分說話者和傾聽者OpenAI音訊
- 感知機模型模型
- 語音識別模型模型
- 實習生剛對位元組大模型“投毒”,兩人就聯手獲獎了大模型
- 語音頂會 ICASSP 2022 成果分享:基於時頻感知域模型的單通道語音增強演算法模型演算法
- 擁有“意識”的AI:如何讓大語言模型具備自我意識?AI模型
- 首個支援普通話和方言混說的TTS大模型:河南話、上海話、粵語說得溜TTS大模型
- 位元組音樂大模型炸場!Seed-Music釋出,支援一鍵生成高質量歌曲、片段編輯等大模型
- 大模型不只是語言能力,還是對廣闊世界的理解大模型
- Hume 語音模型 OCTAVE:實現情感語音合成、聲音克隆和多角色對話生成;通義開源多模態說話人識別專案 3D-Speaker模型3D
- 目前一對一語音視訊直播、交友、原始碼都具備哪些功能點?原始碼
- Springboot --- 使用國內的 AI 大模型 對話Spring BootAI大模型
- 像人一樣自然流暢地說話,下一代智慧對話系統還有多長的路要走?
- 【模型推理】Tengine 模型轉換及量化模型
- 大語言模型快速推理: 在 Habana Gaudi2 上推理 BLOOMZ模型OOM
- NVIDIA NeMo 如何支援對話式 AI 任務的訓練與推理?AI
- 像生物網路一樣「生長」,具備「結構可塑性」的自組織神經網路來了神經網路
- Sense 對話語音 AI:自動電話呼叫加快招聘流程;靈初智慧釋出端到端強化學習具身模型,實現長程任務泛化AI強化學習模型
- 語音合成領域的首個完全端到端模型,百度提出並行音訊波形生成模型ClariNet模型並行音訊
- HarmonyOS:使用 MindSpore Lite 引擎進行模型推理模型
- 讓大模型能聽會說,國內機構開源全球首個端到端語音對話模型Mini-Omni大模型
- 【CIKM 2023】擴散模型加速取樣演算法OLSS,大幅提升模型推理速度模型演算法
- 深度學習的可解釋性研究(一):讓模型「說人話」深度學習模型
- 位元組大模型團隊Depth Anything V2模型入選蘋果最新CoreML模型大模型蘋果REM
- 帶你瞭解大語音模型的前世今生模型
- 智慧語音電話機器人的優勢機器人
- 【推理引擎】ONNX 模型解析模型