智譜釋出端到端多模態模型 GLM-Realtime,2 分鐘記憶能力;訊飛星火同傳語音大模型釋出,5 秒時延
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@qqq,@ 鮑勃
01 有話題的技術
1、Luma AI 推出 Ray2 影片生成模型,實現更快更自然的運動效果
Luma AI 近日在其 Dream Machine 生成 AI 影片創作平臺上推出了最新的影片生成模型 Ray2,這一創新在業內引起了廣泛關注。
Ray2 的推出標誌著 Luma AI 在影片生成技術上的又一突破。Luma AI 聯合創始人兼執行長阿米特・簡(Amit Jain)表示,Ray2 經過十倍於前代模型 Ray1 的計算訓練,具備「快速、自然、一致的運動和物理特性」。這一進步顯著提高了生成可用於生產的影片的成功率,使更多人能夠輕鬆進行影片創作。
目前,Ray2 主要支援文字生成影片功能,使用者可以輸入描述,生成 5 到 10 秒的短影片。儘管由於需求激增,生成影片的時間有時會達到幾分鐘,但模型本身的生成速度相當快。
Luma AI 分享的示例影片展現了 Ray2 的多樣性,包括一個人在南極暴風雪中奔跑的場景以及一位芭蕾舞者在北極冰面上表演的畫面。這些影片中的動作看起來生動流暢,且動作速度遠超其他競爭對手的 AI 生成影片,後者往往顯得有些緩慢。
使用者們對 Ray2 的反饋也非常積極,許多創作者在社交媒體上稱讚其出色的攝影效果、照明和真實感。不過,一些使用者在測試中發現,對於複雜的提示,生成結果可能會出現不自然和失真的情況。
官方表示,Ray2 最初在 Dream Machine 中提供給付費訂閱者,以控制生成排隊時間, Image/Video-to-Video(圖生影片,影片生成影片功能)以及更長時間的產品即將推出。(@AIbase 基地)
2、上海人工智慧實驗室:書生·浦語大模型升級
上海人工智慧實驗室宣佈其書生大模型迎來了重要版本升級,推出了書生・浦語 3.0(InternLM3)。據實驗室介紹,新的版本透過精煉的資料框架,顯著提升了資料使用效率,從而實現了思維密度的提升。
此次升級的 InternLM3-8B-Instruct 模型僅使用 4T 的資料進行訓練,官方表示其綜合效能超過了同等規模的開源模型,且訓練成本節約了超過 75%。值得注意的是,這一版本首次在通用模型中實現了常規對話與深度思考能力的融合,能夠更好地應對多樣化的真實使用場景。
在模型的評測方面,研究團隊基於司南 OpenCompass 開源評測框架,採用了一種統一可復現的方法進行評測。評測內容涉及 CMMLU、GPQA 等十多個權威評測集,涵蓋推理、數學、程式設計、指令跟隨、長文字生成、對話及綜合表現等多個維度。評測結果顯示,書生・浦語 3.0 在大多數評測集中的得分領先,綜合效能與 GPT-4o-mini 非常接近。
上海 AI 實驗室還表示,這一新版本的模型成為了開源社群中首個支援瀏覽器使用的通用對話模型,能夠支援 20 步以上的網頁跳轉,從而實現深度資訊的挖掘。(@AIbase 基地)
3、Vidu2.0 正式上線 10 秒生成短片,主體一致性效果更佳
國產影片大模型 Vidu 迎來重大升級,正式釋出 2.0 版本。新版本最顯著的提升在於生成速度的大幅躍遷,從原先的 30 秒縮短至驚人的 10 秒,效率提升高達三倍。理論上,使用者僅需花費 5 分鐘,即可生成長達 1 分鐘的影片素材。這一突破性的進展,無疑將極大加速影片內容的創作效率。
Vidu2.0 在提升速度的同時,也對影片質量進行了全面最佳化。新版本生成的影片在風格和主體的一致性上表現更佳,首尾幀過渡也更加自然流暢。此外,Vidu2.0 還推出了極具競爭力的超值套餐,創作成本低至每秒 4 分錢,大大降低了使用者的創作門檻。更值得一提的是,Vidu2.0 還提供了錯峰使用模式,在低峰時段不限量、不扣積分,讓使用者可以盡情釋放創作靈感。新版本還支援批次生成功能,一次性可生成四條影片素材,效率再度翻倍。
為了更好地服務國內使用者,Vidu2.0 中國站點也同步上線,並進行了多項本地化最佳化。使用者註冊流程更加快捷,介面設計也更符合中文使用者的使用習慣,操作更加直觀流暢。同時,新版本還支援本地支付方式,讓國內使用者操作更加便捷。
自 2024 年 7 月底全球上線以來,Vidu 憑藉其強大的效能和易用性,迅速贏得了全球使用者的青睞。僅用 20 天,使用者數就突破百萬;上線 100 天,使用者數更是突破千萬。
目前,Vidu 已服務全球超過 200 個國家和地區,使用者規模穩居行業前列。平臺累計生成的影片數量已突破億條,其中,全球首發的「參考生影片」功能上線僅三個月,產生的影片數量就已達千萬級別。每天,來自世界各地的使用者都在 Vidu 的助力下,釋放著無限的創意和想象力。Vidu2.0 的釋出,預示著影片創作領域將迎來又一次革命性的變革。(@AIbase 基地)
4、科大訊飛星火同傳語音大模型釋出:達到人類專家譯員水平
科大訊飛正式釋出了其最新研發的星火同傳語音大模型,標誌著國內首個具備端到端語音同傳能力的大模型正式面世。這一創新技術相較於訊飛此前的翻譯技術,實現了全場景翻譯效果的顯著提升,並大幅縮短了端到端的響應時間。
星火同傳語音大模型的釋出,為使用者帶來了更加流暢、精準的同傳體驗。在訊飛演示中,搭載了星火同傳語音大模型的訊飛翻譯機在英譯中語音同傳方面幾乎實現了無延遲,非常適合出國旅遊、國際展會等場景使用。這一最佳化不僅顯著提升了翻譯字幕的呈現速度,還保證了中英互譯的準確性。
據瞭解,星火同傳語音大模型支援譯文長度反向調控,語音到文字的端到端翻譯過程中,能夠流式地進行意群切分、語境理解和資訊重組。同時,流式語音合成技術還能夠支援意群韻律銜接和自適應語速調節,進一步提升了翻譯的自然度和流暢度。
在國際交流場景中,無論是日常對話、商務交流還是行業翻譯等高難度同傳翻譯需求,星火同傳語音大模型都展現出了卓越的效能。其內容完整度、資訊準確度以及語言質量均處於行業領先水平,並超越了谷歌 Gemini2.0 和 OpenAI GPT-4o 等同傳技術。最快可實現 5 秒以內的同傳時延,達到了人類專家譯員的水平。
科大訊飛的星火同傳語音大模型的釋出,不僅代表了國內 AI 翻譯技術的重大突破,也預示著未來國際交流將更加便捷和高效。(@AIbase 基地)
5、智譜 Realtime 新模型釋出,同步上新 API
基於對多模態模型的持續研究,智譜推出了全新的端到端多模態模型 GLM-Realtime。該模型在視訊通話上具備長達 2 分鐘的會話內容記憶能力。
此外,GLM-Realtime 模型在語音互動方面,支援端到端語音互動,尤其創新性地提供了清唱功能,讓大模型具備歌唱能力。
值得一提的是,GLM-Realtime 在實現完全實時互動的基礎上,進一步支援 Function Call 功能。這一功能使得 GLM-Realtime 不僅能夠依靠自身的知識和能力,還能靈活呼叫外部知識和工具,從而能夠擴充到更廣泛的應用場景當中。
為展示 GLM-Realtime 的實時互動能力,他們將 GLM-Realtime 整合到智慧眼鏡和陪伴娃娃中,使用者可以體驗到近乎實時的智慧助手互動。智譜相信具備影片&語音能力並能夠實時互動能力的 GLM-Realtime 模型,將為 AI 硬體奠定堅實的智慧基礎。
GLM-Realtime API 已經上線智譜開放平臺 bigmodel.cn,現階段可以免費呼叫。
02 有亮點的產品
1、Copilot Chat:可直接呼叫企業自有資料,執行端到端的超複雜自動化業務流程。
從陶氏化工到迪士尼,全球眾多「世界 500 強」正透過 Copilot 和 AI Agent 簡化其工作流程,創造一種全新的「人機協作」模式。所以,本次釋出的 Copilot Chat 主要面向的是企業客戶,幫他們擴大 AI 應用範圍實現降本增效。
Copilot Chat 主要功能介紹
AI Agent 功能: 現在使用者可以直接在 Copilot Chat 的聊天中,透過自然語言建立 Agent,用於執行自動化重複、枯燥、複雜的業務流程。
例如,客戶服務代表可在會議前透過 CRM Agent 查詢賬戶詳細資訊,現場服務人員可訪問 SharePoint 中儲存的分步說明和實時產品知識等。
如果企業想打造量身定製的 Agent 也沒問題,透過微軟釋出 Copilot Studio 中的 Agent SDK,可以自由連線 Azure AI Foundry,Semantic Kernel 等多種服務,可以將其部署在 Microsoft 365、Microsoft Teams、Web 或第三方應用中執行更復雜的跨端到端的自動化業務流程。
此外,Copilot Studio 也支援將 Agent 嵌入到 IVR 系統中執行多模態任務,只需提供特定資料集,Agent 就可以自動處理一系列複雜語音業務流程,包括語音識別、處理中斷、檢測靜默等。
例如,酒店可以把 AI Agent 整合在迎賓應用中,為客戶提供自動化語音引導服務改善使用體驗。
聊天功能: Copilot Chat 提供聊天功能,使用方法與 ChatGPT 一樣,可用於市場調查、撰寫發展戰略報告或準備會議資料等。
支援檔案上傳,能對 Word 文件總結要點、分析 Excel 表格資料、改進 PowerPoint 簡報,還可透過 Copilot Pages 實現人員和 AI 實時協作內容創作,並且能快速建立用於活動、產品釋出和社交媒體帖子的 AI 生成影像。
為了確保資料的安全性和合規性,Microsoft 365 Copilot Chat 內建了企業級資料保護(EDP)系統。使用者可以同一管理訪問控制、監控使用模式、確保資料隱私和安全。
目前,Copilot Chat 中的 Agent 功能已經可以使用,採用按需付費模式每條訊息的費用為 0.01 美元,也可以使用按月模式,每月 200 美元可使用 25,000 條訊息。(@AIGC 開放社群)
2、「Eko」:透過簡單的程式碼和自然語言幫助開發者快速構建可用於生產的「虛擬員工」。
近日,清華大學、復旦大學與史丹佛大學的研究團隊聯合釋出了一款名為「Eko」的 Agent 開發框架,旨在透過簡單的程式碼和自然語言幫助開發者快速構建可用於生產的「虛擬員工」。
Eko 框架能夠接管使用者的電腦和瀏覽器,代替人類完成各種繁瑣的任務。透過 Eko,使用者可以實現自動化的資料收集、測試和檔案管理等功能。例如,使用者可以設定 Eko 自動收集雅虎財經上的最新股票資料,並生成視覺化報告。又如,Eko 能夠進行登入頁面的自動化測試,以確保系統的安全性和穩定性。這一切都意味著,Eko 可以大大提升工作效率,減輕人類的負擔。
其核心技術創新主要體現在三個方面。首先是「混合智慧體表示」,它將自然語言與程式語言無縫結合,便於開發者表達高層次設計意圖。其次是「跨平臺 Agent 框架」,透過環境感知架構支援不同操作環境,確保 Eko 能夠在瀏覽器和電腦之間靈活應用。最後是「生產級干預機制」,Eko 允許人類對智慧體的工作流程進行實時監控與干預,保證任務的準確性和安全性。
Eko 的環境感知架構分為通用核心、環境特定工具和環境橋接三個層次。通用核心提供基礎功能,環境特定工具則根據不同環境最佳化操作。而環境橋接則負責不同平臺之間的資源管理和安全控制,確保高效互動。
此外,Eko 還引入了「視覺 - 互動要素聯合感知」的新穎解決方案,大幅提升了在複雜網頁中的任務精度和效率。這一框架將視覺識別與元素上下文資訊結合,最佳化了自動化操作的表現。
03 有態度的觀點
1、高通中國區董事長:AI 的最大價值在於全面賦能一切
近日,高通中國區董事長孟樸與鈦媒體進行對話,並表示 AI 的最大價值在於全面賦能產業、技術與產品。孟樸提到,AI 的最大價值在於全面賦能產業、技術與產品。他表示,在 AI 時代不會有單一的「殺手級」應用,但多樣化的創新將層出不窮。並且他可以預見,未來幾年,AI 將持續重塑 PC、手機、汽車,甚至工業領域的多種型別終端。同時孟樸還表示,AI 本身發展並非近幾年才興起,而是因大模型出現而加速,因此他覺得這只是剛剛開始,AI 是一個賦能的技術。並且透過 AI 所賦能的終端產品,會在今後幾年裡一代代疊加,變得花樣百出。此外,對於晶片公司在 AI 時代的挑戰,孟樸認為,一方面需滿足生成式 AI 對算力的新要求,進行晶片設計和架構創新,另一方面,要平衡效能、能效和成本,以確保移動終端的續航能力和使用者體驗。(@APPSO)
更多 Voice Agent 學習筆記:
2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布
對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點
這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢
語音即入口:AI 語音互動如何重塑下一代智慧應用
Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……
幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記
市場規模超 60 億美元,語音如何改變對話式 AI?
2024 語音模型前沿研究整理,Voice Agent 開發者必讀
從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶
WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- 通義釋出語音模型 MinMo:全雙工、多口音;MiniCPM-o :端側 GPT-4o 級視覺、語音、多模態實時流式大模型GPT視覺大模型
- 首個實時 AI 影片生成技術釋出;科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報AI大模型開發者日報
- 2024年釋出的多模態大語言模型和它們採用的設計方法模型
- gpt-4o-audio-preview 釋出,支援 STT/TTS 不含實時音訊;Ministral 3B/8B 端側模型釋出GPTViewTTS音訊模型
- 最懂工業的大模型來了!思謀釋出全球首個工業多模態大模型大模型
- 長文字、語音、視覺、結構化資料全覆蓋,中國移動九天善智多模態大模型震撼釋出視覺大模型
- 阿里釋出革新的音訊多模態模型 Qwen2-Audio;月之暗面回應大模型顯示「9.11 大於 9.9」丨 RTE 開發者日報阿里音訊大模型開發者日報
- 智源釋出FlagEval「百模」評測結果,丈量模型生態變局模型
- 松鼠Ai全新多模態智適應大模型釋出會重磅召開,智適應教育軟硬體全面升級AI大模型
- 大模型Grok-1.5釋出大模型
- OpenAI「草莓」兩週內釋出?網傳不是多模態,反應慢了10多秒OpenAI
- 多模態大模型大模型
- 帶你讀論文 | 端到端語音識別模型模型
- 基於飛槳PaddlePaddle的多種影像分類預訓練模型強勢釋出模型
- 語音合成領域的首個完全端到端模型,百度提出並行音訊波形生成模型ClariNet模型並行音訊
- 騰訊安全正式釋出《IoT安全能力圖譜》
- Istio 1.1釋出,中文文件同時釋出
- 多模態模型評測框架lmms-eval釋出!全面覆蓋,低成本,零汙染模型框架
- 騰訊安全釋出《應用安全開發能力圖譜》
- 騰訊安全釋出資料安全合規能力圖譜
- 國產大模型群雄逐“滬”,訊飛星火如何閃耀WAIC?大模型AI
- 復旦等釋出AnyGPT:任意模態輸入輸出,影像、音樂、文字、語音都支援GPT
- flutter打包釋出web端FlutterWeb
- 語音識別新正規化:完全的“端到端”模型,優勢在哪裡?模型
- 國內首個端到端通用語音大模型——心辰Lingo開放內測預約大模型Go
- 重磅:谷歌釋出最強大AI模型【Google Gemini】谷歌AI模型Go
- 【論文閱讀筆記】多模態大語言模型必讀 —— LLaVA筆記模型
- 小林同學智慧AI大模型語音助手AI大模型
- Steamworks 秋季回顧:Steam 庫釋出、遠端同樂等諸多內容
- 全球140+大模型全方位評測結果出爐,智源評測體系釋出大模型
- 讓大模型能聽會說,國內機構開源全球首個端到端語音對話模型Mini-Omni大模型
- 影片、影像、文字,只需基於下一個Token預測:智源Emu3釋出,驗證多模態模型新正規化模型
- WebRTC 作者加入 OpenAI 主導實時 AI 專案;TTS 小模型 OuteTTS v0.2 釋出:聲音克隆 + 多語言WebOpenAITTS模型
- WebRTC 作者加入 OpenAI 主導實時 AI 專案;TTS 小模型 OuteTTS v0.2 釋出:聲音克隆+多語言WebOpenAITTS模型
- 【ODPS新品釋出第2期】實時數倉Hologres:推出計算組例項//向量計算+大模型等新能力大模型
- 多賬號自媒體工具,多平臺同時釋出
- 訊飛星火大模型 與New Bing實測對比大模型
- 國產大模型新高度!訊飛星火4.0釋出:整體超越GPT-4 Turbo,8個國際權威測試集測評第一大模型GPT