M5Stack 釋出全雙工通訊語音識別硬體;雷蛇釋出 AI 遊戲伴侶 Project AVA,實時指導覆盤
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@Suna,@ 鮑勃
01 有話題的新聞
1、海螺 AI 推出「主體參考」功能,一張圖片就能玩轉電影大片
海螺 AI 推出全新主體參考功能,讓 AI 影片創作再上新臺階。使用者只需上傳一張圖片,就能讓任何人物角色在各種場景中自由活動,保持高度還原的同時又不失創作自由度。
與傳統的圖生影片技術相比,「主體參考」採用了完全不同的技術路線。它並非簡單地讓靜態圖片產生區域性動作,而是能夠基於文字提示詞(prompt)生成完整的影片片段。
從官方提供的影片可以看到,只要上傳一張人物的照片,系統不僅可以保持人物的面部特徵,還能讓人物在場景中做出任何自然的連貫動作,比如滑滑板,騎車,挑眉,皺眉等,在人物的臉部情感表達上也非常的生動細膩。
在技術實現層面,海螺 AI 選擇了基於圖片參考的路線,而非傳統的 LoRA 技術路線。這一選擇使得使用者無需提供大量素材,僅憑一張圖片就能準確識別並還原人物特徵。更重要的是,生成速度得到顯著提升,從之前的漫長等待縮短到了秒級響應。
作為一家成立僅 3 年的初創企業,MiniMax 憑藉海螺 AI 在全球 AI 影片生成領域確立了領先地位。未來,海螺 AI 計劃將「主體參考」功能擴充套件到多人、物體和場景等更多領域,進一步釋放創作潛能。(@ AIbase 基地)
2、阿里通義萬相 2.1 模型宣佈升級:首次實現中文文字影片生成功能,支援無限長 1080P 影片的高效編解碼
阿里旗下通義萬相宣佈推出 2.1 版本模型升級,影片生成、影像生成兩大能力均有顯著提升。
在影片生成方面,通義萬相 2.1 透過自研的高效 VAE 和 DiT 架構增強了時空上下文建模能力,支援無限長 1080P 影片的高效編解碼,首次實現了中文文字影片生成功能,登上 VBench 榜單第一。
據介紹,通義萬相 2.1 支援中英文影片,都可以一鍵生成藝術字,還提供多種影片特效選項,以增強視覺表現力,例如過渡、粒子效果、模擬等等。
值得一提的是,通義萬相 2.1 還支援複雜運鏡,可還原碰撞、反彈、切割、擠壓等真實世界的物理規律,例如雨滴落在傘上會濺起水花。
圖片生成方面,通義萬相 2.1 支援文生組圖,採用了 IC-LoRA 影像生成訓練方法,利用 DiT 架構,增強文字到影像的上下文能力;對多張影像進行拼接與聯合描述即可實現關聯影像間的組合生成,並保持特徵穩定連續。(@ IT 之家)
3、商湯科技釋出「日日新」融合大模型,與 DeepSeek V3 不相上下
商湯科技正式推出了「日日新」融合大模型。這款模型在多模態資訊處理能力和深度推理能力上實現了顯著提升,並在兩大權威評測榜單中獲得了第一名。
根據國內權威測評機構 SuperCLUE 釋出的《中文大模型基準測評 2024 年度報告》,商湯的「日日新」融合大模型以 68.3 的高分與 DeepSeek V3 並列國內榜首。此外,在 OpenCompass 的多模態評測中,該模型同樣位列第一,分數顯著超越了 GPT-4o。
「日日新」融合大模型的特點在於能夠同時處理多種複雜的資訊,不僅能夠識別模糊的文字,還能快速分析資料圖表,並提供深入的推理支援。在實際應用場景中,這款模型顯示出了其獨特的優勢,特別是在自動駕駛、影片互動、辦公教育、金融和工業製造等領域。
在產品開發過程中,商湯科技採用了大量的圖文交錯資料,透過先進的合成技術建立了模態之間的互動橋樑,增強了模型對多模態資訊的理解能力。此外,商湯還構建了豐富的跨模態任務,這為「日日新」融合大模型的訓練提供了紮實的基礎。透過這種創新的訓練方法,商湯的融合模態模型能夠在多種業務場景中有效響應使用者需求,實現了應用落地與基礎模型迭代的良性迴圈。(@ AIbase 基地)
4、聲網攜手博通整合,RTE+AI 賦能智慧硬體創新
1 月 8 日,中國領先的無線連線晶片設計企業博通整合在 CES 2025 展會上正式釋出人工智慧解決方案 AIDK(Artificial Intelligence Development Kit)。該方案將助力智慧硬體開發者快速構建具有出色人機互動體驗的創新產品。
為進一步展示 AIDK 解決方案的應用潛力,博通整合攜手聲網,充分利用聲網領先的實時多模態對話式 AI 技術,聯合推出了智慧眼鏡、陪伴機器人、智慧音響、智慧玩具等多款智慧產品原型機,這些原型機在不同場景中展現了突破性的對話能力和互動體驗,吸引了眾多參會者的關注。
據瞭解,博通整合 AIDK 解決方案基於其高效能晶片 BK7258,充分利用其強大的音影片處理能力、邊緣計算能力、無線連線能力和超低功耗等優勢,以及 Arm 生態系統在物理層安全和 Edge AI 等方面的優勢,結合本地深度學習框架和大語言模型(LLM),實現了人機實時互動體驗的顯著提升。
該解決方案提供從智慧裝置端側處理、網路加速到大語言模型對接的全套方案和應用示例,可大幅縮短智慧產品的開發週期,降低開發門檻。博通整合聯合聲網推出的多款智慧產品原型機,透過聲網自研的 SD-RTN™ 實時傳輸網路和超低延時對話能力,讓智慧硬體實現自然流暢的人機互動;同時,聲網的 AI VAD 技術和先進的音訊 3A 處理能力,確保在嘈雜環境中,裝置仍能清晰準確地理解使用者需求。此外,聲網靈活可擴充套件的 AI Agent 架構讓開發者可以根據業務場景快速接入 ASR、LLM 和 TTS 技術,極大降低開發複雜度,為智慧硬體賦能更多個性化與創新功能。聲網將針對智慧硬體行業的特殊性,持續最佳化 AI x IoT 智慧硬體解決方案,實現在低功耗、低算力晶片上快速接入大模型,保證低延時實時互動、低成本靈活適配的特性,透過豐富的功能在智慧硬體場景中構建真實、自然的 AI 語音互動體驗。
據悉,目前已有數家企業完成了 AIDK 的設計匯入,相關智慧產品即將量產釋出。博通整合表示,將持續投入研發,不斷完善 AIDK 解決方案,為全球智慧硬體開發者提供更強大的技術支援和更便捷的開發體驗。(@ 聲網)
02 有亮點的產品
1、Atomic Echo Base 語音識別底座
Atomic Echo Base 是一款專為 M5 Atom 系列主機設計的 語音識別 底座,整合了 ES8311 音訊解碼器、MEMS 麥克風和 NS4150B 功率放大器。它提供 24 位音訊解析度和 16KHz-64KHz 取樣率,支援 I2S 通訊和高保真音訊處理。配備的 MEMS 麥克風具有高訊雜比和數字輸出,特別適用於自動語音識別。
裝置內建的揚聲器可確保清晰的音訊播放,並支援全雙工通訊,允許同時傳送和接收聲音,從而提升語音識別、喚醒、錄音播放等互動功能。且支援呼叫最新的 OpenAI API,同時相容 Home Assistant。非常適合智慧家居和教育領域的應用。(@ M5Stack 明棧)
2、雷蛇 CES2025 釋出 AI 遊戲伴侶 Project AVA,實時指導覆盤助力玩家升級
雷蛇在 CES 2025 大會上震撼釋出了一款名為 Project AVA 的全新 AI 遊戲伴侶,這款產品旨在透過人工智慧技術,助力玩家在遊戲中更上一層樓。
Project AVA 是雷蛇的一次大膽嘗試,它將頂尖電競職業玩家和教練的遊戲智慧融入 AI 系統中,能夠為玩家在 MOBA 和 FPS 遊戲中提供實時的戰術指導。比賽結束後,它還會生成個性化的總結報告,精準指出玩家的高光操作和需要改進的地方,幫助玩家不斷進步。
不僅如此,Project AVA 在 ARPG 遊戲中同樣表現出色。它能夠在極短的時間內完成大量的遊戲模擬,迅速為玩家提供專業攻略,幫助他們規避 BOSS 的攻擊,解開復雜的謎題,順利透過難關。
這款 AI 遊戲伴侶還擁有強大的硬體最佳化功能。玩家只需輕輕一按,它就能自動調整電腦硬體的效能,提升遊戲幀數,縮短載入時間,並最佳化畫面效果,讓遊戲體驗更加流暢。同時,它還會定期檢查硬體、軟體和韌體的最新版本,提醒玩家及時更新,確保遊戲的穩定性和安全性。
Project AVA 的互動模式也非常多樣化,包括遊戲內嵌視窗、語音聊天和文字聊天框等,玩家可以根據自己的喜好和習慣選擇最適合的互動方式,與 AI 助手進行無縫溝通。
雷蛇對 Project AVA 充滿了信心,他們在官網上表示:「Project AVA 不僅僅是一個理念,它將成為現實。」為了更好地推廣這款產品,雷蛇還發布了徵集測試者的電子表格,邀請廣大玩家參與測試,共同見證這款 AI 遊戲伴侶的神奇魅力。(@ ITBearDaily)
3、Quick Mock:將 LinkedIn 職位描述轉化為即時模擬面試的 AI 工具
Quick Mock 是一個創新的 AI 驅動模擬面試平臺,專為求職者提供針對性的面試準備服務。其核心價值主張是將 LinkedIn 上的任何職位描述即時轉化為模擬面試,目標使用者群體主要是積極尋找工作機會的求職者。Quick Mock 解決了傳統面試準備方法缺乏針對性和實時性的痛點,抓住了 AI 輔助求職市場的新興機會。
在功能方面,產品突出了 AI 驅動的即時面試生成和個性化反饋兩大特點。使用者只需選擇感興趣的職位,點選按鈕即可開始模擬面試,AI 會根據職位描述生成相關問題,並提供詳細反饋以快速提升面試技能。這種高度個性化和即時性的面試準備方式,為 Quick Mock 帶來了顯著的差異化優勢。從使用者體驗角度看,產品設計為 Chrome 擴充套件程式,與 LinkedIn 無縫整合,為使用者提供便捷、高效的使用體驗。(@ Z Potentials)
03 有態度的觀點
1、彭博分析師:受 AI 影響,全球銀行業未來三到五年內將裁減最多 20 萬個職位
根據彭博智慧(Bloomberg Intelligence)釋出的分析,隨著 AI 逐漸取代當前由人工完成的工作任務,全球銀行業將在未來三到五年內裁減最多 20 萬個職位。
彭博智慧對資訊長和技術官的調查顯示,受訪者平均預期將裁減約 3% 的員工。報告撰寫人、彭博智慧高階分析師托馬什・諾茨爾指出,後勤、中臺和運營崗位最有可能受到影響。客戶服務領域可能會發生變化,機器人將承擔客戶相關的任務,而「瞭解客戶」等職能也將面臨威脅。「任何涉及重複性和常規任務的職位都面臨風險,但 AI 不會完全取代這些工作,更多的是推動工作方式的轉變。」
大約四分之一的受訪者認為,裁員幅度可能會更大,達到總人數的 5% 至 10%。彭博智慧調查的公司包括花旗集團、摩根大通和高盛集團等。
調查結果表明,行業將經歷深刻變革,從而提升盈利能力。根據彭博智慧的預測,到 2027 年,AI 的應用有望使銀行的稅前利潤比預期高出 12% 至 17%,即增加最多 1800 億美元的收入,主要源於生產力的提升。約 80% 的受訪者預計,生成式 AI 將在未來三到五年內至少提高 5% 的生產力和收入。(@IT 之家)
更多 Voice Agent 學習筆記:
對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點
這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢
語音即入口:AI 語音互動如何重塑下一代智慧應用
Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……
幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記
市場規模超 60 億美元,語音如何改變對話式 AI?
2024 語音模型前沿研究整理,Voice Agent 開發者必讀
從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶
WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?
人類級別語音 AI 路線圖丨 Voice Agent 學習筆記
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- 單工,半雙工,全雙工通訊區別
- 「立體視覺+AI 物體識別」,INDEMIND雙目避障模組正式釋出視覺AI
- 雷蛇2018款靈刃遊戲筆記本釋出:最小巧15寸 16999元起!遊戲筆記
- Devolver釋出會多款遊戲釋出dev遊戲
- Project Loom EA搶先體驗版本釋出ProjectOOM
- 盤點:2018亞馬遜釋出的智慧硬體產品亞馬遜
- 實時人工智慧:微軟釋出Project Brainwave預覽版人工智慧微軟ProjectAI
- 努比亞X釋出:雙側指紋識別+前後雙螢幕 售價3299元起
- WebRTC 作者加入 OpenAI 主導實時 AI 專案;TTS 小模型 OuteTTS v0.2 釋出:聲音克隆 + 多語言WebOpenAITTS模型
- WebRTC 作者加入 OpenAI 主導實時 AI 專案;TTS 小模型 OuteTTS v0.2 釋出:聲音克隆+多語言WebOpenAITTS模型
- 全雙工通訊的 WebSocketWeb
- 騰訊遊戲釋出兩款公益遊戲,關注視障群體生活體驗遊戲
- 《真·三國無雙 霸》亮相騰訊遊戲年度釋出會,全平臺預約正式開啟!遊戲
- 覆蓋40種語言:谷歌釋出多語言、多工NLP新基準XTREME谷歌REM
- 騰訊遊戲與NVIDIA合作釋出START雲遊戲服務遊戲
- 語音識別CTC演算法原理解釋演算法
- 通過unity Distribution Portal釋出華為渠道的遊戲Unity遊戲
- 騰訊遊戲2024釋出會:逾30款產品及多個遊戲科技專案釋出最新進展遊戲
- 自媒體一鍵釋出平臺,3分鐘釋出全平臺
- 通訊圈周盤點:全國工業和資訊化工作會議召開;新華三釋出萬兆工業乙太網交換機
- 首個實時 AI 影片生成技術釋出;科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報AI大模型開發者日報
- 全實境三國世界初露真容!《戰地無疆》亮相“SPARK 2023”騰訊遊戲釋出會Spark遊戲
- 開源即時通訊IM框架 MobileIMSDK v6.3 釋出框架
- gpt-4o-audio-preview 釋出,支援 STT/TTS 不含實時音訊;Ministral 3B/8B 端側模型釋出GPTViewTTS音訊模型
- 微信小遊戲 IP 限時合作計劃釋出!遊戲
- js訊息訂閱和釋出實現元件之間通訊JS元件
- Istio 1.1釋出,中文文件同時釋出
- SQL Server雙機熱備之釋出、訂閱實現實時同步SQLServer
- paho實現MQTTClient釋出訊息MQQTclient
- TapTap“遊戲事故保護”功能釋出APT遊戲
- OpenAI釋出Neural MMO :大型多智慧體遊戲環境OpenAI智慧體遊戲
- 【人臉識別】Gartner 釋出中國 AI 初創企業報告AI
- 硬蛋K-系統釋出會召開揭祕全志科技AI生態成果AI
- 阿里釋出顛覆性研究:AI首次具備“自主判案”能力阿里AI
- netcore釋出時 swagger xml釋出丟失問題NetCoreSwaggerXML
- 行業首創!巨人網路釋出多智慧體大模型AI原生遊戲玩法行業智慧體大模型AI遊戲
- 百度丘位元是什麼?百度丘位元上線,未來或實現AI語音伴侶AI
- Spring 各版本釋出時間與區別Spring
- 《殺手》官方IO Interactive新作:《Project 007》正式釋出Project