Llama 4 即將釋出,引入語音能力;AI 智慧運動眼鏡 BleeqUp:實時對講、AI 自動成片等功能丨日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 技術 」、「有亮點的 產品 」、「有思考的 文章 」、「有態度的 觀點 」、「有看點的 活動 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@qqq、@ 鮑勃
01 有話題的技術
1、蜜月期結束,微軟自研 AI 模型
據 The Information 援引知情人士訊息稱,微軟公司已成功研發一系列內部人工智慧模型,名為 MAI,其測試效能表明可與 OpenAI 和 Anthropic 的模型相媲美。這些模型有望為微軟的 Copilot 智慧助手提供支援,增強其處理使用者問題和提供具體建議的能力。
除基礎模型外,微軟還在開發「推理模型」,旨在解決更復雜的查詢並展現類人思維能力。值得注意的是,微軟上月已將 OpenAI 的 o1 推理模型整合進 Copilot 產品中。有趣的是,報導中提到微軟希望能夠檢視 OpenAI o1 模型在推理過程中的「思維鏈」,以便在自家的 AI 模型中複製相關技術。然而,OpenAI 拒絕了微軟的要求,這也讓微軟的研究團隊在研發自己的 AI 模型時遇到了困難。
此外,微軟發言人表示,公司正採用混合模型策略,包括繼續與 OpenAI 保持深度合作,同時利用自研 AI 模型和開源模型。這一策略可能減輕微軟對 OpenAI 的依賴,後者已獲得微軟約 130 億美元的投資。兩家公司最近重新談判合作協議,允許 OpenAI 在某些條件下使用其他雲端計算服務商的伺服器,該協議將持續至 2030 年。微軟首席財務官艾米·胡德在近期會議上強調,雙方都在為未來十年乃至二十年的發展做規劃。除 MAI 外,微軟已推出名為 Phi 的小型模型,並銷售多家公司的 AI 模型產品。據報導,微軟還測試了包括 Anthropic、Meta 和馬斯克的 xAI 等公司模型作為 Copilot 的備選方案。( APPSO)
2、Llama 4 將在幾周內推出改進的語音功能
據金融時報報導,Meta 公司計劃在未來幾周推出的最新開源大型語言模型 Llama 4 中引入改進的語音功能。據知情人士透露,Meta 將注重打造更接近自然對話的使用者體驗,允許使用者在交流過程中隨時打斷 AI 助手,而非遵循嚴格的問答模式。 商業方面,報導稱 Meta 正考慮為其 AI 助手推出高階訂閱服務,提供預訂和影片製作等 Agent 功能。
公司還計劃在 AI 助手的搜尋結果中引入付費廣告或贊助內容。另外,祖克伯今年還宣佈了打造具備中級工程師能力的 AI Agent,他認為這一領域擁有非常大的市場潛力。
Meta 首席產品官克里斯·考克斯近日在摩根士丹利會議上表示,Llama 4 將是一種「全能模式」,其中語音將成為「原生功能」,而非簡單地將語音轉文字再轉回語音的過程。他強調:「你可以與網際網路對話,向它詢問任何事情,這種能力的強大之處我們仍在不斷探索。」(@ APPSO)
02 有亮點的產品
1、聯手 Perplexity,德國電信計劃年內推出「AI 手機」
德國電信近日在 MWC 上宣佈,將與 AI 公司 Perplexity 聯合打造一款 AI 手機。這款手機將於今年下半年正式亮相,並計劃在 2026 年正式上市銷售,售價將低於 1000 美元,初期主要針對歐洲市場。Perplexity 聯合創始人兼 CEO Aravind Srinivas 表示,Perplexity 正從一個簡單的「回答機器」轉變為「行動機器」,不僅能回答問題,還能為使用者預訂航班、安排餐廳、傳送郵件、撥打電話、設定提醒等多種任務。
德國電信表示,其推出的 AI 手機能夠扮演使用者「虛擬助手」的角色。無論是查詢資訊、預訂計程車、安排餐廳用餐,還是完成購物等任務,都可以透過一個統一的應用程式實現,省去了在不同應用之間來回切換的麻煩。
此外,這款手機內建的人工智慧功能還可以最佳化多種日常操作,例如撰寫電子郵件、進行語言翻譯、播放音樂以及撥打電話等。使用者只需雙擊電源鍵,或者從鎖屏介面直接點選,即可進入 Magenta AI 平臺。該平臺初期將整合 Perplexity 提供的 AI 助手服務,後續還將陸續引入 Google Cloud AI(內容分析)、ElevenLabs 以及 Picsart 等功能模組,進一步擴充套件其服務能力。(@ APPSO)
2、黑鯊魔戒 2 智慧戒指釋出:支援手勢刷短影片,749 元
3 月 9 日黑鯊現已在京東上架「黑鯊魔戒 2」智慧戒指產品,在產品重量、寬度、續航、控制方面上均有所改進,定價為 749 元。
據介紹,這款智慧戒指整體重量 4 克,可選黑、銀、深空灰、金色配色,可以 24 小時監測使用者心率、血氧、卡路里、步數資訊,同時支援睡眠監測功能,整體續航約 7-10 天,在搭配充電盒使用情況下可實現 70-90 天續航。
該智慧戒指新增手勢識別功能,號稱可以實現「手指搖一搖」切換短影片,但官方沒有公佈其他場景。(@ IT 之家)
3、致敬未知推出全新 AI 智慧運動眼鏡,具備實時對講、AI 自動成片等功能
MWC 2025 已經成功舉辦,目前已知很多業內廠商都推出了新的產品或技術。
致敬未知於 MWC 2025 展會上推出了全新品牌 BleeqUp,同時也推出了全新的 AI 眼鏡產品——BleeqUp Ranger 智慧運動眼鏡。
據瞭解,BleeqUp Ranger 是一款由 GPT 驅動的智慧騎行眼鏡。作為一款四合一智慧騎行眼鏡,BleeqUp Ranger 具備 AI 自動攝像、運動藍芽耳機、防護眼鏡、實時對講、AI 自動成片等功能,全面提升了騎行體驗和樂趣。產品主要適用於騎行、跑步等戶外運動場景,是專為騎行等戶外運動人群量身打造的 AI 運動眼鏡。
在設計上,BleeqUp Ranger 採用輕質耐用的 TR90 材料製成,可將運動相機、耳機和對講機組合成一個裝備,同時將重量保持在 50 克以下。(@ VRAR 星球)
4、矽基智慧推出 HeyGen 開源替代品:HeyGem
HeyGem 是矽基智慧推出的全離線數字人合成工具,支援透過文字和語音驅動數字人形象。提供了從安裝 Docker 到啟動的詳細教程。
目前放出的程式碼只開源了 前端部分,最核心依賴的 3 個 Docker 映象並未開源。(@ 三花 AI )
5、Hedra 推出 Character-3:多模態 AI 數字人影片生成模型
Character-3 是由 Hedra 開發的一個 AI 數字人影片生成模型。它能夠同時處理多種輸入型別,包括影像、文字和音訊,並透過聯合推理生成更高質量的影片。
這一代在頭部和身體協調性方面進步不錯,英文效果非常出色,但中文語音口型對齊的效果還有待提升。
使用者可以在 Hedra Studio 上使用 Character-3,每月免費獲得 400 積分。訂閱服務分為多個檔次,最低檔為 10 美元提供 1000 積分,最高檔為 75 美元提供 11000 積分。(@ 三花 AI )
03 有態度的觀點
1、Hugging Face 首席科學官:我們需要敢質疑的 AI
Hugging Face 聯合創始人兼首席科學官 Thomas Wolf 最近發文稱,如果人工智慧研究沒有實質性突破,AI 可能僅會成為「伺服器上的唯唯諾諾者」,而非真正的創新者。Wolf 認為,當前的 AI 發展路徑難以產生能夠進行創造性思考和突破性解決方案的系統。他指出,現有的 AI 模型更像是「非常聽話的學生」,擅長填補已知知識之間的空白,但缺乏質疑現有認知框架和提出全新問題的能力。
「人們通常犯的主要錯誤是認為牛頓或愛因斯坦等人只是優秀學生的放大版。」 沃爾夫在文章中寫道,「要在資料中心創造愛因斯坦,我們不僅需要一個知道所有答案的系統,而且還需要一個能夠提出別人從未想過或不敢問的問題的系統。」沃爾夫將這一問題部分歸因於 AI 領域的「評估危機」。
他指出,目前用於衡量 AI 系統進步的基準測試大多集中在有明確、封閉式答案的問題上,這限制了系統發展出質疑和創新能力的可能性。作為解決方案,他建議行業應當發展新的評估標準,能夠測量 AI 是否能採取「大膽的反事實方法」,並基於微小線索提出一般性建議。「科學最重要的方面是提出正確問題和質疑自己所學知識的能力,我們不需要一個能用常識回答所有問題的 A+ 學生,而是需要一個能看到並質疑其他人所錯過的東西的 B 級學生。」(@ APPSO)
更多 Voice Agent 學習筆記:
世界最炙手可熱的語音 AI 公司,舉辦了一場全球駭客松,冠軍作品你可能已經看過
多模態 AI 怎麼玩?這裡有 18 個腦洞
AI 重塑宗教體驗,語音 Agent 能否成為突破點?
對話 TalktoApps 創始人:Voice AI 提高了我五倍的生產力,語音輸入是人機互動的未來
2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布
對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點
這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢
語音即入口:AI 語音互動如何重塑下一代智慧應用
寫在最後:
我們歡迎更多的小夥伴參與 「RTE 開發者日報」 內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- 語音生成模型 PlayDialog:可生成對話播客、旁白;小米 AI 眼鏡將於明年 Q2 釋出丨 RTE 開發者日報模型AI開發者日報
- Hume AI 即將推出新 AI 語音產品;聲網上線對話式 AI 引擎,15 分鐘讓 DeepSeek 開口說話丨日報AI
- 接入語音盒子,廣東成人玩偶公司走紅;AI 語音訪談員 Chikka 登頂 PH 日榜:AI 語音收集反饋,即時生成洞察報告丨日報AI
- DeepSeek 即將釋出 5 個開源專案;Cartesia Voice Changer:聲音轉換、克隆和實時語音翻譯丨日報
- 2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布AI
- 微軟預計年底實現實時語音介面;矽基智慧開源 AI 數字人互動平臺 Duix 丨 RTE 開發者日報微軟AIUI開發者日報
- 亞馬遜秘密研發 AI 對標 ChatGPT;語音 AI 未來五年或將釋放 100 億美元市場 丨 RTE 開發者日報亞馬遜AIChatGPT開發者日報
- ChatGPT 支援語音實時搜尋;Meta Ray-Ban 智慧眼鏡新增影片識別與實時語音翻譯功能丨 RTE 開發者日報ChatGPT開發者日報
- 聯合國釋出AI報告:自動化和AI對亞洲有巨大影響【附報告下載】AI
- 基於 Groq 和 Cartesia 的高速 AI 語音助手釋出;xAI 將自行打造超級計算機丨 RTE 開發者日報AI計算機開發者日報
- 移動財報:向AI矇眼狂奔AI
- 阿里AI智慧音響現在有了視覺能力,跟人互動時表情豐富阿里AI視覺
- GPT-4狂飆釋出,AI時代運維將產生哪些變革GPTAI運維
- 首個實時 AI 影片生成技術釋出;科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報AI大模型開發者日報
- Rokid Glasses AR 眼鏡釋出,搭載通義 AI;3D 社交平臺 SEELE 完成千萬美元融資丨 RTE 開發者日報AI3D開發者日報
- Rokid Glasses AR 眼鏡釋出,搭載通義 AI;3D 社交平臺 SEELE 完成千萬美元融資丨RTE 開發者日報AI3D開發者日報
- Meta 無預警釋出新一代 AI 眼鏡 Aria Gen 2;騰訊混元 Turbo S 模型將長短思維鏈融合丨日報AI模型
- Neuralink 將啟動第二例人類腦機晶片植入;多項 Claude 3.5 Sonnet AI 工具釋出丨 RTE 開發者日報晶片AI開發者日報
- Web 端語音對話 AI 示例:使用 Whisper 和 llama.cpp 構建語音聊天機器人WebAI機器人
- 英偉達世界基礎模型 Cosmos,教 AI 理解物理世界;阿里通義與雷鳥合作推出 AI 眼鏡丨 RTE 開發者日報模型AI阿里開發者日報
- Sense 對話語音 AI:自動電話呼叫加快招聘流程;靈初智慧釋出端到端強化學習具身模型,實現長程任務泛化AI強化學習模型
- 教育行業AI應用Cerebrium建立實時RAG語音智慧體行業AI智慧體
- Anthropic 計劃為 Claude 釋出「雙向」語音模式;商湯「日日新」實時音影片對話服務開放商用丨 RTE 開發者日報模式開發者日報
- Hume AI 語音控制功能:建立個性化語音;李飛飛空間智慧首個模型:單圖生成 3D 互動場景丨 RTE 開發者日報AI模型3D開發者日報
- 利用AI智慧體實現自動化公開課AI智慧體
- 看AI如何打造自動駕駛“千里眼”AI自動駕駛
- 即將釋出的ionic4有哪些激動人心的新特性
- Grok 3 語音功能上線,「髒話冒犯」模式引熱議;Voice Agent Demo 分享:實時 AI 解說員丨日報模式AI
- ODG釋出兩款AR眼鏡,將在CES 2017上展示
- 大動作!9月17日,康佳AI智慧頭盔即將亮相2021重慶國際摩博會AI
- 活動報名丨AI ProCon 2020火爆來襲!AI
- AI自動化將如何影響就業?AI就業
- JS實現將文字轉換為語音並自動播放JS
- 融入語音互動技術,搜狗地圖釋出智慧副駕地圖
- 實時語音互動,打造更加智慧便捷的應用
- 蘋果滑鼠有望加入 AI 語音控制功能;Accent Oracl :準確識別你口音的 AI 丨 RTE 開發者日報蘋果AI開發者日報
- 新增 EtherNet/IP 驅動,v2.3 即將釋出
- ODG釋出兩款AR眼鏡,將在CES2017上展示