Meta 無預警釋出新一代 AI 眼鏡 Aria Gen 2;騰訊混元 Turbo S 模型將長短思維鏈融合丨日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 技術 」、「有亮點的 產品 」、「有思考的 文章 」、「有態度的 觀點 」、「有看點的 活動 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@qqq、@ 鮑勃
01 有話題的技術
1、OpenAI 最大最貴的模型,GPT-4.5 釋出
OpenAI 正式釋出旗下 GPT-4.5 模型。API 價格方面,因 GPT-4.5 計算量極大,成本高昂,相較於 GPT-4o 價格有了較高上漲。GPT-4.5 支援聯網搜尋,能夠處理檔案和圖片上傳,還可以使用 Canvas 來進行寫作和程式設計。不過,目前 GPT-4.5 還不支援多模態功能,如語音模式、影片和螢幕共享。
GPT-4.5 主要透過「無監督學習」(就是自己從大量資料中學習)變得更聰明,而不是像 OpenAI o1 或者 DeepSeek R1 那樣專注於推理能力。簡單說,GPT-4.5 知道的更多,而 o1 系列更會思考。
API 價格方面,因 GPT-4.5 計算量極大,成本高昂,價格漲到了 75 美元 / 百萬 tokens,是 GPT-4o 的 30 倍,更是 DeepSeek 的 280 倍。Sam Altman 提到,GPT-4.5 不是推理型模型,不會在基準測試中碾壓其他模型。在目前曝出的實測中,效能的提升遠沒有價格大。
GPT-4.5 的更新要點
知識更廣泛:它學習了更多的資訊,所以懂的東西比以前多
更少胡說八道:減少了「幻覺」(就是 AI 編造事實的情況)
更懂人心:「情商」更高,更能理解你的真實意圖
對話更自然:聊天感覺更像和真人交流,不那麼機械
創意更豐富:在寫作和設計方面表現更好從今天開始,ChatGPT Pro 使用者已經可以用上 GPT-4.5(研究預覽版)了。
下週,將會逐步開放給 Plus 和 Team 使用者;再下一週則是 Enterprise 和 Edu 使用者。(@ APPSO)
2、Kimi 新模型 k1.6 曝光,程式碼生成能力超越 GPT o3-mini
近日,月之暗面旗下 Kimi 的最新模型 k1.6 曝光。據全球動態基準測試平臺 LiveCodeBench 顯示,k1.6 登上測試榜榜首。具體顯示,k1.6-high 在多項程式碼生成基準測試中超越 OpenAI 的 GPT o3-mini、o1 和通義 QwQ-Max 等多款模型。
成績公佈後,月之暗面研究員 Flood Sung 在其個人社交賬號表示,榜單中的 k1.6 是一個基於 k1.5 持續訓練程式碼能力的特定版本,目前 k1.6 還在不斷訓練並提升效能。此外,月之暗面創始人張予彤也在朋友圈表示,k1.6 還沒有釋出,但看到 LiveCodeBench 的成績感到開心,期待智慧模型的持續進化。(@ APPSO)
3、語音合成也遵循 Scaling Law,太乙真人「原聲放送」講解論文 ,港科大等開源
活久見,太乙真人給講論文了。
「咳咳,諸位道友且聽我一番嘮叨。老道我閉關數日,所得一篇妙訣,便是此 Llasa 之法。此術上個月一出,海外仙長們無不瞠目結舌,直呼「HOLY SHIT」」。
熱度最高時,曾在 huggingface 上的「丹藥熱度榜」上排第六。
如上引發圍觀的成果由香港科技大學等聯合推出,它驗證語音合成模型,也可以遵循 Scaling Law,即擴充套件計算資源、語音合成效果可以更好。
它核心提出了一個語音合成的簡單框架 Llasa,該框架採用單層 VQ 編解碼器和單個 Transformer 架構,和標準 LLM 保持一致。
研究團隊提供了 TTS 模型(1B、3B、8B)、編解碼器的 checkpoint 以及訓練程式碼。
論文連結:https://arxiv.org/abs/2502.04128@ 量子位)(
4、騰訊推出新一代快思考模型混元 Turbo S
2 月 27 日,騰訊混元自研的快思考模型 Turbo S 正式釋出。據官方介紹,區別於 Deepseek R1、混元 T1 等需要「想一下再回復」的慢思考模型,混元 Turbo S 能夠實現「秒回」,吐字速度提升一倍,首字時延降低 44%,同時在知識、數理、創作等方面也有突出表現。透過模型架構創新,Turbo S 部署成本也大幅下降。具體來看,在業界通用的多個公開 Benchmark 上,騰訊混元 Turbo S 在知識、數學、推理等多個領域展現出對標 DeepSeek V3、GPT 4o、Claude3.5 等業界領先模型的效果表現。
同時透過長短思維鏈融合,騰訊混元 Turbo S 在保持文科類問題快思考體驗的同時,基於混元 T1 模型合成的長思維鏈資料,顯著改進了理科推理能力。架構方面,透過創新性地採用了 Hybrid-Mamba-Transformer 融合模式,混元 Turbo S 有效降低了傳統 Transformer 結構的計算複雜度,減少了 KV-Cache 快取佔用,實現訓練和推理成本的下降。
目前,騰訊混元 Turbo S 模型已在騰訊雲官網上架,開發者和企業使用者可以透過 API 呼叫,同時將逐步在騰訊元寶灰度上線。騰訊混元還表示,正式版的混元 T1 模型 API 也即將上線,對外提供接入服務。(@ APPSO)
5、Meta 無預警釋出新一代 AI 眼鏡,專為 AI 和機器人研究打造
Meta 今日正式推出第二代 Aria 智慧眼鏡(Aria Gen 2),計劃面向從事機器感知系統、人工智慧和機器人技術研究的第三方科研人員開放使用。
此次釋出的第二代 Aria 眼鏡延續了無螢幕設計,但配備了升級版感測器套件,包含 RGB 攝像頭、定位追蹤攝像頭、眼球追蹤攝像頭、空間麥克風陣列、慣性測量單元(IMU)、氣壓計、磁力計、全球導航衛星系統(GNSS)以及定製化 Meta 晶片。
Meta 設想透過 Aria 的 SLAM 技術,使用者可在 GPS 訊號薄弱或缺失的室內環境實現自主建圖與導航——這種視覺定位系統(VPS)既能輔助城市街道導航,也可幫助在商店內精準定位目標商品。
Aria 第二代的獨特價值
頂尖感測器陣列:升級後的感測器系統包含 RGB 攝像頭、六自由度 SLAM 攝像頭、眼動追蹤攝像頭、空間麥克風、慣性測量單元(IMU)、氣壓計、磁力計及全球導航衛星系統(GNSS)。相較於前代,本代創新性在鼻託處嵌入了兩大感測器:用於心率監測的光電容積描記(PPG)感測器,以及可區分佩戴者與周圍人聲的接觸式麥克風。
超低功耗裝置端機器感知處理:SLAM、眼動追蹤、手勢識別及語音識別均由 Meta 定製晶片在裝置端完成計算。
全天候使用體驗:支援 6-8 小時持續執行,整機重量約 75 克,配備可摺疊鏡腿提升便攜性。
音訊互動系統:透過行業領先的開放式主動降噪揚聲器提供音訊反饋,支援使用者參與式系統原型開發。(@ 三次方 AIRX)
02 有亮點的產品
1、Lingo.dev :一款能在幾分鐘內將應用翻譯成多種語言的 AI 本地化引擎
(圖片來源:Product Hunt)
https://lingo.dev/zh
Lingo.dev 是一款創新的 AI 本地化引擎,其核心價值主張是將耗時數週的翻譯工作轉化為自動化的拉取請求,大幅提高應用本地化的效率。目標使用者主要是需要快速部署多語言應用的開發團隊,特別是那些追求高效開發流程的團隊。Lingo.dev 解決了傳統應用本地化耗時長、成本高的關鍵痛點,同時抓住了全球化市場對快速本地化解決方案日益增長的需求。
在功能與體驗方面,Lingo.dev 的核心亮點包括
AI 驅動的翻譯引擎,能夠理解 UI 元素的位置和微觀上下文;
開發者友好的設計,提供 API 和 SDK 支援;
自動化的拉取請求功能,無縫整合到開發流程中。
與傳統翻譯服務相比,Lingo.dev 的差異化優勢在於其對開發環境的深度理解和整合,以及 AI 技術帶來的高效率和準確性。
使用者體驗方面,產品提供了 1000 美元的免費額度,讓使用者可以輕鬆嘗試和評估服務質量。(@ Z Potentials)
2、Figure 機器人加速進軍家庭場景 2025 年啟動 Alpha 測試挑戰行業極限
灣區機器人新銳 Figure 正以超預期速度推進其家庭機器人計劃。公司創始人 Brett Adcock 週四宣佈,將於 2025 年下半年啟動 Figure02 人形機器人的家庭環境 Alpha 測試,這一時間表較業界預期大幅提前。推動這一激進計劃的核心是 Figure 最新研發的 Helix 系統——一個集視覺、語言與動作於一體的通用 AI 模型。
Helix 的突破性在於其多模態學習能力,可同時處理視覺資料和自然語言指令,顯著提升機器人學習新任務的效率。這一自主研發的技術路線標誌著 Figure 與 OpenAI 分道揚鑣後的戰略轉向。在近期展示中,Helix 已能協調兩個機器人協同完成烹飪等複雜家務,展現出強大的任務執行能力。
儘管家庭場景被普遍視為人形機器人的終極目標,Figure 卻採取了「先工業後家庭」的務實策略。2024 年初,該公司已在寶馬南卡羅來納州工廠展開工業試點,利用結構化環境積累實戰經驗。這一選擇與特斯拉、Apptronik 等行業玩家不謀而合,反映出工業場景在技術成熟度和商業可行性上的雙重優勢。(@ AIbase 基地)
3、Fleet AI Copilot :一款簡化 IT 生活的 AI 驅動 IT 助手聊天機器人
(圖片來源:Product Hunt)
https://fleet.co/en/ai-copilot
Fleet AI Copilot 是一款創新的 AI 驅動 IT 助手,其核心價值主張是透過智慧化手段簡化裝置管理和日常 IT 任務。目標使用者主要是尋求提高 IT 運營效率的企業和 IT 團隊。該產品解決了傳統 IT 管理複雜、耗時的痛點,同時抓住了 AI 在 IT 運營領域應用日益廣泛的市場機遇。
在功能與體驗方面,Fleet AI Copilot 的核心亮點
個性化支援,根據使用者需求提供定製化服務;
集中化運營,整合 IT 管理流程;
自適應能力,能夠根據使用者需求不斷最佳化。與傳統 IT 管理工具相比,Fleet AI Copilot 的差異化優勢在於其 AI
驅動的智慧化和自動化能力,能夠顯著提升 IT 運營效率。(@ Z Potentials)
03 有態度的觀點
1、DeepMind 首席科學家:「慢思考」模式將能提升 AI 效能
近日,Google DeepMind 首席科學家 Jack Rae 接受訪談,其指出「慢思考」模式將能提升 AI 效能。採訪時,Jack 表達了自己對於大模型「慢思考」模式的看法。其認為,即使對於人類而言在回應之前也會花更多時間思考,而大模型也一樣,在不斷的深入思考中,人類和大模型都能不斷發現正確或者是錯誤,並隨時進行修改。因此在模型進行更長時間思考時,答案可能還會更加準確。Jack 還以上面的觀點進行展開,其指出推理模型是模型發展的新正規化。
推理模型並非追求即時響應,而是透過增加推理時的思考時間來提升答案質量,Jack 認為,這也導致了一種新的 Scaling Law,「慢思考」模式是提升 AI 效能的有效途徑。此外,Jack 還判斷了推理模型與 AI Agent 的未來。他認為,對於構建有用的 AI Agent 能力而言,推理能力至關重要,原因分別是可靠性和複雜問題的解決能力。
Jack 提到,AI Agent 要開始執行第一步,就必須經過思考,因此他認為 AI Agent 能力與思考和推理能力是緊密相連、不可分割的。(@ APPSO)
04 Real-time AI Demo 分享
1、透過手勢識別讓 Gemini 分析環境視覺資訊
Google Creative Lab 的 Tina 使用 Gemini 2.0 Flash 和 Mediapipe 構建了一個將手變成木偶的實驗。透過檢測手何時張開 + 實時捕獲網路攝像頭影像,Gemini 分析所處環境並生成情境感知的思考。將提示調整為僅關注顏色,木偶的回答立即更新:
更多 Voice Agent 學習筆記:
多模態 AI 怎麼玩?這裡有 18 個腦洞
AI 重塑宗教體驗,語音 Agent 能否成為突破點?
對話 TalktoApps 創始人:Voice AI 提高了我五倍的生產力,語音輸入是人機互動的未來
2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布
對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點
這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢
語音即入口:AI 語音互動如何重塑下一代智慧應用
Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……
寫在最後:
我們歡迎更多的小夥伴參與 「RTE 開發者日報」 內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- 騰訊釋出混元大模型Turbo版本 用AI助力場景創新大模型AI
- 語音生成模型 PlayDialog:可生成對話播客、旁白;小米 AI 眼鏡將於明年 Q2 釋出丨 RTE 開發者日報模型AI開發者日報
- 騰訊混元大模型全面降價!混元-lite即日起免費大模型
- 騰訊安全釋出新一代Web應用防火牆Web防火牆
- 面向大模型訓練,騰訊雲釋出新一代高效能運算叢集大模型
- Meta 公佈首款 AR 眼鏡 Orion,成本 1 萬美元;OpenAI CTO Mira Murati 離職丨 RTE 開發者日報OpenAI開發者日報
- 亞馬遜將釋出新一代 Alexa,引入 Claude;頂尖 AI 科學家許主洪加入阿里,負責多模態基礎模型丨 RTE 開發者日報亞馬遜AI阿里模型開發者日報
- 英偉達世界基礎模型 Cosmos,教 AI 理解物理世界;阿里通義與雷鳥合作推出 AI 眼鏡丨 RTE 開發者日報模型AI阿里開發者日報
- 使用騰訊元寶+markmap生成思維導圖
- 騰訊主機安全(雲鏡)兵器庫:透視安全事件的千里眼-雲原生預警系統事件
- 結合多模態 AI 谷歌展示 AR 眼鏡原型機;Meta 被曝開發帶攝像頭的 AI 耳機丨 RTE 開發者日報 Vol.204AI谷歌原型開發者日報
- (內含福利)Meta 釋出新開源模型 Llama 3;華為 Pura 70 系列一分鐘售罄丨 RTE 開發者日報 Vol.188模型開發者日報
- 龍芯釋出新一代CPU 騰訊安全完成認證適配
- 騰訊混元文生圖大模型開源訓練程式碼,釋出LoRA與ControlNet外掛大模型
- Meta AR 眼鏡團隊前負責人加入 OpenAI;visionOS 2.2 Beta 引入超寬屏投屏模式丨 RTE 開發者日報OpenAI模式開發者日報
- 直播預告丨社群年度交流會&《RTE 和 AI 融合生態洞察報告 2024》釋出AI
- GTC 2024 開幕,英偉達釋出新一代 GPU 架構;Apple ID 或將淘汰丨 RTE 開發者日報 Vol.168GPU架構APP開發者日報
- 大模型原理與思維鏈推理大模型
- Rokid Glasses AR 眼鏡釋出,搭載通義 AI;3D 社交平臺 SEELE 完成千萬美元融資丨 RTE 開發者日報AI3D開發者日報
- Rokid Glasses AR 眼鏡釋出,搭載通義 AI;3D 社交平臺 SEELE 完成千萬美元融資丨RTE 開發者日報AI3D開發者日報
- 首個實時 AI 影片生成技術釋出;科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報AI大模型開發者日報
- 騰訊 StereoCrafter:2D 影片轉 3D 影片效果;支付寶推出新 AI 視覺搜尋產品「探一下」丨 RTE 開發者日報Raft3DAI視覺開發者日報
- 最新中文大模型測評出爐,騰訊混元居卓越領導者象限大模型
- 騰訊混元又來開源,一出手就是最大MoE大模型大模型
- 騰訊混元大模型核心論文曝光:Scaling law、MoE、合成資料以及更多大模型
- 位元組豆包釋出新模型,AI 一句話 P 圖;Google 正式推出 Vids,簡單提示即可生成影片演示丨 RTE 開發者日報模型AIGo開發者日報
- ODG釋出兩款AR眼鏡,將在CES 2017上展示
- Meta 研發大型 AI 推薦引擎;全球首部全面監管 AI 法規將落地丨 RTE 開發者日報 Vol.160AI開發者日報
- 年末驚喜!ByteDance Research影片理解大模型「眼鏡猴」正式釋出大模型
- 百度釋出 AI 眼鏡:全球首搭中文大模型,支援邊走邊問;OpenAI 聯合創始人宣佈迴歸,主抓重大技術創新丨 RTE 開發者日報大模型OpenAI開發者日報
- 微軟將深度整合 Azure AI 與 GitHub;Stability AI 0.5 秒生成三維建模丨 RTE 開發者日報微軟AIGithub開發者日報
- a16z:小模型 + 邊緣 AI 將定義 2025;音效模型 TangoFlux:3 秒鐘生成 30 秒音訊丨 RTE 開發者日報模型AIGoUX音訊開發者日報
- ODG釋出兩款AR眼鏡,將在CES2017上展示
- 論文閱讀2-思維鏈
- 11Labs 支援打造對話 AI 智慧體;阿里推出大模型 Qwen2.5-Turbo 速度提升 4.3 倍丨 RTE 開發者日報AI智慧體阿里大模型開發者日報
- Llama 3:Meta新AI模型AI模型
- Hume AI 即將推出新 AI 語音產品;聲網上線對話式 AI 引擎,15 分鐘讓 DeepSeek 開口說話丨日報AI
- 新一代本田思域HATCHBACK首張預告 6月24日釋出FWK
- 騰訊財報:2023年騰訊營收為6090億元 同比增長10%營收