Meta 無預警釋出新一代 AI 眼鏡 Aria Gen 2；騰訊混元 Turbo S 模型將長短思維鏈融合丨日報

開發者朋友們大家好：

這裡是 「RTE 開發者日報」 ，每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE（Real-Time Engagement）領域內「有話題的技術」、「有亮點的產品」、「有思考的文章」、「有態度的觀點」、「有看點的活動」，但內容僅代表編輯的個人觀點，歡迎大家留言、跟帖、討論。

本期編輯：@qqq、@ 鮑勃

01 有話題的技術

1、OpenAI 最大最貴的模型，GPT-4.5 釋出

OpenAI 正式釋出旗下 GPT-4.5 模型。API 價格方面，因 GPT-4.5 計算量極大，成本高昂，相較於 GPT-4o 價格有了較高上漲。GPT-4.5 支援聯網搜尋，能夠處理檔案和圖片上傳，還可以使用 Canvas 來進行寫作和程式設計。不過，目前 GPT-4.5 還不支援多模態功能，如語音模式、影片和螢幕共享。

GPT-4.5 主要透過「無監督學習」（就是自己從大量資料中學習）變得更聰明，而不是像 OpenAI o1 或者 DeepSeek R1 那樣專注於推理能力。簡單說，GPT-4.5 知道的更多，而 o1 系列更會思考。

API 價格方面，因 GPT-4.5 計算量極大，成本高昂，價格漲到了 75 美元 / 百萬 tokens，是 GPT-4o 的 30 倍，更是 DeepSeek 的 280 倍。Sam Altman 提到，GPT-4.5 不是推理型模型，不會在基準測試中碾壓其他模型。在目前曝出的實測中，效能的提升遠沒有價格大。

GPT-4.5 的更新要點

知識更廣泛：它學習了更多的資訊，所以懂的東西比以前多
更少胡說八道：減少了「幻覺」（就是 AI 編造事實的情況）
更懂人心：「情商」更高，更能理解你的真實意圖
對話更自然：聊天感覺更像和真人交流，不那麼機械
創意更豐富：在寫作和設計方面表現更好從今天開始，ChatGPT Pro 使用者已經可以用上 GPT-4.5（研究預覽版）了。

下週，將會逐步開放給 Plus 和 Team 使用者；再下一週則是 Enterprise 和 Edu 使用者。(@ APPSO)

2、Kimi 新模型 k1.6 曝光，程式碼生成能力超越 GPT o3-mini

近日，月之暗面旗下 Kimi 的最新模型 k1.6 曝光。據全球動態基準測試平臺 LiveCodeBench 顯示，k1.6 登上測試榜榜首。具體顯示，k1.6-high 在多項程式碼生成基準測試中超越 OpenAI 的 GPT o3-mini、o1 和通義 QwQ-Max 等多款模型。

成績公佈後，月之暗面研究員 Flood Sung 在其個人社交賬號表示，榜單中的 k1.6 是一個基於 k1.5 持續訓練程式碼能力的特定版本，目前 k1.6 還在不斷訓練並提升效能。此外，月之暗面創始人張予彤也在朋友圈表示，k1.6 還沒有釋出，但看到 LiveCodeBench 的成績感到開心，期待智慧模型的持續進化。(@ APPSO)

3、語音合成也遵循 Scaling Law，太乙真人「原聲放送」講解論文，港科大等開源

活久見，太乙真人給講論文了。

「咳咳，諸位道友且聽我一番嘮叨。老道我閉關數日，所得一篇妙訣，便是此 Llasa 之法。此術上個月一出，海外仙長們無不瞠目結舌，直呼「HOLY SHIT」」。

熱度最高時，曾在 huggingface 上的「丹藥熱度榜」上排第六。

如上引發圍觀的成果由香港科技大學等聯合推出，它驗證語音合成模型，也可以遵循 Scaling Law，即擴充套件計算資源、語音合成效果可以更好。

它核心提出了一個語音合成的簡單框架 Llasa，該框架採用單層 VQ 編解碼器和單個 Transformer 架構，和標準 LLM 保持一致。

研究團隊提供了 TTS 模型（1B、3B、8B）、編解碼器的 checkpoint 以及訓練程式碼。

論文連結：https://arxiv.org/abs/2502.04128@ 量子位）（

4、騰訊推出新一代快思考模型混元 Turbo S

2 月 27 日，騰訊混元自研的快思考模型 Turbo S 正式釋出。據官方介紹，區別於 Deepseek R1、混元 T1 等需要「想一下再回復」的慢思考模型，混元 Turbo S 能夠實現「秒回」，吐字速度提升一倍，首字時延降低 44%，同時在知識、數理、創作等方面也有突出表現。透過模型架構創新，Turbo S 部署成本也大幅下降。具體來看，在業界通用的多個公開 Benchmark 上，騰訊混元 Turbo S 在知識、數學、推理等多個領域展現出對標 DeepSeek V3、GPT 4o、Claude3.5 等業界領先模型的效果表現。

同時透過長短思維鏈融合，騰訊混元 Turbo S 在保持文科類問題快思考體驗的同時，基於混元 T1 模型合成的長思維鏈資料，顯著改進了理科推理能力。架構方面，透過創新性地採用了 Hybrid-Mamba-Transformer 融合模式，混元 Turbo S 有效降低了傳統 Transformer 結構的計算複雜度，減少了 KV-Cache 快取佔用，實現訓練和推理成本的下降。

目前，騰訊混元 Turbo S 模型已在騰訊雲官網上架，開發者和企業使用者可以透過 API 呼叫，同時將逐步在騰訊元寶灰度上線。騰訊混元還表示，正式版的混元 T1 模型 API 也即將上線，對外提供接入服務。(@ APPSO)

5、Meta 無預警釋出新一代 AI 眼鏡，專為 AI 和機器人研究打造

Meta 今日正式推出第二代 Aria 智慧眼鏡（Aria Gen 2），計劃面向從事機器感知系統、人工智慧和機器人技術研究的第三方科研人員開放使用。

此次釋出的第二代 Aria 眼鏡延續了無螢幕設計，但配備了升級版感測器套件，包含 RGB 攝像頭、定位追蹤攝像頭、眼球追蹤攝像頭、空間麥克風陣列、慣性測量單元（IMU）、氣壓計、磁力計、全球導航衛星系統（GNSS）以及定製化 Meta 晶片。

Meta 設想透過 Aria 的 SLAM 技術，使用者可在 GPS 訊號薄弱或缺失的室內環境實現自主建圖與導航——這種視覺定位系統（VPS）既能輔助城市街道導航，也可幫助在商店內精準定位目標商品。

Aria 第二代的獨特價值

頂尖感測器陣列：升級後的感測器系統包含 RGB 攝像頭、六自由度 SLAM 攝像頭、眼動追蹤攝像頭、空間麥克風、慣性測量單元（IMU）、氣壓計、磁力計及全球導航衛星系統（GNSS）。相較於前代，本代創新性在鼻託處嵌入了兩大感測器：用於心率監測的光電容積描記（PPG）感測器，以及可區分佩戴者與周圍人聲的接觸式麥克風。
超低功耗裝置端機器感知處理：SLAM、眼動追蹤、手勢識別及語音識別均由 Meta 定製晶片在裝置端完成計算。
全天候使用體驗：支援 6-8 小時持續執行，整機重量約 75 克，配備可摺疊鏡腿提升便攜性。
音訊互動系統：透過行業領先的開放式主動降噪揚聲器提供音訊反饋，支援使用者參與式系統原型開發。（@ 三次方 AIRX）

02 有亮點的產品

1、Lingo.dev ：一款能在幾分鐘內將應用翻譯成多種語言的 AI 本地化引擎

（圖片來源：Product Hunt）

https://lingo.dev/zh

Lingo.dev 是一款創新的 AI 本地化引擎，其核心價值主張是將耗時數週的翻譯工作轉化為自動化的拉取請求，大幅提高應用本地化的效率。目標使用者主要是需要快速部署多語言應用的開發團隊，特別是那些追求高效開發流程的團隊。Lingo.dev 解決了傳統應用本地化耗時長、成本高的關鍵痛點，同時抓住了全球化市場對快速本地化解決方案日益增長的需求。

在功能與體驗方面，Lingo.dev 的核心亮點包括

AI 驅動的翻譯引擎，能夠理解 UI 元素的位置和微觀上下文；
開發者友好的設計，提供 API 和 SDK 支援；
自動化的拉取請求功能，無縫整合到開發流程中。
與傳統翻譯服務相比，Lingo.dev 的差異化優勢在於其對開發環境的深度理解和整合，以及 AI 技術帶來的高效率和準確性。
使用者體驗方面，產品提供了 1000 美元的免費額度，讓使用者可以輕鬆嘗試和評估服務質量。(@ Z Potentials)

2、Figure 機器人加速進軍家庭場景 2025 年啟動 Alpha 測試挑戰行業極限

灣區機器人新銳 Figure 正以超預期速度推進其家庭機器人計劃。公司創始人 Brett Adcock 週四宣佈，將於 2025 年下半年啟動 Figure02 人形機器人的家庭環境 Alpha 測試，這一時間表較業界預期大幅提前。推動這一激進計劃的核心是 Figure 最新研發的 Helix 系統——一個集視覺、語言與動作於一體的通用 AI 模型。

Helix 的突破性在於其多模態學習能力，可同時處理視覺資料和自然語言指令，顯著提升機器人學習新任務的效率。這一自主研發的技術路線標誌著 Figure 與 OpenAI 分道揚鑣後的戰略轉向。在近期展示中，Helix 已能協調兩個機器人協同完成烹飪等複雜家務，展現出強大的任務執行能力。

儘管家庭場景被普遍視為人形機器人的終極目標，Figure 卻採取了「先工業後家庭」的務實策略。2024 年初，該公司已在寶馬南卡羅來納州工廠展開工業試點，利用結構化環境積累實戰經驗。這一選擇與特斯拉、Apptronik 等行業玩家不謀而合，反映出工業場景在技術成熟度和商業可行性上的雙重優勢。（@ AIbase 基地）

3、Fleet AI Copilot ：一款簡化 IT 生活的 AI 驅動 IT 助手聊天機器人

（圖片來源：Product Hunt）

https://fleet.co/en/ai-copilot

Fleet AI Copilot 是一款創新的 AI 驅動 IT 助手，其核心價值主張是透過智慧化手段簡化裝置管理和日常 IT 任務。目標使用者主要是尋求提高 IT 運營效率的企業和 IT 團隊。該產品解決了傳統 IT 管理複雜、耗時的痛點，同時抓住了 AI 在 IT 運營領域應用日益廣泛的市場機遇。

在功能與體驗方面，Fleet AI Copilot 的核心亮點

個性化支援，根據使用者需求提供定製化服務；
集中化運營，整合 IT 管理流程；
自適應能力，能夠根據使用者需求不斷最佳化。與傳統 IT 管理工具相比，Fleet AI Copilot 的差異化優勢在於其 AI
驅動的智慧化和自動化能力，能夠顯著提升 IT 運營效率。(@ Z Potentials)

03 有態度的觀點

1、DeepMind 首席科學家：「慢思考」模式將能提升 AI 效能

近日，Google DeepMind 首席科學家 Jack Rae 接受訪談，其指出「慢思考」模式將能提升 AI 效能。採訪時，Jack 表達了自己對於大模型「慢思考」模式的看法。其認為，即使對於人類而言在回應之前也會花更多時間思考，而大模型也一樣，在不斷的深入思考中，人類和大模型都能不斷發現正確或者是錯誤，並隨時進行修改。因此在模型進行更長時間思考時，答案可能還會更加準確。Jack 還以上面的觀點進行展開，其指出推理模型是模型發展的新正規化。

推理模型並非追求即時響應，而是透過增加推理時的思考時間來提升答案質量，Jack 認為，這也導致了一種新的 Scaling Law，「慢思考」模式是提升 AI 效能的有效途徑。此外，Jack 還判斷了推理模型與 AI Agent 的未來。他認為，對於構建有用的 AI Agent 能力而言，推理能力至關重要，原因分別是可靠性和複雜問題的解決能力。

Jack 提到，AI Agent 要開始執行第一步，就必須經過思考，因此他認為 AI Agent 能力與思考和推理能力是緊密相連、不可分割的。(@ APPSO)

04 Real-time AI Demo 分享

1、透過手勢識別讓 Gemini 分析環境視覺資訊

Google Creative Lab 的 Tina 使用 Gemini 2.0 Flash 和 Mediapipe 構建了一個將手變成木偶的實驗。透過檢測手何時張開 + 實時捕獲網路攝像頭影像，Gemini 分析所處環境並生成情境感知的思考。將提示調整為僅關注顏色，木偶的回答立即更新：

更多 Voice Agent 學習筆記：

多模態 AI 怎麼玩？這裡有 18 個腦洞

AI 重塑宗教體驗，語音 Agent 能否成為突破點？

對話 TalktoApps 創始人：Voice AI 提高了我五倍的生產力，語音輸入是人機互動的未來

2024，語音 AI 元年；2025，Voice Agent 即將爆發丨年度報告發布

對話谷歌 Project Astra 研究主管：打造通用 AI 助理，主動影片互動和全雙工對話是未來重點

這家語音 AI 公司新融資 2700 萬美元，並預測了 2025 年語音技術趨勢

語音即入口：AI 語音互動如何重塑下一代智慧應用

Gemini 2.0 來了，這些 Voice Agent 開發者早已開始探索……

寫在最後：

我們歡迎更多的小夥伴參與 「RTE 開發者日報」 內容的共創，感興趣的朋友請透過開發者社群或公眾號留言聯絡，記得報暗號「共創」。

對於任何反饋（包括但不限於內容上、形式上）我們不勝感激、並有小驚喜回饋，例如你希望從日報中看到哪些內容；自己推薦的信源、專案、話題、活動等；或者列舉幾個你喜歡看、平時常看的內容渠道；內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

Meta 無預警釋出新一代 AI 眼鏡 Aria Gen 2；騰訊混元 Turbo S 模型將長短思維鏈融合丨日報

01 有話題的技術

02 有亮點的產品

03 有態度的觀點

04 Real-time AI Demo 分享

相關文章