OpenAI Realtime API 迎來降價;朱嘯虎首個 AI 硬體專案 Gyges Labs:輕量化近眼顯示光學方案

RTE开发者社区發表於2024-11-22

開發者朋友們大家好:

這裡是「RTE 開發者日報」,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@SSN,@ 鮑勃

01 有話題的新聞

1、OpenAI 新加坡釋出會演示 Realtime API 最新進展

OpenAI 在新加坡的釋出會 OpenAI Dev Day 上演示了 Realtime API,帶來了更強大的實時語音互動功能,甚至支援多種語言的混合輸入,混合輸出,並且情緒、語氣非常到位,現場效果很炸裂。

以及,釋出會上說明,Realtime 的語音 API 也迎來了 Cache 調價,輸出部分打了 2 折。簡單計算,對於大量相近內容的客服場景,呼叫成本大概是 50 人民幣/小時,和人工隊相比,開始有了競爭力。

另一個演示,是讓 AI 來點單:在過程中,AI 進行了全自動點餐,包括確認需求,以及... 調整價格。

還有個有趣的,演講者讓 Realtime API based demo 從 0 開始輸出,慢慢的:

於是 One...Two...Three...F- [打斷]

問:現在你數到幾了?

回答:Four

對於 Function Call,Realtime API 也獲得了更新。這使得之後的實時語音,不侷限於對話了,而是可以進行如操作電腦、聯網、查詢資料等功能。(@ 賽博禪心)

2、DeepSeek 推首款推理模型 R1-Lite-Preview,效能超越 OpenAI o1

中國私募巨頭幻方量化旗下的 DeepSeek,近日釋出了其最新的推理專注型大型語言模型 R1-Lite-Preview。該模型目前僅透過 DeepSeek Chat 這一網頁聊天機器人平臺提供給公眾使用。

儘管 R1-Lite-Preview 目前僅在聊天應用中可用,但它已憑藉接近甚至超過 OpenAI 近期釋出的 o1-preview 模型的效能引起了廣泛關注。

根據 DeepSeek 的說法,該模型在需要邏輯推理、數學思考和實時問題解決的任務中表現出色。其效能在 AIME(美國邀請數學考試)和 MATH 等已建立的基準測試中超越了 OpenAI o1-preview 的水平。此外,DeepSeek 還發布了模型的擴充套件資料,展示了在給予模型更多時間或「思考令牌」以解決問題時,其準確性穩步提高的趨勢。圖表強調,隨著思維深度的增加,該模型在 AIME 等基準上的得分提升。

目前,R1-Lite-Preview 的釋出在關鍵基準中表現優異,能夠處理從複雜數學到邏輯場景的一系列任務,得分與頂級推理模型如 GPQA 和 Codeforces 相當。該模型透明的推理過程讓使用者能夠實時觀察其邏輯步驟,增強了系統的責任感和可信度。

值得注意的是,DeepSeek 尚未釋出完整的程式碼供第三方獨立分析或基準測試,也未提供 API 介面供獨立測試,該公司尚未釋出相關的部落格文章或技術文件,說明 R1-Lite-Preview 的訓練或架構,這讓其背後的起源依然充滿疑問。

R1-Lite-Preview 目前可以透過 DeepSeek Chat 免費使用,但其高階「深思」模式每天限量 50 條訊息,使用者可藉此體驗其強大能力。DeepSeek 計劃釋出 R1 系列模型的開源版本和相關 API,進一步支援開源 AI 社群的發展。(@AIbase 基地)

3、OpenAI 薪酬曝光,CEO 奧特曼年薪僅 55 萬

據一份新發布的稅務申報檔案顯示,OpenAI 的 CEO 奧特曼去年的年薪僅為 76001 美元,相較於 2022 年的 73546 美元略有增加,這一薪酬水平與國內網際網路大廠的基礎工資相當。

相比之下,OpenAI 的前首席科學家伊利亞·蘇茨克弗的薪酬則是奧特曼的四倍多,達到 322201 美元。這份檔案還顯示,奧特曼短暫被解僱期間,臨時 CEO 埃米特·謝爾的日薪約為 338.18 美元,是奧特曼的兩倍左右。

儘管高管們的總薪酬未完全披露,因為檔案中未包含可能的股權激勵和外部投資情況,但這份檔案揭示了 OpenAI 的財務狀況和慈善活動。

不過,奧特曼雖然年薪不高,但其個人財富估計至少達到 20 億美元,主要來源於他在科技領域的投資,包括 Uber、Airbnb 等公司的股份。此外,OpenAI 重組為盈利性公益公司後,關於奧特曼是否會獲得公司股權的討論仍在進行中,但他本人否認了獲得鉅額股權的計劃。

值得注意的是,OpenAI 在 10 月份最新一輪融資中籌集了 66 億美元(約合人民幣 463 億元),融資後估值達到 1570 億美元(約合人民幣 1.1 萬億元)。( @APPSO)

02 有亮點的產品

1、AI 版本《駭客帝國》問世!The Matrix 實現無限生成 720p 影片,3A 畫質

近日,一個名為「The Matrix」的 AI 基礎世界模擬器正式推出,這一創新成果由一個全華人團隊,能夠實現無限生成高保真的 720p 真實場景影片,並且支援實時互動。

該模擬器展示了一個 14 分鐘的演示影片,實際上,它可以持續生成長達一個小時的內容,涵蓋沙漠、草原、水體和城市等多場景。在體驗過程中,使用者可以透過鍵盤的 WA、S、D 鍵進行實時控制,感受每秒 16 幀的動態畫面。

「The Matrix」專案的開發團隊成員來自阿里巴巴、香港大學、滑鐵盧大學和加拿大 AI 研究機構 Vector Institute。他們命名為「The Matrix」,正是受到了電影中一句經典臺詞的啟發:這是你熟悉的世界;它現在只存在於我們稱之為 Matrix 的神經互動模擬系統中。

該專案的核心亮點在於其提供了前所未有的幀級控制,讓使用者的每一個操作都能得到即時響應,彷彿身臨其境。使用者可以在第一人稱或第三人稱視角下,體驗駕駛汽車穿越沙漠、森林或城市等不同場景。

除了能夠無限生成影片和高質量的畫面之外,「The Matrix」還具備了零樣本泛化的。這意味著,模擬器可以在沒有相應訓練資料的情況下,理解並預測不同環境中物體的行為和互動。

該模擬的訓練資料主要來源於三款 3A 遊戲的監督資料和大量現實場景的無監督影片。與以往的研究不同,這一技術的創新在於它的學習能力,使其能在未見過的環境中進行準確的生成。

例如,模擬器可以展現「寶馬 X3 在環境中行駛場景,或是「車在水中游泳」的奇妙畫面。

專案負責人 Hongyang Zhang 和 Ruili Feng 表示,未來還會繼續推動這一技術的發展,力求為使用者帶來更加逼真的虛擬體驗。(@AIbase 基地)

2、全新突破!YouTube Shorts 上線 AI 影片背景生成功能

YouTube 在本週四為其 Shorts 功能帶來重磅更新。透過整合 Google DeepMind 的 Veo 影片生成模型,Dream Screen 功能現已支援 AI 影片背景生成,可輸出 1080p 高畫質影片,讓創作者們的短影片創作如虎添翼。

這項技術的應用極為簡單直觀。創作者只需開啟 Shorts 相機,點選「綠幕」圖示,選擇「Dream Screen」功能,輸入想要的場景描述,比如「糖果世界」或「溪流穿過的魔法森林」。選定動畫風格後,系統便會生成多個影片背景供選擇,創作者可以在這些動態背景前錄製影片內容。

這一功能為創作者開啟了無限可能:無論是將自己置身於心愛小說的場景中,還是為短影片製作獨特的動畫開場,都能輕鬆實現。YouTube 更透露,未來還將推出 6 秒獨立影片片段的生成功能,進一步豐富創作選項。

目前,這項新功能已在美國、加拿大、澳大利亞和紐西蘭率先上線。值得注意的是,這項創新功能讓 YouTube 在短影片領域佔據了技術優勢。目前短影片市場的領軍平臺 TikTok 僅支援 AI 靜態背景圖片生成,尚未推出影片背景生成功能。(@AIbase 基地)

3、Gyges Labs 宣佈完成數千萬元 Pre-A 輪融資,擁有輕量化近眼顯示光學方案

據「智慧湧現」報導,Gyges Labs(前仙瞬科技)宣佈完成了數千萬元的 Pre-A 輪融資,投資方包括金沙江創投、韶音創始人陳皞以及 NYX Ventures。

這家成立於 2022 年的公司專注於利用光學和協同式 AI 技術打造智慧可穿戴裝置,其核心團隊成員背景顯赫,包括史丹佛、清華等頂尖高校畢業生,並擁有在蘋果、谷歌等國際科技企業的工作經驗。

Gyges Labs 的核心技術「DigiWindow」能夠將光學模組體積大幅縮小,提升智慧眼鏡的佩戴體驗,同時相容普通視光學鏡片,滿足不同視力需求。

公司計劃在 2025 年 CES 展會期間釋出首款與 moody 合作的 AI 眼鏡產品,該產品重量採用自研毫米級光學技術和協同式 AI 引擎,具備實時環境感知、智慧翻譯等功能。這也意味著著名投資人朱嘯虎首次涉足 AI 硬體領域。(@APPSO)

4、GetPickle AI:讓你的替身幫你開會 你去幹別的

GetPickle.ai 是一款致力於革新虛擬會議體驗的 AI 工具,其核心技術透過提供高度逼真的 AI 克隆化身,使使用者能夠在不使用攝像頭的情況下參加視訊通話,保持會議的參與度和互動性。

也就是,它一款讓你的透過 “AI 替身” 替你參加視訊會議的工具。它可以幫你解決不方便開攝像頭的尷尬,比如沒化妝、在路上或者只是想偷個懶。Pickle 的 AI 化身會像你一樣出現在鏡頭裡,說你的話、做你的表情,看起來就像你真的在參加會議。(@ 小互 AI)

03 有態度的觀點

1、圖靈獎得主 Yoshua Bengio:人類仍缺乏可靠的方法來管理和約束 AI

圖靈獎得主、電腦科學家 Yoshua Bengio 在《金融時報》上發表文章,表達自己對於人工智慧的最新看法。

他表示,人們一直認為 AI 的一大核心弱點是其缺乏「思考」能力 —— 即內部推理能力。但 OpenAI 在這一領域最近取得了進展,這使自己和許多專家認為,我們可能正在邁向彌合人工智慧與人類推理能力差距的關鍵時刻。

OpenAI 的最新進展依託 o1 大型語言模型,這一模型具備一定的內部推理能力,目前尚未對公眾全面開放。這一趨勢標誌著 AI 發展的新方向:不僅依賴更大的模型和更多的資料,還需要投入更多時間進行推理。這種方法在數學、電腦科學及其他科學領域的大量推理任務中展現出卓越效能。

他也認為,這種技術的成功帶來了新的風險 —— 目前人類仍然缺乏可靠的方法來管理和約束 AI。「例如,o1 的評估顯示其欺騙人類的能力有所增強,這正是目標實現能力提升的自然結果。更令人擔憂的是,o1 在協助製造生物武器方面的能力已達到 OpenAI 的中等風險級別,這是公司定義的最高容忍度(儘管這一標準可能存在降低外界擔憂的動機)。」

據 IT 之家此前報導,OpenAI 本月中旬被曝計劃於 2025 年 1 月,以研究預覽和開發工具的形式,推出名為「Operator」的自動化 AI 智慧體,可以獨立控制計算機並執行各種任務。(@IT 之家)

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章