結合多模態 AI 谷歌展示 AR 眼鏡原型機;Meta 被曝開發帶攝像頭的 AI 耳機丨 RTE 開發者日報 Vol.204
開發者朋友們大家好:
這裡是 「RTE 開發者日報」,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real Time Engagement)領域內「有話題的新聞」、「有態度的觀點」、「有意思的資料」、「有思考的文章」、「有看點的會議」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@CY,@JLT,@ 鮑勃
01 有話題的新聞
1、結合自家多模態 AI 助手「Project Astra」,谷歌 I/O 大會展示 AI+AR 眼鏡原型機
今日凌晨,谷歌召開了其 2024 I/O 大會,本次大會核心圍繞 AI,並展示了 Gemini、AI Overviews、Ask Photos 等新產品或新能力。
在這過程中,谷歌展示了一個結合了自家多模態 AI 助手「Project Astra」的 AR 眼鏡演示影片片段。據瞭解,Project Astra 除了擁有常見多模態 AI 大模型的音訊、文字以及視覺處理能力外,它還能記住並且推理它所看到的一切。
谷歌表示,Astra 的工作原理是「連續編碼影片幀,將影片和語音輸入組合到事件時間線中,並快取這些資訊以進行有效呼叫」。(@ 陀螺科技)
2、OpenAI 聯合創始人兼首席科學家伊利亞·蘇茨克沃將離職
北京時間 5 月 15 日早間,OpenAI 聯合創始人伊利亞·蘇茨凱弗(Ilya Sutskever)在社交媒體平臺上宣佈,他將在近十年後離開公司。蘇茨凱弗稱:「我對接下來的事情感到興奮——這是一個對我個人非常有意義的專案,我將在適當的時候分享細節。」
在蘇茨凱弗離職之際,奧特曼在社交媒體上表達了自己的想法。他寫道:「這讓我感到很難過,伊利亞無疑是我們這一代最偉大的人之一,是我們這個領域的一盞指路明燈,也是一位親愛的朋友。他的才華和遠見是眾所周知的,但他的熱情和同情心同樣重要。」與此同時,奧特曼還宣佈了雅各布·帕奇科(Jakub Pachocki)為該公司新一任的首席科學家。(@ 騰訊科技)
3、傳 Meta 正開發內建攝像頭 AI 耳機,可識別物體翻譯外語
5 月 14 日訊息,據 The Information 報導,Meta 正在探索開發帶有攝像頭的 AI 耳機,希望這種裝置能用來識別物體和翻譯外語。
三位「內部人士」透露,該專案的內部代號為 Camerabuds,目前還不清楚該產品的最終設計會是入耳式耳機還是頭戴式耳機,不過 Meta 的 CEO 祖克伯已經嘗試過幾種可能的裝置設計,但他對這些產品原型都不滿意。內部人士表示,Meta 公司領導層原本預計在今年第一季度正式批准一款原型設計,但許多測試人員發現大量問題,包括長髮可能會遮擋耳機上的攝像頭、耳機重量太大、續航太短、發熱影響體驗等。
除了 Meta 外,幾家其他科技公司也在研發 AI 可穿戴裝置,包括 Humane 和 Rabbit 在內的幾家初創公司最近也推出了自家「AI 專用裝置」,Meta 內部人士表示,包括祖克伯等 Meta 領導層目前都希望加速 AI 耳機的開發過程,因為他們相信 Meta 的競爭對手也將開發類似的裝置。(@ 搜狐科技)
4、騰訊混元文生圖模型全面開源,包含模型權重、推理程式碼、模型演算法等完整模型
5 月 14 日,騰訊宣佈旗下的混元文生圖大模型全面升級並對外開源,目前已在 Hugging Face 平臺及 Github 上釋出,包含模型權重、推理程式碼、模型演算法等完整模型,可供企業與個人開發者免費商用。該模型支援中英文雙語輸入及理解,引數量 15 億。升級後的混元文生圖大模型採用了與 Sora 一致的 DiT 架構,不僅可支援文生圖,也可作為影片等多模態視覺生成的基礎。(@ CSDN)
5、位元組跳動自研大模型家族即將亮相
火山引擎宣佈,位元組跳動自研大模型家族將於今日 9:30 舉辦的「2024 春季火山引擎 FORCE 原動力大會」首次亮相。同時,火山引擎大模型服務平臺火山方舟也將迎來重大升級。鳳凰網科技此前曾報導,位元組跳動在 AI 方面的佈局,主要集中在 Flow 部門。該部門目前的核心產品有:
AI 對話助手豆包( 海外版為 Cici)
對標 GPTs 的 AI bot 開發平臺釦子(海外版為 Coze )
面向二次元群體的話爐
另外,在組建 Flow 部門前,位元組跳動還在大模型上部署了代號為「seed」的團隊,專注於模型層的研發。(@ 愛範兒)
6、蘋果 iOS 18 或將推出廣告遮蔽功能,英國報紙集團與新聞媒體協會對其發出警告
據外媒報導,蘋果正準備在 iOS 18 軟體更新中為 Safari 瀏覽器加入一個基於 AI 的隱私功能,該功能可以刪除廣告或其他不需要的網站內容。對此英國報紙集團警告蘋果公司,推出任何遮蔽廣告的「網路橡皮擦「(web eraser)工具,都將使新聞業的財務面臨可持續性風險。
NMA(News Media Association、英國新聞媒體協會)向蘋果英國政府事務主管表示,這個功能將影響新聞媒體行業在網路上的收入,新聞媒體行業需要資金來執行,而廣告是他們的主要收入來源。編輯們則擔心 AI 工具會選擇性更改或刪除文章內容,改變文章原意。目前一些新聞媒體已經在其網頁上增加了對廣告攔截外掛的檢測,若檢測到廣告攔截外掛,會要求使用者將其關閉,否則將不允許使用者繼續瀏覽。(@IT 之家)
02 有態度的觀點
1、朱嘯虎評 GPT-4o:稱大模型技術迭代曲線明顯放緩
金沙江創業投資基金主管合夥人朱嘯虎點評 GPT-4o,他認為:
1.大模型的技術迭代曲線明顯放緩。
2.開始卷免費,說明 GPT 的使用者和收入增長都已經碰到瓶頸,不是深度繫結大廠的模型公司基本已經出局。
3.應用會迅速爆發,推理成本再降一個數量級就會普及出現 AI 時代的國民應用。
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- Meta 公佈首款 AR 眼鏡 Orion,成本 1 萬美元;OpenAI CTO Mira Murati 離職丨 RTE 開發者日報OpenAI開發者日報
- OpenAI 曝新專案「草莓」,提升 AI 推理能力;智譜 AI 開源影片理解模型丨 RTE 開發者日報OpenAI模型開發者日報
- 《阿凡達》導演卡梅隆加入 Stability AI 董事會;Molmo 橫空出世,開源多模態模型王座易位丨 RTE 開發者日報AI模型開發者日報
- Meta AR 眼鏡團隊前負責人加入 OpenAI;visionOS 2.2 Beta 引入超寬屏投屏模式丨 RTE 開發者日報OpenAI模式開發者日報
- Meta 研發大型 AI 推薦引擎;全球首部全面監管 AI 法規將落地丨 RTE 開發者日報 Vol.160AI開發者日報
- Fish Agent:多語言 Voice-to-Voice 開源語音模型;Runway 推出攝像機運鏡功能丨 RTE 開發者日報模型開發者日報
- 爆火 AI 硬體遭差評,Ai Pin 上市即翻車;Grok 推出首個多模態模型丨 RTE 開發者日報 Vol.184AI模型開發者日報
- YouTube 上線「用相機拍攝」標籤為真實影片「驗明正身」;美國被曝考慮限制向中東國家出口 AI 晶片丨 RTE 開發者日報AI晶片開發者日報
- Spring AI多模態開發SpringAI
- 微軟將深度整合 Azure AI 與 GitHub;Stability AI 0.5 秒生成三維建模丨 RTE 開發者日報微軟AIGithub開發者日報
- 語音生成模型 PlayDialog:可生成對話播客、旁白;小米 AI 眼鏡將於明年 Q2 釋出丨 RTE 開發者日報模型AI開發者日報
- Pi 母公司將開發情感 AI 商業機器人;Meta 科學家:Sora 不是影片生成唯一方向丨 RTE 開發者日報 Vol.214AI機器人Sora開發者日報
- 史丹佛 AI 團隊被曝抄襲中國大模型開源成果;Zoom 創始人談視訊會議未來丨 RTE 開發者日報 Vol.218AI大模型OOM開發者日報
- SpaceX 星艦發射「成功一半」;首位具身 AI 機器人面世丨 RTE 開發者日報 Vol.166AI機器人開發者日報
- 沒有方向盤和踏板,特斯拉釋出無人駕駛計程車;位元組豆包推出 AI 智慧體耳機 Ola Friend 丨 RTE 開發者日報AI智慧體開發者日報
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- AI泳池溺水識別攝像機AI
- Hume AI 推出 EVI 2 情感模型;OpenAI o1 模型問世,模擬人類思考問題 丨 RTE 開發者日報模型OpenAI開發者日報
- 小米回應「網友惡搞 AI 雷軍配音罵人」;Hailuo AI 上線圖片生成影片功能丨 RTE 開發者日報AI開發者日報
- Neuralink 將啟動第二例人類腦機晶片植入;多項 Claude 3.5 Sonnet AI 工具釋出丨 RTE 開發者日報晶片AI開發者日報
- Mini-Omni:具有實時對話能力的多模態模型;狨猴會用名字稱呼彼此 丨 RTE 開發者日報模型開發者日報
- 亞馬遜秘密研發 AI 對標 ChatGPT;語音 AI 未來五年或將釋放 100 億美元市場 丨 RTE 開發者日報亞馬遜AIChatGPT開發者日報
- 百度釋出 AI 眼鏡:全球首搭中文大模型,支援邊走邊問;OpenAI 聯合創始人宣佈迴歸,主抓重大技術創新丨 RTE 開發者日報大模型OpenAI開發者日報
- 基於 Groq 和 Cartesia 的高速 AI 語音助手釋出;xAI 將自行打造超級計算機丨 RTE 開發者日報AI計算機開發者日報
- OpenAI 成功收購 Chat.com 域名;AI「電子舌頭」問世,可辨別味道、檢測食品安全丨 RTE 開發者日報OpenAI開發者日報
- QQ 測試 AI 聊天搭子,再戰 AI 社交;零一萬物宣佈開源 Yi-9B 模型丨 RTE 開發者日報 Vol.159AI模型開發者日報
- 蘋果開源高效語言模型 OpenELM;全球首個 AI 基因編輯器開源丨 RTE 開發者日報 Vol.192蘋果模型AI開發者日報
- vue如何實時展示海康威視攝像頭多畫面?Vue
- 馬斯克的 xAI 融資 60 億美元;英偉達收購兩家 AI 創企丨 RTE 開發者日報 Vol.193馬斯克AI開發者日報
- 安卓開發之呼叫攝像頭安卓
- Sam Altman 新公司將打造 AI 健康教練;全新大模型架構 TTT 超越 Transformer 丨 RTE 開發者日報AI大模型架構ORM開發者日報
- 馬斯克突擊訪華;谷歌 Python 基礎團隊全數被裁;丨 RTE 開發者日報 Vol.195馬斯克谷歌Python開發者日報
- 和 TEN、CosyVoice、Rokid 一起「組裝」你的專屬多模態 Agent!丨 RTE2024 AI 工坊報名AI
- 智譜清言 App 面向 C 端開放 AI 視訊通話服務;谷歌 GameNGen:神經網路驅動的實時遊戲引擎丨 RTE 開發者日報APPAI谷歌GAM神經網路遊戲引擎開發者日報
- 多模態學習,帶來AI全新應用場景?AI
- 華為AI監控好望攝像機怎樣?AI
- Android多媒體應用開發-控制攝像頭拍照Android
- [譯]Android的多攝像頭支援Android