Swarm 框架登場:OpenAI 第 3 階段「敲門磚」;馬斯克的 Teslabot 實際有人遠端操控丨 RTE 開發者日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@SSN,@ 鮑勃
01 有話題的新聞
1、智譜開源文生圖模型 CogView3-Plus,相關功能上線智譜清言 App
智譜技術團隊今天宣佈開源文生圖模型 CogView3 及 CogView3-Plus-3B ,該系列模型的能力已經上線「智譜清言」App。
據介紹,CogView3 是一個基於級聯擴散的 text2img 模型,其包含如下三個階段:
- 第一階段: 利用標準擴散過程生成 512x512 低解析度的影像。
- 第二階段: 利用中繼擴散過程,執行 2 倍的超解析度生成,從 512x512 輸入生成 1024x1024 的影像。
- 第三階段: 將生成結果再次基於中繼擴散迭代,生成 2048×2048 高解析度的影像。
官方表示,在實際效果上,CogView3 在人工評估中比目前最先進的開源文字到影像擴散模型 SDXL 高出 77.0%,同時只需要 SDXL 大約 1/10 的推理時間。
CogView3-Plus 模型則在 CogView3(ECCV'24)的基礎上引入了最新的 DiT 框架,以實現整體效能的進一步提升。據介紹,其採用 Zero-SNR 擴散噪聲排程,並引入了文字 - 影像聯合注意力機制。與常用的 MMDiT 結構相比,它在保持模型基本能力的同時,有效降低訓練和推理成本。CogView-3Plus 使用潛在維度為 16 的 VAE。(@IT 之家)
2、Swarm 框架登場:OpenAI 第 3 階段「敲門磚」,讓專業的事交給專業的 AI 智慧體做
OpenAI 公司推出了 Swarm 框架,旨在解決開發者在多智慧體系統編排中面臨的複雜挑戰。Swarm 框架透過簡化智慧體的協調、執行和測試過程,讓開發者能夠更高效地管理、互動多個 AI 智慧體。
OpenAI 朝 AI 第 3 階段邁進
根據 OpenAI 公佈五級量表,最新推出的 o1 模型處於第二階段,即所謂的「推理者」(reasoners),而開發 multi-agent 符合第三階段的目標要求。
Swarm 框架
Swarm 是一個實驗性框架,協調、執行和測試多智慧體,讓其變得輕量且高度可控,其目標是讓開發者能夠以簡便高效的方式管理多個 AI 智慧體之間的互動。
Swarm 框架的核心在於智慧體(agents)和交接(handoffs)兩個基礎抽象( primitive abstractions):
- 智慧體: 每個智慧體是特定指令與工具的組合,能夠獨立完成任務。
- 交接: 智慧體可以在執行過程中隨時將任務或對話交接給其他智慧體,確保流程的流暢性和模組化。
該框架保持整體協調的高效性的同時,簡化了複雜的智慧體互動。
隨著多智慧體系統在 AI 研究和應用中的重要性日益增加,Swarm 框架為開發者提供了一個易於使用的工具,降低了技術門檻,增加了可及性。無論是用於研究、產品開發還是教育,Swarm 框架都為探索協調的多智慧體 AI 提供了一個激動人心的機會。(@IT 之家)
3、馬斯克的 Teslabot 實際有人遠端操控
特斯拉 CEO 埃隆·馬斯克在數日前的自動駕駛計程車釋出會活動上展示了人形機器人 TeslaBot(原稱 Optimus),該機器人在現場跳舞、交談、玩遊戲和倒飲料,非常之吸引現場的嘉賓觀眾。
據一位在活動現場與特斯拉工程師交談的人士透露,機器人的反應都是在幕後人員的控制下完成的,而馬斯克並未向觀眾明確說明這一事實。這一行為被揭露後引發了觀眾的失望和對馬斯克技術宣傳的質疑。
一些投資者對這一場特斯拉的釋出會評價為「令人失望」,他們認為釋出會缺乏具體細節,而且自動駕駛計程車(CyberCab)和 人形機器人(Teslabot)要到 2026 年才開始生產,投資者對於的交付時間表也認為過於遙遠,所以當日特斯拉股票在釋出會後便下跌,但即使如此,馬斯克的一系列創新產品仍然讓人期待。(@ 愛範兒)
4、古爾曼:蘋果智慧眼鏡和帶攝像頭的 AirPods 可能於 2027 年推出
據彭博社的馬克・古爾曼稱,蘋果正在準備其它一些基於視覺的產品,預計會有智慧眼鏡,類似於 Meta 與 Ray-Ban 的合作產品,以及帶有攝像頭的 AirPods。推出時間不會早於 2027 年,並且存在可能最終不會推出的情況。
根據該報告,蘋果希望透過將視覺智慧技術引入更多產品,來挽回他們在 Apple Vision Pro 的視覺智慧方面數十億美元的部分研發投資。蘋果已經在 iPhone 16 中引入了該技術,下一步是將其引入眼鏡形態的產品中。
這款眼鏡不會是帶有螢幕的完整的 AR 眼鏡,而是一款內建攝像頭、揚聲器和麥克風的智慧眼鏡,類似於 Meta 的 Ray Ban 眼鏡。
此外,蘋果公司仍在計劃推出帶有攝像頭的 AirPods,這一訊息此前已有報導。(@IT 之家)
5、優必選釋出全新一代工業人形機器人 Walker S1,進入比亞迪等汽車工廠實訓
優必選釋出了全新一代工業人形機器人 Walker S1,已進入比亞迪工廠執行搬運任務實訓,實現全球首次人形機器人與無人物流車、無人叉車、工業移動機器人和智慧製造管理系統的協同作業。
優必選表示,已經與東風柳汽、吉利汽車、一汽紅旗、一汽 - 大眾青島分公司、奧迪一汽、富士康、順豐在內的多家企業合作。截至目前,Walker S 系列已成為全球進入最多車廠實訓的人形機器人。
Walker S1 主要引數如下:
- 基本引數:身高 172cm、體重 76kg、負載行走 15kg
- 360° 多模態感知:整合化頭部設計、雙耳魚眼相機、3D 立體視覺
- 一體化關節:創新型旋轉驅動,最大扭矩 250N・m
- 仿人靈巧手:6 個陣列式觸覺壓力感測器、全棧式靈巧操作策略庫(@IT 之家)
02 有態度的觀點
1、Meta 首席人工智慧科學家 LeCun:AI 威脅人類論完全是胡說八道
Meta 首席人工智慧科學家 Yann LeCun 近日在接受《華爾街日報》採訪時表示,對人工智慧對人類生存的威脅的擔憂是「徹頭徹尾的胡說八道(complete B.S. ) 」。
LeCun 是人工智慧領域的一位先驅,曾獲得圖靈獎,目前擔任紐約大學教授和 Meta 高階研究員。他此前曾在社交媒體上表示,在擔心控制超級智慧 AI 之前,我們需要先弄清楚如何設計一個比家貓更聰明的系統。
LeCun 在接受《華爾街日報》採訪時詳細闡述了他的觀點,在回答有關人工智慧變得足夠聰明以至於對人類構成威脅的問題時,他說:「你將不得不原諒我的法語,但那是完全的胡說八道。」
LeCun 認為,今天的語言大模型缺乏一些關鍵的「貓級」能力,如持久記憶、推理、規劃和對物理世界的理解。他認為,這些模型只是證明了「你可以操縱語言,但並不聰明」,它們永遠不會產生真正的通用人工智慧(AGI)。
LeCun 並不完全否認實現 AGI 的可能性,但他表示,需要新的方法來實現。他指出,他領導的 Meta 基礎人工智慧研究團隊正在研究如何消化真實世界的影片,這可能是一種有前景的方向。(@IT 之家)
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- 平價 Vision Pro 需搭配 Mac/iPhone;OpenAI 收購實時分析資料庫公司丨 RTE 開發者日報MaciPhoneOpenAI資料庫開發者日報
- 馬斯克的 xAI 融資 60 億美元;英偉達收購兩家 AI 創企丨 RTE 開發者日報 Vol.193馬斯克AI開發者日報
- Meta 公佈首款 AR 眼鏡 Orion,成本 1 萬美元;OpenAI CTO Mira Murati 離職丨 RTE 開發者日報OpenAI開發者日報
- OpenAI 曝新專案「草莓」,提升 AI 推理能力;智譜 AI 開源影片理解模型丨 RTE 開發者日報OpenAI模型開發者日報
- 馬斯克回應蓋茨;谷歌反壟斷案開庭;蘋果釋出 3nm 晶片的 iPhone 15丨RTE開發者日報 Vol.48馬斯克谷歌蘋果晶片iPhone開發者日報
- 馬斯克突擊訪華;谷歌 Python 基礎團隊全數被裁;丨 RTE 開發者日報 Vol.195馬斯克谷歌Python開發者日報
- ubuntu如何實現遠端操控Ubuntu
- OpenAI 收購桌面實時協作公司 Multi;iOS 18 開放 iPhone 映象測試丨 RTE 開發者日報 Vol.231OpenAIiOSiPhone開發者日報
- 語音生成公司 ElevenLabs 估值達 30 億美元;OpenAI Realtime API 很好也很貴丨 RTE 開發者日報OpenAIAPI開發者日報
- “仍有 5 億人堅持用 QQ”;馬斯克:本週開源 xAI 人工智慧助手丨 RTE 開發者日報 Vol.162馬斯克AI人工智慧開發者日報
- Amphion 推出開源 TTS 模型 MaskGCT,5 秒克隆聲音;神秘文生圖模型「小熊貓」登頂競技場丨 RTE 開發者日報TTS模型GC開發者日報
- 谷歌破解 OpenAI 模型關鍵資訊;微軟更改預設瀏覽器,不再主推 Edge 丨 RTE 開發者日報 Vol.163谷歌OpenAI模型微軟瀏覽器開發者日報
- Hume AI 推出 EVI 2 情感模型;OpenAI o1 模型問世,模擬人類思考問題 丨 RTE 開發者日報模型OpenAI開發者日報
- 微軟或開發新模型與 OpenAI 競爭;蘋果或將推出 Apple Pencil Pro 丨 RTE 開發者日報 Vol.198微軟模型OpenAI蘋果APP開發者日報
- Meta AR 眼鏡團隊前負責人加入 OpenAI;visionOS 2.2 Beta 引入超寬屏投屏模式丨 RTE 開發者日報OpenAI模式開發者日報
- 前 OpenAI 首席科學家建「安全超級智慧」實驗室;Meta 重組元宇宙團隊丨 RTE 開發者日報 Vol.228OpenAI元宇宙開發者日報
- OpenAI 成功收購 Chat.com 域名;AI「電子舌頭」問世,可辨別味道、檢測食品安全丨 RTE 開發者日報OpenAI開發者日報
- ChatGPT 即將登陸 iPhone;史丹佛推出 AI 輔助全息成像技術丨 RTE 開發者日報 Vol.202ChatGPTiPhoneAI開發者日報
- 斯嘉麗·約翰遜指控 OpenAI 非法使用其聲音;微軟推出 AI 工具「回顧」(Recall)丨 RTE 開發者日報 Vol.208OpenAI微軟開發者日報
- OpenAI 再發 Sora 新短片,傳 Sora 兩週內推出;李飛飛團隊出品空間智慧版 ImageNet 丨 RTE 開發者日報OpenAISora開發者日報
- OpenAI 釋出 AI 生成圖片檢測器;特斯拉計劃在中國測試自動駕駛計程車丨 RTE 開發者日報 Vol.200OpenAI自動駕駛開發者日報
- 社群系統ThinkSNS+第4階段安卓端更新播報安卓
- 阿里 Qwen2.5 開源釋出;YouTubeVeo 引入 Google DeepMind Veo 模型丨 RTE 開發者日報阿里Go模型開發者日報
- 亞洲市場 4090 顯示卡價格飆升 60%;比亞迪自研城市 NOA 輔助駕駛 3 月落地丨 RTE 開發者日報 Vol.144開發者日報
- 亞馬遜雲集齊 Claude 3 全家桶;世界數字技術院釋出大模型安全國際標準丨 RTE 開發者日報 Vol.187亞馬遜大模型開發者日報
- 微軟將深度整合 Azure AI 與 GitHub;Stability AI 0.5 秒生成三維建模丨 RTE 開發者日報微軟AIGithub開發者日報
- OpenAI 釋出全新生成式模型 GPT-4o;位元組收購音訊裝置公司 Oladance 丨 RTE 開發者日報 Vol.203OpenAI模型GPT音訊開發者日報
- 首個實時 AI 影片生成技術釋出;科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報AI大模型開發者日報
- Mini-Omni:具有實時對話能力的多模態模型;狨猴會用名字稱呼彼此 丨 RTE 開發者日報模型開發者日報
- 高通將支援 Meta Llama 3 在驍龍終端執行;特斯拉中國全系車型降價 1.4 萬元丨 RTE 開發者日報 Vol.189開發者日報
- 遠端操控多臺計算機計算機
- Meta SAM 2:實時分割圖片和影片中物件;Apple Intelligence 首個開發者測試版釋出丨 RTE 開發者日報物件APPIntel開發者日報
- 活動報名丨實時互動 AI 開發者年度聚會!RTE Open Day@RTE2024,10.25/26 北京AI
- 智譜清言 App 面向 C 端開放 AI 視訊通話服務;谷歌 GameNGen:神經網路驅動的實時遊戲引擎丨 RTE 開發者日報APPAI谷歌GAM神經網路遊戲引擎開發者日報
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- Sam Altman 新公司將打造 AI 健康教練;全新大模型架構 TTT 超越 Transformer 丨 RTE 開發者日報AI大模型架構ORM開發者日報
- 英偉達市值超越蘋果;ChatGPT、Perplexity、Claude 同時大崩潰丨 RTE 開發者日報 Vol.220蘋果ChatGPT開發者日報
- LLM應用實戰: OpenAI多代理新作-SwarmOpenAISwarm