Swarm 框架登場:OpenAI 第 3 階段「敲門磚」;馬斯克的 Teslabot 實際有人遠端操控丨 RTE 開發者日報

RTE开发者社区發表於2024-10-14

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@SSN,@ 鮑勃

01 有話題的新聞

1、智譜開源文生圖模型 CogView3-Plus,相關功能上線智譜清言 App

智譜技術團隊今天宣佈開源文生圖模型 CogView3 及 CogView3-Plus-3B ,該系列模型的能力已經上線「智譜清言」App。

據介紹,CogView3 是一個基於級聯擴散的 text2img 模型,其包含如下三個階段:

  • 第一階段: 利用標準擴散過程生成 512x512 低解析度的影像。
  • 第二階段: 利用中繼擴散過程,執行 2 倍的超解析度生成,從 512x512 輸入生成 1024x1024 的影像。
  • 第三階段: 將生成結果再次基於中繼擴散迭代,生成 2048×2048 高解析度的影像。

官方表示,在實際效果上,CogView3 在人工評估中比目前最先進的開源文字到影像擴散模型 SDXL 高出 77.0%,同時只需要 SDXL 大約 1/10 的推理時間。

CogView3-Plus 模型則在 CogView3(ECCV'24)的基礎上引入了最新的 DiT 框架,以實現整體效能的進一步提升。據介紹,其採用 Zero-SNR 擴散噪聲排程,並引入了文字 - 影像聯合注意力機制。與常用的 MMDiT 結構相比,它在保持模型基本能力的同時,有效降低訓練和推理成本。CogView-3Plus 使用潛在維度為 16 的 VAE。(@IT 之家)

2、Swarm 框架登場:OpenAI 第 3 階段「敲門磚」,讓專業的事交給專業的 AI 智慧體做

OpenAI 公司推出了 Swarm 框架,旨在解決開發者在多智慧體系統編排中面臨的複雜挑戰。Swarm 框架透過簡化智慧體的協調、執行和測試過程,讓開發者能夠更高效地管理、互動多個 AI 智慧體。

OpenAI 朝 AI 第 3 階段邁進

根據 OpenAI 公佈五級量表,最新推出的 o1 模型處於第二階段,即所謂的「推理者」(reasoners),而開發 multi-agent 符合第三階段的目標要求。

Swarm 框架

Swarm 是一個實驗性框架,協調、執行和測試多智慧體,讓其變得輕量且高度可控,其目標是讓開發者能夠以簡便高效的方式管理多個 AI 智慧體之間的互動。
Swarm 框架的核心在於智慧體(agents)和交接(handoffs)兩個基礎抽象( primitive abstractions):

- 智慧體: 每個智慧體是特定指令與工具的組合,能夠獨立完成任務。
- 交接: 智慧體可以在執行過程中隨時將任務或對話交接給其他智慧體,確保流程的流暢性和模組化。

該框架保持整體協調的高效性的同時,簡化了複雜的智慧體互動。

隨著多智慧體系統在 AI 研究和應用中的重要性日益增加,Swarm 框架為開發者提供了一個易於使用的工具,降低了技術門檻,增加了可及性。無論是用於研究、產品開發還是教育,Swarm 框架都為探索協調的多智慧體 AI 提供了一個激動人心的機會。(@IT 之家)

3、馬斯克的 Teslabot 實際有人遠端操控

特斯拉 CEO 埃隆·馬斯克在數日前的自動駕駛計程車釋出會活動上展示了人形機器人 TeslaBot(原稱 Optimus),該機器人在現場跳舞、交談、玩遊戲和倒飲料,非常之吸引現場的嘉賓觀眾。

據一位在活動現場與特斯拉工程師交談的人士透露,機器人的反應都是在幕後人員的控制下完成的,而馬斯克並未向觀眾明確說明這一事實。這一行為被揭露後引發了觀眾的失望和對馬斯克技術宣傳的質疑。

一些投資者對這一場特斯拉的釋出會評價為「令人失望」,他們認為釋出會缺乏具體細節,而且自動駕駛計程車(CyberCab)和 人形機器人(Teslabot)要到 2026 年才開始生產,投資者對於的交付時間表也認為過於遙遠,所以當日特斯拉股票在釋出會後便下跌,但即使如此,馬斯克的一系列創新產品仍然讓人期待。(@ 愛範兒)

4、古爾曼:蘋果智慧眼鏡和帶攝像頭的 AirPods 可能於 2027 年推出

據彭博社的馬克・古爾曼稱,蘋果正在準備其它一些基於視覺的產品,預計會有智慧眼鏡,類似於 Meta 與 Ray-Ban 的合作產品,以及帶有攝像頭的 AirPods。推出時間不會早於 2027 年,並且存在可能最終不會推出的情況。

根據該報告,蘋果希望透過將視覺智慧技術引入更多產品,來挽回他們在 Apple Vision Pro 的視覺智慧方面數十億美元的部分研發投資。蘋果已經在 iPhone 16 中引入了該技術,下一步是將其引入眼鏡形態的產品中。

這款眼鏡不會是帶有螢幕的完整的 AR 眼鏡,而是一款內建攝像頭、揚聲器和麥克風的智慧眼鏡,類似於 Meta 的 Ray Ban 眼鏡。

此外,蘋果公司仍在計劃推出帶有攝像頭的 AirPods,這一訊息此前已有報導。(@IT 之家)

5、優必選釋出全新一代工業人形機器人 Walker S1,進入比亞迪等汽車工廠實訓

優必選釋出了全新一代工業人形機器人 Walker S1,已進入比亞迪工廠執行搬運任務實訓,實現全球首次人形機器人與無人物流車、無人叉車、工業移動機器人和智慧製造管理系統的協同作業。

優必選表示,已經與東風柳汽、吉利汽車、一汽紅旗、一汽 - 大眾青島分公司、奧迪一汽、富士康、順豐在內的多家企業合作。截至目前,Walker S 系列已成為全球進入最多車廠實訓的人形機器人。

Walker S1 主要引數如下:

  • 基本引數:身高 172cm、體重 76kg、負載行走 15kg
  • 360° 多模態感知:整合化頭部設計、雙耳魚眼相機、3D 立體視覺
  • 一體化關節:創新型旋轉驅動,最大扭矩 250N・m
  • 仿人靈巧手:6 個陣列式觸覺壓力感測器、全棧式靈巧操作策略庫(@IT 之家)

02 有態度的觀點

1、Meta 首席人工智慧科學家 LeCun:AI 威脅人類論完全是胡說八道

Meta 首席人工智慧科學家 Yann LeCun 近日在接受《華爾街日報》採訪時表示,對人工智慧對人類生存的威脅的擔憂是「徹頭徹尾的胡說八道(complete B.S. ) 」。

LeCun 是人工智慧領域的一位先驅,曾獲得圖靈獎,目前擔任紐約大學教授和 Meta 高階研究員。他此前曾在社交媒體上表示,在擔心控制超級智慧 AI 之前,我們需要先弄清楚如何設計一個比家貓更聰明的系統。

LeCun 在接受《華爾街日報》採訪時詳細闡述了他的觀點,在回答有關人工智慧變得足夠聰明以至於對人類構成威脅的問題時,他說:「你將不得不原諒我的法語,但那是完全的胡說八道。」

LeCun 認為,今天的語言大模型缺乏一些關鍵的「貓級」能力,如持久記憶、推理、規劃和對物理世界的理解。他認為,這些模型只是證明了「你可以操縱語言,但並不聰明」,它們永遠不會產生真正的通用人工智慧(AGI)。

LeCun 並不完全否認實現 AGI 的可能性,但他表示,需要新的方法來實現。他指出,他領導的 Meta 基礎人工智慧研究團隊正在研究如何消化真實世界的影片,這可能是一種有前景的方向。(@IT 之家)

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章