英偉達世界基礎模型 Cosmos,教 AI 理解物理世界;阿里通義與雷鳥合作推出 AI 眼鏡丨 RTE 開發者日報

RTE开发者社区發表於2025-01-08

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的新聞」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@SSN,@ 鮑勃

01 有話題的新聞

1、英偉達推出首個生成式世界基礎模型 Cosmos,加速物理 AI 系統的發展

在 2025 年消費電子展(CES)上,NVIDIA 釋出了全新的 Cosmos 平臺,該平臺旨在加速物理人工智慧(AI)系統的開發,尤其是自主駕駛車輛和機器人。Cosmos 平臺整合了生成式世界基礎模型(WFM)、影片標記器、安全防護機制以及一個加速的資料處理管道,這些功能幫助開發者在減少對真實世界資料依賴的情況下建立和最佳化 AI 模型。

Cosmos 平臺將以開放模型許可的形式在 Hugging Face 和 NVIDIA NGC 目錄中提供,後續將推出經過最佳化的 NVIDIA NIM 微服務,並透過 NVIDIA AI 企業軟體平臺提供企業支援。

NVIDIA 執行長黃仁勳在展會上表示:「機器人技術即將迎來像 ChatGPT 那樣的轉折時刻。與大型語言模型一樣,世界基礎模型是推動機器人和自主駕駛車輛發展的核心,但並非所有開發者都有能力和資源來訓練自己的模型。我們建立 Cosmos 就是為了讓物理 AI 的開發更加普及,讓每個開發者都能接觸到通用機器人技術。」

Cosmos 模型可以根據文字、影像和感測器資料生成基於物理的高畫質影片,使其適用於影片搜尋、合成資料生成和強化學習等應用。開發者能夠定製模型以模擬工業環境、駕駛場景以及其他特定用例。此外,NVIDIA 還推出了 NeMo Curator,這是一個加速影片處理管道,能夠在 14 天內處理 2000 萬小時的影片資料,以及 Cosmos Tokeniser,這是一個視覺資料壓縮工具。

多家主要的機器人和運輸公司,包括 Agile Robots、XPENG、Waabi 和 Uber,已經開始採用 Cosmos 進行 AI 開發。除了 Cosmos,NVIDIA 還推出了 Llama Nemotron 大型語言模型和 Cosmos Nemotron 視覺語言模型,專為醫療、金融和製造等行業的企業使用而開發。(@AIbase 基地)

2、Meta 提出新型可擴充套件記憶層,提升語言模型知識儲備、減少幻覺現象

隨著企業越來越多地應用大型語言模型(LLMs),如何提升模型的知識準確性並減少幻覺現象,成為了一項重要挑戰。Meta AI 的研究人員在一篇新論文中提出了「可擴充套件記憶層」,或許能夠為這一問題提供解決方案。

可擴充套件記憶層的核心思想是在不增加推理時計算資源的情況下,向 LLMs 中新增更多引數,從而提升其學習能力。這種架構適用於需要儲存大量事實知識但又希望保持推理速度的應用場景。

傳統的語言模型使用「密集層」來編碼大量資訊。在密集層中,所有引數在推理時幾乎都是同時啟用的,能夠學習複雜的函式,但這需要額外的計算和能量資源。而對於簡單的事實知識,使用具有關聯記憶架構的簡單層會更加高效和易於理解,這就是記憶層的作用。記憶層透過簡單的稀疏啟用和鍵值查詢機制來編碼和檢索知識。儘管稀疏層在記憶體佔用上高於密集層,但其同時僅使用少量引數,從而提高了計算效率。

雖然記憶層已經存在多年,但在現代深度學習架構中卻鮮有應用,主要是因為它們並未針對當前硬體加速器進行最佳化。當前前沿的 LLMs 通常採用某種形式的「專家混合」架構,這與記憶層有相似之處。專家混合模型由多個專門化的小型專家元件構成,透過路由機制在推理時啟用特定的專家。

為了克服記憶層在計算上輕便但記憶體佔用大的挑戰,Meta 的研究人員提出了若干改進措施,使其能夠在大規模應用中實現可行性。他們為記憶層配置了並行化,能夠在多個 GPU 上儲存數百萬個鍵值對,同時不會減慢模型的執行速度。此外,他們還為處理高記憶體頻寬操作開發了特定的 CUDA 核心,並實現了引數共享機制,允許多個記憶層共享一組記憶體引數。

透過對 Llama 模型的修改,將一個或多個密集層替換為共享記憶層,研究人員對記憶增強模型進行了測試。他們的研究發現,記憶模型在多個任務中表現優異,特別是在需要事實知識的任務上,效能明顯超過密集基線,甚至能與使用 2 到 4 倍計算資源的模型競爭。(@ AIbase 基地)

3、可靈 AI V1.6 模型已開放 API:內容質量與效果顯著提升

昨日(1 月 7 日)北京快手科技有限公司宣佈,其自研的視覺生成大模型可靈 AI V1.6 版本已經開放 API。這一訊息標誌著該模型在生成質量上的進一步提升,為使用者帶來了更加穩定和高質量的內容創作體驗。

可靈 AI V1.6 模型在運動、時序類動作和運鏡等文字描述的響應上表現出色,文字響應度顯著提高,從而使得廣告影片素材的生成成功率大幅增加。此外,該模型在風格保持、畫面色彩、光影效果以及細節逼真度等方面也有了顯著的提升,能夠以更低的成本為使用者創造出具有電影級畫面質感的作品。(@ AIbase 基地)

02 有亮點的產品

1、Akool :AI 音影片界的「瑞士軍刀」,華人 AI 初創已與超過 2000 家知名企業合作

Akool 於 2022 年成立,短時間取得了巨大的成就,ARR 超過 4000 萬美元。其主要佈局影片編輯與生成賽道,瞄準 ToB 業務,為企業提供高效、智慧的影片生成解決方案。

Akool 像 AI 界的「瑞士軍刀」,提供包括 AI 換臉、直播換臉、定製數字人形象聲音、AI 影片編輯、AI 直播聊天、AI 影片翻譯、圖片生成與背景替換、資料檢查、AI 智慧體等各種功能,幫助企業解決遇到的實際問題。實測表明,Akool 的 AI 音影片質量已經達到了影視級別。

華人創始人呂家俊在浙大與 UIUC 求學期間專注於圖形和機器學習領域,曾先後供職於蘋果與 Google,獲人工智慧公司 50 強 CEO 獎。(@ Z potentials)

2、阿里通義與雷鳥合作推出 AI 眼鏡,推動大模型應用落地

1 月 7 日,雷鳥創新公司正式釋出了首款搭載阿里通義定製意圖識別大模型的雷鳥 V3AI 拍攝眼鏡。這一產品的釋出標誌著國內首次實現大模型與 AI 眼鏡硬體的定製合作,旨在加速端側模型在 AI 眼鏡上的應用落地。

此次釋出會強調,AI 眼鏡市場的快速增長受到 Meta 和雷朋等公司推出的第二代拍攝眼鏡的影響。雷鳥創始人李宏偉表示,預計 2025 年將成為智慧眼鏡的「世紀大戰之年」。業內分析師指出,雖然大模型與 AI 眼鏡結合的技術日益成熟,但整體應用生態的構建仍處於初級階段。AI 眼鏡的市場前景廣闊,但未來的發展方向將更加關注擴增實境(AR)和虛擬現實(VR)等頭戴裝置的創新。

雷鳥 V3AI 拍攝眼鏡的主要功能包括手機通知的 AI 總結、QQ 音樂點播、AI 新聞播客等,預計將在 2025 年上半年推出更多應用。同時,該眼鏡還引入了科創板上市公司虹軟科技的畫質演算法,並展示了其在 AR 光學領域的技術進展,包括自主研發的「螢火光引擎」。(@AIbase 基地)

3、微信公眾號悄然上線「AI 配圖」功能,基於騰訊混元大模型

近日,微信公眾平臺悄然上線了一個很有意義的新功能 ——「AI 配圖」,使用者只需輸入描述即可生成與其內容相關的影像,這無疑可以顯著提升了內容創作的效果。

據介紹,AI 配圖功能是騰訊以微信公眾平臺第三方生成技術服務為技術基礎開發的向微信公眾賬號使用者提供的 AI 圖片生成功能。該服務使用了模型演算法機制為騰訊混元助手大模型演算法。

在使用上,運營者只需登入微信公眾賬號,在「圖片-AI 配圖」功能下使用 AI 配圖功能,或在 AI 配圖中點選「試試 AI 配圖」跳轉到 AI 配圖功能,或其它以「AI 配圖」為標識的本功能入口,使用者可輸入文字描述、關鍵詞或參考圖片以獲取 AI 生成的圖片,系統便會在短短十幾秒內為使用者呈現出四張生成的圖片。值得注意的是,透過此功能生成的圖片僅限於在微信公眾平臺場景內使用。

另外,還可以基於生成的圖片,進行二次風格創作,平臺提供了包括「純真動漫、清新日漫、油畫、莫奈、極簡、膠片電影、糖果色、穆夏」,只要選擇其中一個風格,就能將原圖生成相應的風格模式。

不過,使用者在使用「AI 配圖」功能時,需要注意相關的使用條款。根據條款,平臺要求不得利用本功能,惡意生成、傳播虛假資訊和可能導致公眾混淆或者誤認的生成圖片,須基於平臺提供的標識指示對生成圖片進行合理標識,不得采用技術手段刪除、篡改、隱匿合成標識。此外,騰訊並不承擔生成圖片的法律責任,使用者在使用時需對生成圖片的合法性負責。(@ AIbase 基地)

03 有態度的觀點

1、英偉達黃仁勳:AI Agent 可能是下一個機器人行業的風口

北京時間 1 月 7 日,英偉達舉行了 CES 2025 主題演講,CEO 黃仁勳演講中表示,AI Agent 可能是下一個機器人行業的風口。

黃仁勳演講中提到,世界上有 10 億知識工作者,而 AI Agent 可能是下一個機器人行業,很可能是一個價值數萬億美元的機會。

同時,黃仁勳也代表英偉達對 AI Agent 提出了全新的發展願景。他表示新一代 AI 系統將不再侷限於簡單的問答模式,而是能夠像真實員工一樣理解需求、互動交流並解決複雜問題,它還可以呼叫多種工具,並透過多個模型的協同合作來完成任務。

此外,黃仁勳還對 Scaling law 疑似「撞牆」這一看法作出回應。他認為 Scaling law 並未失效,只要投入足夠的計算資源和採用更復雜的演算法,AI 的智慧水平就能持續提升。(@ APPSO)

2、史丹佛大學研究:AI 在與人類對話僅 2 小時後即可「再現」其個性特徵

一項新的研究發現,與 AI 模型進行兩小時對話,就能準確複製一個人的個性。

這項研究來自谷歌和史丹佛大學,他們透過與 1052 名參與者進行兩小時訪談,建立了「模擬智慧體」——AI 的個性化複製品。這些訪談被用來訓練一個生成型 AI 模型,模仿人類的行為。

為了驗證 AI 複製品的準確性,每位參與者都完成了兩輪人格測試、社交調查和邏輯遊戲,並在兩週後再次進行相同的測試。當 AI「複製品」進行了這些測試時,它們的回答與真實參與者相符的準確率高達 85%。

研究人員認為,能夠模擬人類行為的 AI 模型可能在多個研究領域發揮作用。例如,它可以幫助評估公共衛生政策的效果、瞭解公眾對產品釋出的反應,甚至模擬對重大社會事件的反應,這些問題由於成本高昂、操作複雜或倫理問題而難以透過真人參與研究。

研究人員在論文中提到:「模擬人類的態度和行為可以為研究人員提供一個實驗平臺,用於測試各種干預措施和理論。每個模擬個體都能參與到不同的社會、政治或資訊環境中。」他們補充道,這種模擬還可以幫助試行新政策,探索因果關係和背景因素的互動,並加深我們對制度與網路如何影響人們的理解。

研究人員也意識到,這項技術可能被濫用。AI 和「深度偽造」技術已被不法分子用於欺詐、冒充和操控他人。模擬智慧體也可能被誤用。然而,他們認為,這項技術為我們提供了以前無法實現的方式來研究人類行為,能在高度可控的測試環境中進行實驗,避免了傳統人類實驗中的倫理、後勤和人際問題。(@IT 之家)

更多 Voice Agent 學習筆記:

對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點

這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢

語音即入口:AI 語音互動如何重塑下一代智慧應用

Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……

幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記

市場規模超 60 億美元,語音如何改變對話式 AI?

2024 語音模型前沿研究整理,Voice Agent 開發者必讀

從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶

WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?

人類級別語音 AI 路線圖丨 Voice Agent 學習筆記

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章