Amphion 推出合成音訊鑑別系統 Auditi;Gemini 引入 NotebookLM 功能,生成文件、網頁音訊摘要丨日報

RTE开发者社区發表於2025-03-19

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 技術 」、「有亮點的 產品 」、「有思考的 文章 」、「有態度的 觀點 」、「有看點的 活動 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@qqq、@ 鮑勃

01 有話題的技術

1、騰訊混元推出多個全新開源 3D 生成模型

昨日,騰訊混元大模型推出 5 個全新 3D 生成模型並宣佈全部開源,同時升級了自研的 3D AI 創作引擎。據瞭解,5 個開源模型均基於 Hunyuan3D-2.0 打造,具體來看:

  • Turbo 系列模型,透過 FlashVDM 框架實現數十倍加速,將生成時間縮短至 30 秒內;

  • 多檢視版本模型如 Hunyuan3D-2-MV,結合多視角輸入提升細節捕捉能力;

  • 輕量級 mini 系列模型最佳化架構,支援在 4080 顯示卡和蘋果 M1 Pro 晶片上執行,降低算力成本。

面向創作者的「騰訊混元 3D AI 創作引擎」也迎來升級。使用者僅需上傳 2-4 張圖片,即可快速生成高質量 3D 模型,並具備智慧減面能力,可在低面片基礎上保留細節,讓模型邊緣更順滑、結構更整齊。此外,引擎提升了 PBR 材質生成效果,讓模型的光影看起來更真實,相容多種主流格式(如 OBJ、GLB、FBX 等),無縫對接 3D 列印和移動端實時互動需求。(@ APPSO)

2、從劉德華到雷軍,AI 合成音訊猖獗?Amphion 一鍵識別

AI 偽造音訊影片不僅嚴重侵犯個人與企業的合法權益,如盧某某遭惡意偽造音影片、劉德華聲音被冒用引流牟利、雷軍被 AI 惡意模仿損害公眾形象,還會誤導社會公眾認知,擾亂網路資訊傳播秩序。此類行為破壞內容真實性,滋生虛假資訊,損害個人名譽與企業品牌信譽,更可能引發公眾信任危機,汙染網路生態環境,亟需透過法律監管與技術治理,遏制偽造音影片亂象,維護健康有序的網路空間。

Auditi: 多語言多型別 AI 合成音訊鑑別系統

香港中文大學(深圳)- 深圳市大資料研究院 - 深圳市跨模態認知計算重點實驗室武執政教授專案組利用多語言、多偽造模型及多樣化資料來訓練模型:

1️⃣多語言覆蓋:支援 38 種語言,包含中文、英語、俄語、韓語等主流語種;

2️⃣多偽造模型:整合 59 種模型結構,既涵蓋基於聲碼器的經典模型(如 MelGAN),也包含基於 Codec 的前沿模型(如 VALL-E);

3️⃣多樣化資料:資料來源廣泛,整合有聲書、部落格、網際網路等多元渠道內容,包含豐富的資料型別與採集場景。

3、馬斯克收購 Hotshot 劍指影片生成賽道,短期內 Grok Video 或加速面世

(圖片來源:Hotshot)

根據 Hotshot 的 CEO 兼聯合創始人 Aakash Sastry 在 X 上釋出的帖子,Elon Musk 的 xAI 已收購了文字轉影片初創公司 Hotshot。

自 2023 年成立以來,Hotshot 已開發出三款影片生成 AI 模型,分別名為 Hotshot-XL、Hotshot Act One 和 Hotshot。

這些模型以及 Hotshot 的研究和工程人才可能對 xAI 有所幫助,因為 xAI 正致力於開發自己的影片 AI,以與 OpenAI 的 Sora 等競爭對手產品競爭。馬斯克旗下的 AI 初創公司運營著 Grok 聊天機器人,他在 1 月的一次直播中表示,他預計「Grok Video」模型將在「幾個月內」釋出。

Hotshot 總部位於舊金山,由 Sastry 和 John Mullan 於幾年前創立。 這家初創公司最初專注於開發基於 AI 的照片建立和編輯工具,但最終轉向了文字到影片的 AI 模型。

xAI 收購 Hotshot 可能表明前者計劃構建自己的影片生成模型,以與 Sora、Google 的 Veo 2 等競爭。馬斯克此前曾暗示,xAI 正在開發影片生成模型,以增強其 Grok 聊天機器人平臺。(@ Z Potentials)

4、一句話建模的時代來了,元宇宙巨頭 Roblox 釋出 AI 生 3D 大模型

Roblox 週一宣佈推出其首個 AI 生 3D 的基礎模型:名為「Cube」,允許創作者使用生成式 AI 建立 3D 物件。該公司還發布了開源版本,使平臺外的任何人都可以基於它進行構建。

目前處於測試階段的 Cube 3D Mesh 生成功能,使創作者能夠透過單個提示生成「網格」(即物體的 3D 表示)。例如,「生成一輛帶黑色條紋的橙色賽車」。創作者可以在 Roblox Studio 中進一步調整遊戲內物品。

文字生成工具讓開發者能夠在遊戲中新增基於文字的 AI 功能。這包括給玩家提供與互動式非玩家角色(NPCs)進行對話的選項。

與此同時,文字轉語音功能讓開發者可以新增旁白、讓 NPC 說話或在遊戲中包含語音字幕。語音轉文字則允許玩家使用語音命令,比如指揮角色向前移動。

該公司未來的其他計劃包括為更「複雜」的物件推出網格生成和場景生成功能。例如,場景生成工具將允許創作者提示 AI 製作完整的森林場景,並將樹上的綠葉變成秋季顏色以展示季節變化。(@ 三次方 AIRX)

5、英偉達正式釋出 Isaac GR00T(GR00T N1):全球首款開源且可定製的通用人形機器人基礎模型

在機器人領域,英偉達正式釋出了 Isaac GR00T(GR00T N1),這是全球首款開源的、可定製的通用人形機器人基礎模型。

GR00T N1 採用雙系統架構, 靈感來源於人類認知原理。 其中,「系統 1」是一個快速思考的行動模型,類似於人類的直覺和反射;「系統 2」則是一個慢速思考模型,用於深思熟慮的決策制定。

GR00T N1 可輕鬆適配多種常見任務,例如抓取、雙臂搬運、單臂與雙臂協作,以及多步複雜操作,適用於物料搬運、包裝和檢測等場景。

該模型已經被多家機器人制造商採用,包括 Fourier GR-01、Agility Robotics、Boston Dynamics 等,助力類人機器人進入更廣泛的商業應用場景。

此外,英偉達還推出了一系列模擬框架和方案,包括 NVIDIA Isaac GR00T 方案,用於生成合成資料,以及 Newton——一款開源物理引擎,該引擎由英偉達與 Google DeepMind 和迪士尼研究院 共同開發,專門用於機器人研發。

對比來看,去年 GTC 大會上,英偉達就釋出了人形機器人通用基礎模型 Project GR00T,以及基於 NVIDIA Thor 系統級晶片(SoC)的新型人形機器人計算機 Jetson Thor。今年,英偉達在機器人基礎模型和體系化的解決方案上再次升級。

摩根大通表示,英偉達已經宣佈其全球 AI 基礎模型平臺 Cosmos 以及其人形機器人開發平臺 GR00T,未來在 Physical AI 方面預計會有更多突破。隨著多模態 AI 的進步以及機器人和數字孿生等新舉措的推出,全球模型 Physical AI 模型開發方面可能會有更多進展。(@ 21 世紀經濟報導)

02 有亮點的產品

1、谷歌 Gemini 新功能:Canvas 和 Audio Overview

Google 近日為其基於人工智慧的聊天機器人 Gemini 推出了一項名為「Canvas」的新功能,旨在提升使用者的創作和協作體驗。這一功能與 OpenAI 的 ChatGPT Canvas 和 Anthropic 的 Artifacts 中的同名工具類似,為 Gemini 使用者提供了一個互動空間,方便他們建立、改進和分享寫作與程式設計專案。

Canvas 允許使用者透過專用工具更新草稿的特定部分,使用者只需簡單突出顯示某個段落,便可以要求 Gemini 對其進行簡化、專業化或調整為更為非正式的風格。例如,如果使用者希望為自己的內容新增專業色彩,只需一鍵匯出到 Google Docs,便可與他人協作。

除了文字處理功能,Gemini 的 Canvas 還具備程式設計相關的工具,使用者可以生成和預覽 HTML、React 程式碼等 Web 應用原型。當使用者請求更改時,Canvas 會實時重新整理預覽。例如,使用者可以要求 Gemini 生成一個電子郵件訂閱表單的 HTML,並預覽其在網頁上的顯示效果。

此外,Google 還在此次更新中引入了 NotebookLM 的音訊概覽功能。該功能能夠生成文件、網頁及其他來源的音訊摘要,以播客形式呈現。使用者只需透過提示欄上傳文件,便可以迅速生成音訊摘要,方便隨時下載或分享。(@ AIbase 基地)

2、18 歲創始人用硬核技術打造現象級 AI 健康應用 Cal AI,8 個月狂攬 500 萬下載

在充斥著各種「氛圍編碼」和過度炒作的科技創業圈,Cal AI 及其年僅 18 歲的創始人扎克·亞德加里(Zach Yadegari)顯得格外不同,形成了一種既諷刺又令人尊敬的「老派」對比。令人難以置信的是,亞德加里和他的聯合創始人亨利·朗馬克(Henry Langmack)都剛剛高中畢業,但他們的創業故事卻已成為經典案例。

據亞德加里透露,Cal AI 於去年 5 月份推出,在短短八個月內,其下載量已突破 500 萬次。更令人振奮的是,使用者留存率高達 30% 以上,且該應用上個月的收入已超過 200 萬美元。雖然 TechCrunch 尚未能獨立驗證這些資料,但 Cal AI 在蘋果 App Store 上獲得了 4.8 星的平均評分,累計超過 6.6 萬條使用者評論;在 Google Play 商店的下載量也已超過 100 萬次,並在近 7.5 萬條評論中同樣獲得了 4.8 星的高分。

Cal AI 的核心理念簡單而實用:使用者只需拍攝一張食物的照片,應用程式便能自動分析並記錄其卡路里和宏量營養素含量。儘管這一想法並非首創,市場上已有 MyFitnessPal 等老牌應用提供類似功能,以及像 SnapCalorie 這樣由 Google Lens 創始人建立的新興競品,但 Cal AI 的獨特優勢在於其完全構建於大型影像模型時代。

它巧妙地利用 Anthropic、OpenAI 和 RAG 等先進模型來提升識別準確率,並基於 GitHub 等平臺的開源食物卡路里和影像資料庫進行訓練。亞德加里強調:「我們發現不同的模型在識別不同的食物時表現更佳。」

為了實現高精度的識別,Cal AI 的創始團隊透過自身的技術實力解決了諸多挑戰,例如準確識別食品包裝上的資訊以及雜亂碗中混合的食材。最終,他們聲稱該應用的識別準確率已達到 90%,這對於許多注重飲食健康的消費者來說已經足夠可靠。(@ AIbase 基地)

03 有態度的觀點

1、阿里巴巴董事長:AI 真正價值在於如何實際應用

近日,阿里巴巴集團董事長蔡崇信出席由 CNBC 主辦、在新加坡舉辦的 CONVERGE LIVE 論壇活動。蔡崇信在訪談中預測了未來 AI 市場的發展。蔡崇信在訪談中表示,人工智慧未來可能會減少對分析師的需求,並認為分析師可能會被 AI 取代。其分析,AI 可以撰寫一份英偉達或者蘋果的報告,並且 AI 會完成得很出色。但蔡崇信也強調,上述情況並非意味著分析師這一崗位會完全消失。

對於「未來市場有多大」,蔡崇信預測表示,全球 GDP 總量約 100 萬億美元,約 60% 由人類勞動貢獻,若 AI 能替代其中 20% 的工作,並以成本降低 20% 實現,那麼將創造至少 10 萬億美元的市場規模。由此也引發了蔡崇信對 AGI 的看法,其認為,在 AGI 實現之前,人類都還將面臨很多定義 AGI 的問題,例如最聰明的 AI 意味著什麼?最後,蔡崇信也強調了自己的核心觀點 —— AI 的真正價值在於如何將技術應用到實際場景中,並創造商業價值和使用者體驗提升。同時蔡崇信也堅信,AI 在未來並不會完全取代人類,實際上它只會幫助人類提升工作效率。(@ APPSO)

更多 Voice Agent 學習筆記:

ElevenLabs 33 億美元估值的秘密:技術驅動 + 使用者導向的「小熊軟糖」團隊丨 Voice Agent 學習筆記

端側 AI 時代,每臺家居裝置都可以是一個 AI Agent 丨 Voice Agent 學習筆記

世界最炙手可熱的語音 AI 公司,舉辦了一場全球駭客松,冠軍作品你可能已經看過

多模態 AI 怎麼玩?這裡有 18 個腦洞

AI 重塑宗教體驗,語音 Agent 能否成為突破點?

對話 TalktoApps 創始人:Voice AI 提高了我五倍的生產力,語音輸入是人機互動的未來

2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布

對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點

寫在最後:

我們歡迎更多的小夥伴參與 「RTE 開發者日報」 內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章