NVIDIA 推出智慧體構建工具 Agentic AI Blueprints;VITA-1.5:實時多模態互動,1.5 秒延遲

RTE开发者社区發表於2025-01-07

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@SSN,@ 鮑勃

01 有話題的新聞

1、NVIDIA 推出智慧體構建工具 Agentic AI Blueprints,助力企業實現工作自動化

全新 NVIDIA AI Blueprints 旨在幫助各地企業構建 AI 智慧體應用程式,更好實現工作自由化。

有了這些 blueprints,開發人員現在可以構建和部署自定義 AI 代理。這些人工智慧代理就像「知識機器人」一樣,可以推理、計劃和採取行動,快速分析大量資料,從影片、PDF 和其他影像中總結和提取實時見解。

CrewAI、Daily、LangChain、LlamaIndex 和 Weights & Biases 是 AI 智慧體編排和管理工具的供應商,它們與 NVIDIA 合作構建 blueprints,將 NVIDIA AI Enterprise 軟體平臺(包括 NVIDIA NIM 微服務和 NVIDIA NeMo)與其平臺整合在一起。這五個 blueprints——包括一類新的 AI 智慧體合作伙伴 blueprints——為開發人員建立下一波將改變每個行業的人工智慧應用程式提供了構建模組。

除了合作伙伴的 blueprints 之外,英偉達還推出了能根據 PDF 生成播客的 AI Blueprint,以及另一個用於構建影片搜尋和總結的 AI 智慧體的 blueprint。另外還有四個 NVIDIA Omniverse Blueprints,使開發人員更容易為物理 AI 構建適合模擬的數字雙胞胎。(@NVIDIA)

2、GPT-4o 級別!VITA-1.5:實時視覺與語音互動, 1.5 秒互動延遲

近日,VITA-MLLM 團隊宣佈推出 VITA-1.5,這是該團隊在 VITA-1.0 基礎上推出的升級版本,致力於提升多模態互動的實時性與準確性。VITA-1.5 不僅支援英語和中文,還在多項效能指標上實現了顯著提升,為使用者提供了更流暢的互動體驗。

在 VITA-1.5 中,互動延遲大幅降低,從原來的 4 秒縮短至僅 1.5 秒,使用者在進行語音互動時幾乎感受不到延遲。此外,該版本在多模態效能方面也有顯著提高,經過評估,VITA-1.5 在 MME、MMBench 和 MathVista 等多個基準測試中的平均效能從 59.8 提升至 70.8,展現了出色的能力。

VITA-1.5 在語音處理能力上也進行了深度最佳化。其自動語音識別(ASR)系統的錯誤率顯著降低,從 18.4 降至 7.5,這使得語音指令的理解和響應更加準確。同時,VITA-1.5 引入了一個端到端的文字轉語音(TTS)模組,該模組能夠直接接受大型語言模型(LLM)的嵌入作為輸入,從而提高語音合成的自然度和連貫性。

為了確保多模態能力的平衡,VITA-1.5 採用了漸進式訓練策略,使得新增的語音處理模組對視覺 - 語言的表現影響最小,影像理解效能從 71.3 輕微下降至 70.8。團隊透過這些技術創新,進一步推動了實時視覺與語音互動的界限,為未來的智慧互動應用奠定了基礎。

在 VITA-1.5 的使用方面,開發者可以透過簡單的命令列操作進行快速入門,並且提供了基礎和實時互動演示。使用者需要準備一些必要的模組,例如語音活動檢測(VAD)模組,以提升實時互動體驗。此外,VITA-1.5 還將開源其程式碼,方便廣大開發者參與和貢獻。(@AIbase 基地)

3、阿里團隊出品!妝容遷移技術 SHMT:提供化妝參考圖就能給你上妝

近日,阿里巴巴達摩院的研究團隊釋出了一項重要研究成果,名為「SHMT:自監督層次化妝轉移」,該論文已被國際頂級學術會議 NeurIPS2024 接收。這項研究展示了一種新的化妝效果轉移技術,利用潛在擴散模型(Latent Diffusion Models)來實現化妝影像的精準生成,為化妝應用和影像處理領域注入了新活力。

簡單的說,SHMT 是一項妝容遷移技術,只要一個化妝的參考圖,和一張目標角色照片,就可以把妝容效果遷移到該目標臉上。這項技術的核心在於其「解耦和重建」的正規化,能夠擺脫不精確的偽配對資料的誤導,從而實現更精準的妝容遷移。

團隊在專案中採用了開源的方式,釋出了訓練程式碼、測試程式碼以及預訓練模型,使得研究人員能夠更方便地進行相關研究和開發。(@ 曲速人工智慧研究)

4、谷歌 DeepMind 推 CAT4D:AI 魔法突破次元壁,普通影片活變 3D 大片

科技媒體 The Decoder 近日釋出博文,報導稱谷歌 DeepMind 聯合哥倫比亞大學、加州大學聖地亞哥分校的研究人員,開發了一款名為 CAT4D 的 AI 系統,可以將普通影片轉化為動態 3D 場景,降低了 3D 內容創作的門檻,為多個行業帶來了新的可能性。

在訓練 AI 過程中,谷歌 DeepMind 團隊發現沒有太多現有資料,為了解決這個問題,團隊混合真實世界的鏡頭與計算機生成的內容,訓練資料包括靜態場景的多檢視影像、單視角影片和合成 4D 資料,透過擴散模型學習,在特定時刻從特定角度建立影像。

以往,實現類似效果需要多臺攝像機同時錄製同一場景,而 CAT4D 則簡化了這一流程,只需普通影片素材即可,這項技術有望革新遊戲開發、電影製作和擴增實境等領域。(@IT 之家)

5、「天工大模型 4.0」o1 版和 4o 版正式上線

1 月 6 日,崑崙萬維宣佈旗下「天工大模型 4.0」o1 版和 4o 版同步上線,並全量登陸天工網頁和 App,使用者均可免費使用。

據官方介紹,「天工大模型 4.0」o1 版作為國內第一款中文邏輯推理能力的 o1 模型,不僅包含上線即開源的模型,還有兩款效能更強的專用版本。經過全方位的技術棧升級和模型最佳化,由崑崙萬維自研的 Skywork o1 系列能熟練處理各種推理挑戰,包括數學、程式碼、邏輯、常識、倫理決策等問題。

另外,「天工大模型 4.0」4o 版是由崑崙萬維自研的多模態模型,其賦能的實時語音對話助手 Skyo,則是一個具備情感表達能力、快速響應能力、多語言流暢切換的智慧語音對話工具,為使用者帶來溫暖貼心、流暢實時的對話體驗。

據悉,2024 年 11 月,崑崙萬維「天工大模型 4.0」o1 版和 4o 版正式公開發布,並啟動邀請測試。目前,「天工大模型 4.0」兩款模型已正式登陸崑崙萬維旗下天工 web 與 App,全面向使用者開放。(@APPSO)

02 有亮點的產品

1、羅永浩初創 AI 專案首款硬體上線

近日,羅永浩旗下 AI 初創專案 JARVIS 首款 AI 原生硬體裝置在其官網上線。

JARVIS 為該硬體官方命名為「JARVIS ONE」,由主體和一副 TWS 耳機組成。同時官方表示,激動人心的釋出(儀式)即將到來。

據官方介紹,主體包括電池、指紋識別、Wi-Fi、麥克風和藍芽模組,使用者只需觸控並按住指紋識別區域即可啟用語音命令,同時該裝置透過藍芽或 Wi-Fi 連線到加密的雲伺服器來響應使用者語音命令。配套的 TWS 耳機透過藍芽與本體連線,並且「JARVIS ONE」本體支援透過藍芽與多個裝置同時連線。

同期,JARVIS 官方在安卓平臺上架了一款名為 J1 Assistant 的聚合類 AI 助理軟體。官方介紹,J1 Assistant 最大特色是擁有一個音訊輸入按鈕,官方為其命名為「Ripple Touch」。使用者可以透過按下按鈕輸入語音,之後即可完成將相關語音作為訊息傳送至 Google 搜尋引擎、傳送至自家 AI 模型詢問、傳送至 ChatGPT AI 詢問、作為新建備忘錄等功能。

此前,據鳳凰網科技報導,按照計劃,羅永浩創立的初創公司—細紅線將在 2025 年春節前後釋出首款新品。據瞭解,這個新品主要是 AI 軟體方案,並附帶了一款 AI native 硬體,且「理念非常超前」。(@APPSO)

2、AI Live Interpreter:實時雙向的 AI 現場翻譯解決方案

人工翻譯一直是實現跨語言交流的首選解決方案,包括聘請多語言員工或外包給電話口譯(OPI)服務,這些方法雖然有效,但也有成本高、延遲、可擴充套件性低和具有安全風險等缺點。

在某些情況下,人工翻譯是無價的,但不可否認的是,我們需要更具可擴充套件性和效率的解決方案。好訊息是,這些解決方案已經存在。

Krisp 近期推出了 AI Live Interpreter ,這是業界首個 AI 現場翻譯解決方案,提供實時雙向翻譯。憑藉企業級可擴充套件性和安全第一的設計,它可以幫助呼叫中心一鍵消除語言障礙。

主要優點:

  • 即時可用性: 全天候可用,消除延遲。

  • 成本效益: 人工智慧現場翻譯的成本僅為人工翻譯的一小部分。

  • 可擴充套件性: 開箱即用,適用於所有軟體電話,並且建立在旨在處理無限同時會話的系統上,可輕鬆適應峰值需求。

  • 使用者體驗: 智慧體可以看到現場轉錄和翻譯,這有助於獲得更多背景資訊

  • 安全性: 許多人工智慧解決方案都把隱私放在第一位,從而降低了與第三方相關的風險。

Krisp 支援超過 25 種語言,質量高且不斷增長。(@Voice AI Newsletter)

03 有態度的觀點

1、機構:2025 年人形機器人有望小規模商用落地

1 月 6 日,機構 IDC 公佈了 2025 年具身智慧機器人發展趨勢。

機構預測,2025 年人形機器人在商用服務、特種應用有望實現小規模商用落地,且預計將實現千臺量級的規模。此前,2024 年一批人形機器人進入商用測試階段,目前科研教育場景是人形機器人的主要應用場景。

預測中指出,在特種應用領域,人形機器人基於多模態感知、高防護等級的材料組成以及對複雜地形的適應能力,將在安全巡檢、應急救援等特殊作業場景替代人類從事重複勞動、高風險的任務。(@APPSO)

2、Sam Altman:OpenAI 確定釋出 AI Agents,徹底改變企業效率

1 月 6 日,OpenAI 執行長兼聯合創始人 Sam Altman,在他的個人部落格釋出了最新深度文章——Reflections。

主要回顧了 OpenAI 創立這 9 年的時間:從最初的不被外界看好,到 2022 年釋出 ChatGPT 掀起全球 AI 革命使用者一路暴漲超過 3 億,再到他突然被解僱,整個 OpenAI 陷入混亂狀態。

這也讓他意識到自己的管理挺失敗的,好在恢復過程中他比較幸運有很多人幫助了他,隨後整改了 OpenAI 董事會實現多元化管理。

在技術展望方面,Sam 特意寫道「我們現在有信心按照傳統的理解方式構建 AGI。2025 年,OpenAI 將上線第一批 AI Agents 加入到『勞動力大軍』中,並實質性地改變公司的產出效率。我們堅信,不斷地將強大的工具交到人們手中會帶來偉大的、廣泛傳播的成果。」

而 Agents 也是 OpenAI 開發和應用 AGI 的最重要的載體之一,可以直觀地將很多重複、複雜、繁瑣的業務流程輕鬆實現跨端到端的自動化。

因為,AGI 的核心本質就是將不同的業務流程實現自動化,把人類從枯燥、無意義的業務流程中解放出來,將時間、精力用在商業價值更高的業務上。

此外,Sam 在制定 OpenAI 的 2025 年產品釋出計劃時,特意將 Agents 放在了通用人工智慧 AGI 的後面,可見對其重視程度。(@AIGC 開放社群)

更多 Voice Agent 學習筆記:

對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點

這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢

語音即入口:AI 語音互動如何重塑下一代智慧應用

Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……

幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記

市場規模超 60 億美元,語音如何改變對話式 AI?

2024 語音模型前沿研究整理,Voice Agent 開發者必讀

從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶

WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?

人類級別語音 AI 路線圖丨 Voice Agent 學習筆記

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章