Fish Speech 1.5 釋出,TTS-Arena 排名開源第一;DeepMind Genie 2,一鍵生成無限虛擬世界
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@SSN,@ 鮑勃
01 有話題的新聞
1、OpenAI 官宣預告為期 12 天活動明日開啟
OpenAI 執行長山姆·奧特曼(Sam Altman)宣佈,將從太平洋時間明天上午 10 點開始進行為期 12 天的 OpenAI 活動,期間每個工作日都會有直播,展示最新技術或產品演示,包括許多「重磅內容」和一些「小驚喜」。
這次連續 12 天的技術分享活動在科技界極為罕見。網友預測,本次活動內容可能包括:釋出文生影片模型 Sora、為 ChatGPT 引入聖誕老人風格語音、增強 ChatGPT 的高階語音模式並增加視覺功能、釋出 o1-preview、展示即將推出的 AI Agent、釋出 GPT-4o 影像等等。
此外,OpenAI 預計還將在此次活動中釋出新的開發者工具、展示新文生圖模型「Dalle」、釋出更大上下文視窗的 GPT-NEXT 模型、釋出辯論遊戲、推出 Microscope 神經網路模型視覺化集合,以及增加高階語音模式的使用時間等。( @APPSO)
2、Google DeepMind 釋出 Genie 2,一鍵生成無限虛擬世界
Google DeepMind 近期釋出的 Genie2,正以其驚人的世界生成能力,重新定義了 AI 訓練和互動的可能性。
Genie2 是一個革命性的基礎世界模型,能夠透過自然語言指令,實時生成高度多樣化且邏輯連貫的虛擬世界。這一模型最大的亮點在於:它不僅可以建立複雜的 3D 環境,還能讓使用者或 AI 智慧體與之進行長達一分鐘的互動。
這個「虛擬世界生成器」的應用場景極其廣泛。無論是迷宮、自然場景,還是模擬人類社會環境,Genie2 都能精準地生成。對於 AI 訓練來說,這意味著可以構建無限多樣且富有挑戰性的學習場景,特別是在機器人和虛擬助手等領域,將產生革命性影響。
Genie2 展現出的能力令人矚目:它可以智慧識別操作控制元件、生成反事實場景、記憶不可見世界、動態建立內容,並模擬複雜的物理現象。從水效果、煙霧、重力到光照反射,Genie2 幾乎涵蓋了現實世界的所有關鍵物理特徵。
更令人興奮的是,這個模型可以從單個影像提示開始,透過鍵盤和滑鼠輸入,快速構建一個完整的互動世界。研究人員甚至可以使用真實世界的照片作為起點,生成栩栩如生的虛擬場景。
儘管 Genie2 目前還處於早期研究階段,但 Google DeepMind 的研究團隊相信,這項技術將為訓練更加通用的人工智慧系統鋪平道路。它不僅能幫助開發更智慧的 AI 代理,還為未來的創意工作流程提供了全新的可能性。(@AIbase 基地)
3、Videodb Director:構建可實時推理影片 AI 智慧體
VideoDB 推出了 Director,一個開源框架,用於構建能夠理解複雜影片任務並實時輸出結果的 AI 影片智慧體。如同一位人類電影導演,Director 可以無縫協調各種影片任務。例如,收到「文字生成電影」的指令後,Director 將會:
構建敘事
生成視覺效果
創作配樂
合成所有元素
實時播放最終影片
Director 基於聊天的使用者介面、強大的編輯智慧體和內建影片播放器,極大簡化了下一代互動媒體的創作過程。例如,Director 可以輕鬆實現從影片中刪除髒話等功能。
VideoDB 處理所有影片基礎架構,包括場景和語音索引。藉助 Director,使用者甚至可以為無聲影片構建多模態搜尋/檢索增強生成(RAG)智慧體,這非常適用於監控、自動駕駛、光學字元識別(OCR)等領域。
為了支援創意工作流程,Director 不僅整合了常用的生成式 AI 音訊/影片 API,還整合了各種大型語言模型(LLM)、資料庫和工具。
在 LLM 和智慧體優先的世界中,影片的重要性日益凸顯。VideoDB 團隊希望 Director 能夠賦能開發者,幫助他們構建真正的下一代媒體體驗。Director 提供了 20 多個預構建的智慧體,讓使用者可以輕鬆上手,快速實現創意。(@Videodb)
4、Fish Speech 1.5 釋出,TTS-Arena 排名第二,開源第一
亮點:
在 TTS-Arena 上排名第 2(以「Anonymous Sparkle」身份)。
擁有 100 萬小時的多語言訓練資料
支援 13 種語言,包括英語、中文、日語等。
延遲低於 150 毫秒,提供高質量的即時語音克隆
預訓練模型現已開源,方便使用者使用
提供自託管或雲選項
增加了 websocket 複用
增加了音量、速度、音標調節(@Fish Audio@X)
02 有亮點的產品
1、Coval:用模擬評估確保高質量的語音和聊天 AI
Coval 是一個賦能開發者快速構建可靠語音和聊天智慧體的平臺,它透過無縫的模擬和評估實現這一目標。Coval 支援自定義指標建立、千級場景執行、工作流追蹤以及與 CI/CD 管道的整合,從而提供切實可行的洞察和最佳智慧體效能。
Coval 致力於徹底改變語音和聊天智慧體的測試、除錯和監控方式。使用者只需少量測試用例即可模擬數千種場景。使用者提供提示,Coval 負責模擬環境並全方位測試智慧體。
Coval 的創始團隊曾領導 Waymo 的評估基礎架構團隊,構建了用於測試每次程式碼變更的模擬工具,確保 Waymo Driver 每次迭代都得到改進。從賽道上的人工測試到可擴充套件的自動化模擬,這一轉變將自動駕駛汽車從早期原型發展成為如今在舊金山街道上行駛的可靠系統。現在,AI 智慧體也面臨著類似的挑戰:前景光明的原型在擴充套件過程中常常會遭遇可靠性瓶頸。憑藉在 Waymo 的經驗,Coval 的創始團隊打造了這個平臺,為 AI 智慧體提供自動化模擬和評估,幫助團隊更快地實現可靠的實際效能。
Coval 的使命是確保 AI 智慧體在執行關鍵任務時值得信賴,正如模擬技術如何釋放自動駕駛汽車的潛力一樣。Coval 由開發者構建,專為開發者設計,旨在節省時間、增強信心,並消除對話式 AI 開發過程中的痛點。
Coval 解決了以下關鍵痛點:
1.告別耗時的人工測試: 手動測試語音或聊天智慧體效率低下且費時費力。Coval 與 CI/CD 管道整合,每次提示更改後自動執行千級規模的模擬,從而節省時間,提高測試覆蓋率,並增強對生產效能的信心。
2. 化解除錯的噩夢: 修復一個 bug 常常會引入新的 bug。Coval 透過提供對智慧體工作流程的可操作洞察,跟蹤每次模擬的各項指標,幫助使用者精確定位並高效解決問題,從而消除這種令人沮喪的反覆。
3.簡化生產監控: 確定生產環境中智慧體錯誤的根本原因可能極其困難。Coval 的監控功能提供對自定義指標(例如 LLM-as-a-Judge 或工具呼叫)的即時可操作洞察,從而更輕鬆地確保可靠的效能。(@Producthunt)
2、Agentplace:透過簡單文字指令建立互動 AI 網站和應用的平臺
Agentplace 是一個創新的 AI 應用開發平臺,其核心價值在於透過簡單的文字指令實現 AI 驅動的網站和應用構建。
該產品主要面向無程式碼開發者和創意工作者,透過降低技術門檻和開發成本來解決傳統 AI 應用開發的痛點。
產品的主要特色在於文字指令驅動開發、實時互動體驗以及 AI 模型的直接整合,這些特性使其在競爭激烈的無程式碼開發市場中獨具優勢。
在當前 AI 應用需求快速增長的背景下,Agentplace 透過其簡單直觀的使用者體驗和靈活的定製能力,為使用者提供了一個高效的 AI 應用開發解決方案,展現了良好的市場發展潛力。(@Zpotentials)
03 有態度的觀點
1、Perplexity CEO:AI 搜尋的未來是替使用者完成任務
近日,在與史丹佛商學院 MBA 學生艾斯林·羅斯(Aislin Roth)的深入對話中,Perplexity 的聯合創始人兼 CEO 阿羅因德·斯里尼瓦斯(Aravind Srinivas)分享了他的個人成長經歷、創立 Perplexity 的過程以及公司的發展願景。
斯里尼瓦斯指出了 Perplexity 在 AI 搜尋領域的創新,即不僅幫助使用者找到資訊,而是完成任務和節省時間。他還討論了 AI 的倫理和未來,包括廣告引入和版權爭議,並且強調了 Perplexity 在保持答案客觀性和真實性方面的決心。
他還分享了在團隊構建、籌資和競爭中的經驗,以及如何透過利用現有技術和開源模型來構建差異化業務。斯里尼瓦斯展望了 Perplexity 成為一個可靠答案機器的未來,同時他也分享了自己的領導風格,以及如何透過親身體驗產品來做出更好的決策。
本次訪談中,斯里尼瓦斯表達了他對知識獲取民主化、AI 倫理和創新商業模式的深刻見解,以及他對 Perplexity 成為一傢俱有歷史定義意義的公司的願景。( @APPSO)
更多 Voice Agent 學習筆記:
2024 語音模型前沿研究整理,Voice Agent 開發者必讀
從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶
WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?
人類級別語音 AI 路線圖丨 Voice Agent 學習筆記
語音 AI 革命:未來,消費者更可能傾向於與 AI 溝通,而非人工客服
語音 AI 迎來爆發期,也仍然隱藏著被低估的機會丨 RTE2024 音訊技術和 Voice AI 專場
下一代 AI 陪伴 | 平等關係、長久記憶與情境共享 | 播客《編碼人聲》
Voice-first,閉關做一款語音產品的思考|社群來稿
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- GitHub——開源世界的無限可能Github
- Parallels Desktop 19:打造虛擬機器,釋放無限可能Parallel虛擬機
- Fish Speech 更新V1.5:領先的多語言文字轉語音模型模型
- 剛剛,谷歌釋出基礎世界模型:11B引數,能生成可互動虛擬世界谷歌世界模型虛擬世界
- VMware Fusion Pro 13 mac版:一鍵掌控虛擬世界Mac虛擬世界
- 讓數字世界釋放無限可能
- 征途私服釋出網攻略,精準掌握開放時間,暢遊虛擬世界虛擬世界
- 支援Linux Kernel 6.3的免費開源虛擬機器VirtualBox 7.0.8釋出Linux虛擬機
- 我第一個開源AI小產品-video2blog即將正式釋出AIIDE
- Dubbo-go 釋出 1.5 版,朝雲原生邁出關鍵一步Go
- 好訊息,fish 3.0.0 釋出
- VMware 虛擬機器一鍵去虛擬化工具虛擬機
- 權威釋出:2020軟科世界一流學科排名
- 谷歌釋出世界模型,能生成可互動虛擬世界;華為釋出全球首個 5.5G 智慧核心網丨 RTE 開發者日報 Vol.152谷歌世界模型虛擬世界開發者日報
- windows10怎麼調出虛擬鍵盤 win10快速開啟虛擬鍵盤方法介紹WindowsWin10
- 寶塔Linux面版 一鍵備份/恢復工具釋出(僅限2.X版本)Linux
- 生成假人臉、假新聞...AI虛擬世界正形成AI虛擬世界
- mac無限試用版Parallels Desktop 17(pd虛擬機器)MacParallel虛擬機
- 從開源模型、框架到自研,聲網 Web 端虛擬背景演算法正式釋出模型框架Web演算法
- [譯] 建立一個像科幻小說一樣的虛擬世界:設計一個全球性的虛擬世界虛擬世界
- 阿里 Qwen2.5 開源釋出;YouTubeVeo 引入 Google DeepMind Veo 模型丨 RTE 開發者日報阿里Go模型開發者日報
- win10虛擬鍵盤怎樣開啟 win10開啟虛擬鍵盤的步驟Win10
- 歷時2年,華人團隊力作,震撼開源生成式物理引擎Genesis,可模擬世界萬物
- 開源搜尋引擎排名第一,Elasticsearch是如何做到的?Elasticsearch
- DeepMind又損大將,AI總監Nando de Freitas離職,曾領導開發Gato、GenieAINaN
- 連線無限可能,華為 HarmonyOS 2.0 正式釋出
- 第一章 虛擬機器棧虛擬機
- 開源框架 WebFirst 一鍵生成專案,線上建表框架Web
- 大模型Grok-1.5釋出大模型
- win10虛擬鍵盤快捷鍵怎麼開啟Win10
- Vxe UI vxe-table 4.8+ 實現無限載入+虛擬滾動、行與列的無限載入UI
- 開源進展 | WeBASE釋出lab版,助力一鍵部署FISCO BCOS v3.0Web
- VMware - 虛擬機器系統中無法使用鍵盤虛擬機
- 抖音一鍵釋出工具,一鍵釋出抖音影片
- 我寫了個IDEA開源外掛,vo2dto 一鍵生成物件轉換Idea物件
- 開源| 呼叫ARUICalling開源元元件釋出UI元件
- VMware出現虛擬機器似乎正在使用,但就是無法開啟虛擬機
- win10螢幕鍵盤怎麼開啟 調出虛擬鍵盤的四種方法Win10