ElevenLabs Voice Design:文字生成個性化語音;科學家用 AI 解讀豬叫聲背後情緒和壓力丨 RTE 開發者日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@SSN,@ 鮑勃
01 有話題的新聞
1、簡單文字即可建立個性化語音!ElevenLabs 推出全新 AI 語音生成工具 Voice Design
ElevenLabs 日前釋出全新 AI 語音生成工具 Voice Design,透過簡單的文字描述即可建立個性化語音,開創了 AI 配音領域的新紀元。
這款工具最大的特點是其直觀的文字提示功能。使用者只需描述所需聲音的特徵,如「溫暖友好的中年女性聲音,帶著輕微英國口音」,系統便能快速生成符合要求的語音。
Voice Design 支援調節多個語音引數,包括年齡、性別、口音、語調和音高等,確保生成的聲音精確匹配使用者需求。
除了模擬真實人聲,Voice Design 還突破性地支援創作角色化語音。無論是精靈的空靈之音,還是機器人的金屬音效,系統都能準確捕捉並還原這些虛擬角色的聲音特徵。
使用者可以反覆調整引數,探索無限的創作可能,為遊戲開發、有聲內容製作等領域提供了強大的創意工具。
ElevenLabs 官方表示,該聲音設計功能 API 將在 1 周內推出。(@AIbase 基地)
2、OpenAI ChatGPT 高階語音模式已登陸 Windows 和 Mac 平臺,對話更自然
OpenAI 今日宣佈,ChatGPT 的高階語音模式(Advanced Voice Mode,簡稱 AVM)現已登陸 Windows 和 Mac 平臺。
AVM 基於 OpenAI 最先進的 GPT-4o 模型執行,允許使用者像與真人對話一樣與 ChatGPT 進行交流,包括打斷、停頓等自然語言行為。OpenAI 表示,AVM 提供了更自然、實時的對話體驗,能夠實時感知和回應使用者的情緒。
據瞭解,這一備受期待的功能在今年 7 月首次向測試使用者開放,9 月底向付費訂閱使用者推出。OpenAI 在 10 月的一條推文中透露,免費使用者也將有機會體驗 AVM,而歐盟地區的 Plus 和 Free 使用者則需要耐心等待。
就在一天前,OpenAI 還宣佈了另一項新功能:ChatGPT 網頁版聊天曆史搜尋。使用者現在可以快速、輕鬆地調出聊天記錄以供參考,或者從上次中斷的地方繼續聊天。(@IT 之家)
3、微軟 Github 推出 Spark AI 工具:降低開發門檻,日常語言描述搞定整個應用
科技媒體 maginative 10 月 29 日釋出博文,報導稱微軟旗下的程式碼託管平臺 Github 推出 Spark,讓使用者僅透過日常語言描述,就能構建完善的應用功能。
使用者藉助 Spark 工具,並不需要編寫程式碼以及深厚的程式設計專業知識,只需要詳細解釋希望開發的應用功能,從託管到資料儲存,Spark 工具能自動處理所有複雜的技術細節。
在描述應用想法時,使用者可以實時看到應用構建的過程。使用者可以以對話的方式請求更改,系統會建議不同版本的修改方案,便於比較選擇。
目前,Spark 處於技術預覽階段,GitHub 計劃透過等待名單系統逐步擴大使用者訪問。這種謹慎的推出方式表明,GitHub 希望根據早期使用者反饋不斷最佳化技術。這一創新可能會徹底改變軟體開發的方式,並將應用開發的門檻降低到數百萬非程式設計師可以接觸的水平。(@IT 之家)
4、谷歌 DeepMind 頂尖研究員 Julian Schrittwieser 加入 Anthropic,曾參與開發 AlphaGo 等
谷歌 DeepMind 頂尖研究員 Julian Schrittwieser(朱利安・施特維澤)10 月 29 日宣佈加入 AI 公司 Anthropic。
施特維澤在谷歌 DeepMind 工作了十年,曾參與開發 AlphaGo、AlphaZero 和 MuZero 等革命性專案。
朱利安表示:「我很高興宣佈,從這周開始,我將加入 Anthropic!」他特別讚揚了 Anthropic 在人工智慧領域的成果,尤其是 Claude 專案,他認為這個工具非常實用。此外,他也提到了 Anthropic 最近推出的 Artifact 和 Computer Use 等創新技術。
回顧在 DeepMind 的十年經歷,施特維澤感嘆:「我很幸運能參與谷歌 DeepMind 的這一段奇妙旅程…… 我參與了比我所想象的還要多的激動人心的專案。」從施特維澤的部落格獲悉,在 DeepMind 期間,他不僅參與了基礎研究,比如 AlphaCode 和 AlphaTensor,還參與了最近的 Gemini 和 AlphaProof 等專案。(@IT 之家)
5、谷歌:公司超過 1/4 的新程式碼是由人工智慧生成的
昨日,Google 母公司 Alphabet 釋出了截至今年 9 月 30 日的第三季度財報。Alphabet 第三季度營收為 882.68 億美元,同比上升了 15%;淨利潤 263.01 億美元,同比增長 34%。
在財報電話會議上,Google CEO Sundar Pichai 透露,公司四分之一的新程式碼由 AI 生成,工程師會進行審查並使用。
具體的部門業績方面,和 AI 相關的 Google 雲業務第三季度營收 113.53 億美元,增長 35%;廣告營收達 658.54 億美元,增長 10%。(@APPSO)
6、養豬業新神器,AI 工具可解讀豬叫聲背後的情緒
路透社於 10 月 24 日釋出博文,報導稱歐洲科學家開發了一種能夠解讀豬叫聲的人工智慧(AI)演算法,從而幫助豬農瞭解豬的情緒和壓力狀態。
根據共同領導該研究的哥本哈根大學行為生物學家埃洛迪・曼德爾 - 布里費爾的說法,該演算法有可能提醒農民注意豬的負面情緒,從而改善它們的福祉。
該研究由來自丹麥、德國、瑞士、法國、挪威和捷克共和國的科學家共同進行,核心是透過分析數千個不同情境下的豬叫聲,理解它們所表達的情感。
豬的不同叫聲(如咕噥聲、哼哼聲和尖叫聲)能夠反映它們的情緒,短促的咕噥聲(grunt)通常表示積極情緒;而長時間的咕噥聲則可能表明不適;高頻的尖叫聲通常與壓力相關,尤其在豬感到疼痛或被分開時。
研究團隊希望這一演算法未來能夠幫助標記農場,指導消費者做出更明智的選擇,一旦演算法成熟,農民將能透過手機應用實時翻譯豬的情感表達。(@IT 之家)
02 有態度的觀點
1、a16z 合夥人最新洞察:繼續推動下一代模型,需要每個階段增加 10 倍計算資源、10 倍電力和 10 倍資料
近日,a16z 合夥人 Martin Casado 圍繞 AI 技術發展、投資趨勢以及不同領域的實際應用和限制與資深媒體人展開了一場對談,提出了幾點核心觀點:
Casado 認為 AI 技術的迭代速度前所未有,投資者需要不斷質疑自己的假設,保持靈活性。這一輪技術週期比之前的網際網路、雲端計算等週期變化更快,也更具顛覆性。
目前,AI 發展面臨資料和算力的瓶頸。模型要繼續提升,需要遠超當前的計算資源和資料量,尤其是特定領域的專用資料。
雖然合成資料可以應用於規則明確的領域,但生成關於世界的見解仍然受限於現有的知識庫。
他認為未來 AI 演算法還將繼續進化,逐步納入規劃和世界模型的概念,以應對特定任務和增強推理能力。(@ 有新 Newin)
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- ElevenLabs Voice Design :可透過文字建立個性化語音;蘋果推出首個開發者測試版丨 RTE 開發者日報蘋果開發者日報
- Fish Agent:多語言 Voice-to-Voice 開源語音模型;Runway 推出攝像機運鏡功能丨 RTE 開發者日報模型開發者日報
- 語音生成公司 ElevenLabs 估值達 30 億美元;OpenAI Realtime API 很好也很貴丨 RTE 開發者日報OpenAIAPI開發者日報
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- RTE 大會報名丨 重塑語音互動:音訊技術和 Voice AI,RTE2024 技術專場第一彈!音訊AI
- 語音生成模型 PlayDialog:可生成對話播客、旁白;小米 AI 眼鏡將於明年 Q2 釋出丨 RTE 開發者日報模型AI開發者日報
- 微軟將深度整合 Azure AI 與 GitHub;Stability AI 0.5 秒生成三維建模丨 RTE 開發者日報微軟AIGithub開發者日報
- 基於 Groq 和 Cartesia 的高速 AI 語音助手釋出;xAI 將自行打造超級計算機丨 RTE 開發者日報AI計算機開發者日報
- 新 Chrome 外掛可檢測 AI 偽造聲音;Canary Speech 推出用於臨床對話的語音分析技術丨 RTE 開發者日報ChromeAI開發者日報
- 首個實時 AI 影片生成技術釋出;科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報AI大模型開發者日報
- 斯嘉麗·約翰遜指控 OpenAI 非法使用其聲音;微軟推出 AI 工具「回顧」(Recall)丨 RTE 開發者日報 Vol.208OpenAI微軟開發者日報
- 語音 AI 迎來爆發期,也仍然隱藏著被低估的機會丨 RTE2024 音訊技術和 Voice AI 專場AI音訊
- 亞馬遜秘密研發 AI 對標 ChatGPT;語音 AI 未來五年或將釋放 100 億美元市場 丨 RTE 開發者日報亞馬遜AIChatGPT開發者日報
- 小米回應「網友惡搞 AI 雷軍配音罵人」;Hailuo AI 上線圖片生成影片功能丨 RTE 開發者日報AI開發者日報
- 微軟 Azure 推出文字到語音虛擬人;英偉達釋出 8B 小語言模型,可在 RTX 工作站部署丨 RTE 開發者日報微軟模型開發者日報
- 蘋果開源高效語言模型 OpenELM;全球首個 AI 基因編輯器開源丨 RTE 開發者日報 Vol.192蘋果模型AI開發者日報
- ChatGPT 向更多使用者推出高階語音模式:支援 50 種語言;位元組釋出兩款新影片生成大模型丨 RTE 開發者日報ChatGPT模式大模型開發者日報
- 微軟預計年底實現實時語音介面;矽基智慧開源 AI 數字人互動平臺 Duix 丨 RTE 開發者日報微軟AIUI開發者日報
- Pi 母公司將開發情感 AI 商業機器人;Meta 科學家:Sora 不是影片生成唯一方向丨 RTE 開發者日報 Vol.214AI機器人Sora開發者日報
- RTE 大會報名丨智慧編解碼和 AI 生成影片 ,RTE2024 技術專場第五彈!AI
- Amphion 推出開源 TTS 模型 MaskGCT,5 秒克隆聲音;神秘文生圖模型「小熊貓」登頂競技場丨 RTE 開發者日報TTS模型GC開發者日報
- 根據聲音測情緒,Empath的AI可以做到了AI
- OpenAI 曝新專案「草莓」,提升 AI 推理能力;智譜 AI 開源影片理解模型丨 RTE 開發者日報OpenAI模型開發者日報
- RTC 科普視訊丨聊聊空間音訊的原理與其背後的聲學原理音訊
- Voicebot.ai:深度偽造技術和語音克隆之消費者情緒報告AI
- 聽見未來:AI音樂生成,個性化音樂新體驗!AI
- Mistral 釋出 Large 2 123B 大模型;微軟釋出 VALL-E 2,零樣本實現聲音克隆丨 RTE 開發者日報大模型微軟開發者日報
- Sam Altman 新公司將打造 AI 健康教練;全新大模型架構 TTT 超越 Transformer 丨 RTE 開發者日報AI大模型架構ORM開發者日報
- OpenAI 釋出 AI 生成圖片檢測器;特斯拉計劃在中國測試自動駕駛計程車丨 RTE 開發者日報 Vol.200OpenAI自動駕駛開發者日報
- 位元組豆包釋出新模型,AI 一句話 P 圖;Google 正式推出 Vids,簡單提示即可生成影片演示丨 RTE 開發者日報模型AIGo開發者日報
- 影片生成模型 Dream Machine 開放試用;微軟將停止 Copilot GPTs 丨 RTE 開發者日報 Vol.224模型Mac微軟GPT開發者日報
- 爆火 AI 硬體遭差評,Ai Pin 上市即翻車;Grok 推出首個多模態模型丨 RTE 開發者日報 Vol.184AI模型開發者日報
- Meta 研發大型 AI 推薦引擎;全球首部全面監管 AI 法規將落地丨 RTE 開發者日報 Vol.160AI開發者日報
- 馬斯克的 xAI 融資 60 億美元;英偉達收購兩家 AI 創企丨 RTE 開發者日報 Vol.193馬斯克AI開發者日報
- 沒有方向盤和踏板,特斯拉釋出無人駕駛計程車;位元組豆包推出 AI 智慧體耳機 Ola Friend 丨 RTE 開發者日報AI智慧體開發者日報
- 自然語言處理背後的資料科學自然語言處理資料科學
- OpenAI 釋出全新生成式模型 GPT-4o;位元組收購音訊裝置公司 Oladance 丨 RTE 開發者日報 Vol.203OpenAI模型GPT音訊開發者日報
- Meta SAM 2:實時分割圖片和影片中物件;Apple Intelligence 首個開發者測試版釋出丨 RTE 開發者日報物件APPIntel開發者日報