ElevenLabs Voice Design:文字生成個性化語音;科學家用 AI 解讀豬叫聲背後情緒和壓力丨 RTE 開發者日報

RTE开发者社区發表於2024-10-31

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@SSN,@ 鮑勃

01 有話題的新聞

1、簡單文字即可建立個性化語音!ElevenLabs 推出全新 AI 語音生成工具 Voice Design

ElevenLabs 日前釋出全新 AI 語音生成工具 Voice Design,透過簡單的文字描述即可建立個性化語音,開創了 AI 配音領域的新紀元。

這款工具最大的特點是其直觀的文字提示功能。使用者只需描述所需聲音的特徵,如「溫暖友好的中年女性聲音,帶著輕微英國口音」,系統便能快速生成符合要求的語音。

Voice Design 支援調節多個語音引數,包括年齡、性別、口音、語調和音高等,確保生成的聲音精確匹配使用者需求。

除了模擬真實人聲,Voice Design 還突破性地支援創作角色化語音。無論是精靈的空靈之音,還是機器人的金屬音效,系統都能準確捕捉並還原這些虛擬角色的聲音特徵。

使用者可以反覆調整引數,探索無限的創作可能,為遊戲開發、有聲內容製作等領域提供了強大的創意工具。

ElevenLabs 官方表示,該聲音設計功能 API 將在 1 周內推出。(@AIbase 基地)

2、OpenAI ChatGPT 高階語音模式已登陸 Windows 和 Mac 平臺,對話更自然

OpenAI 今日宣佈,ChatGPT 的高階語音模式(Advanced Voice Mode,簡稱 AVM)現已登陸 Windows 和 Mac 平臺。

AVM 基於 OpenAI 最先進的 GPT-4o 模型執行,允許使用者像與真人對話一樣與 ChatGPT 進行交流,包括打斷、停頓等自然語言行為。OpenAI 表示,AVM 提供了更自然、實時的對話體驗,能夠實時感知和回應使用者的情緒。

據瞭解,這一備受期待的功能在今年 7 月首次向測試使用者開放,9 月底向付費訂閱使用者推出。OpenAI 在 10 月的一條推文中透露,免費使用者也將有機會體驗 AVM,而歐盟地區的 Plus 和 Free 使用者則需要耐心等待。

就在一天前,OpenAI 還宣佈了另一項新功能:ChatGPT 網頁版聊天曆史搜尋。使用者現在可以快速、輕鬆地調出聊天記錄以供參考,或者從上次中斷的地方繼續聊天。(@IT 之家)

3、微軟 Github 推出 Spark AI 工具:降低開發門檻,日常語言描述搞定整個應用

科技媒體 maginative 10 月 29 日釋出博文,報導稱微軟旗下的程式碼託管平臺 Github 推出 Spark,讓使用者僅透過日常語言描述,就能構建完善的應用功能。

使用者藉助 Spark 工具,並不需要編寫程式碼以及深厚的程式設計專業知識,只需要詳細解釋希望開發的應用功能,從託管到資料儲存,Spark 工具能自動處理所有複雜的技術細節。

在描述應用想法時,使用者可以實時看到應用構建的過程。使用者可以以對話的方式請求更改,系統會建議不同版本的修改方案,便於比較選擇。

目前,Spark 處於技術預覽階段,GitHub 計劃透過等待名單系統逐步擴大使用者訪問。這種謹慎的推出方式表明,GitHub 希望根據早期使用者反饋不斷最佳化技術。這一創新可能會徹底改變軟體開發的方式,並將應用開發的門檻降低到數百萬非程式設計師可以接觸的水平。(@IT 之家)

4、谷歌 DeepMind 頂尖研究員 Julian Schrittwieser 加入 Anthropic,曾參與開發 AlphaGo 等

谷歌 DeepMind 頂尖研究員 Julian Schrittwieser(朱利安・施特維澤)10 月 29 日宣佈加入 AI 公司 Anthropic。

施特維澤在谷歌 DeepMind 工作了十年,曾參與開發 AlphaGo、AlphaZero 和 MuZero 等革命性專案。

朱利安表示:「我很高興宣佈,從這周開始,我將加入 Anthropic!」他特別讚揚了 Anthropic 在人工智慧領域的成果,尤其是 Claude 專案,他認為這個工具非常實用。此外,他也提到了 Anthropic 最近推出的 Artifact 和 Computer Use 等創新技術。

回顧在 DeepMind 的十年經歷,施特維澤感嘆:「我很幸運能參與谷歌 DeepMind 的這一段奇妙旅程…… 我參與了比我所想象的還要多的激動人心的專案。」從施特維澤的部落格獲悉,在 DeepMind 期間,他不僅參與了基礎研究,比如 AlphaCode 和 AlphaTensor,還參與了最近的 Gemini 和 AlphaProof 等專案。(@IT 之家)

5、谷歌:公司超過 1/4 的新程式碼是由人工智慧生成的

昨日,Google 母公司 Alphabet 釋出了截至今年 9 月 30 日的第三季度財報。Alphabet 第三季度營收為 882.68 億美元,同比上升了 15%;淨利潤 263.01 億美元,同比增長 34%。

在財報電話會議上,Google CEO Sundar Pichai 透露,公司四分之一的新程式碼由 AI 生成,工程師會進行審查並使用。
具體的部門業績方面,和 AI 相關的 Google 雲業務第三季度營收 113.53 億美元,增長 35%;廣告營收達 658.54 億美元,增長 10%。(@APPSO)

6、養豬業新神器,AI 工具可解讀豬叫聲背後的情緒

路透社於 10 月 24 日釋出博文,報導稱歐洲科學家開發了一種能夠解讀豬叫聲的人工智慧(AI)演算法,從而幫助豬農瞭解豬的情緒和壓力狀態。

根據共同領導該研究的哥本哈根大學行為生物學家埃洛迪・曼德爾 - 布里費爾的說法,該演算法有可能提醒農民注意豬的負面情緒,從而改善它們的福祉。

該研究由來自丹麥、德國、瑞士、法國、挪威和捷克共和國的科學家共同進行,核心是透過分析數千個不同情境下的豬叫聲,理解它們所表達的情感。

豬的不同叫聲(如咕噥聲、哼哼聲和尖叫聲)能夠反映它們的情緒,短促的咕噥聲(grunt)通常表示積極情緒;而長時間的咕噥聲則可能表明不適;高頻的尖叫聲通常與壓力相關,尤其在豬感到疼痛或被分開時。

研究團隊希望這一演算法未來能夠幫助標記農場,指導消費者做出更明智的選擇,一旦演算法成熟,農民將能透過手機應用實時翻譯豬的情感表達。(@IT 之家)

02 有態度的觀點

1、a16z 合夥人最新洞察:繼續推動下一代模型,需要每個階段增加 10 倍計算資源、10 倍電力和 10 倍資料

近日,a16z 合夥人 Martin Casado 圍繞 AI 技術發展、投資趨勢以及不同領域的實際應用和限制與資深媒體人展開了一場對談,提出了幾點核心觀點:

Casado 認為 AI 技術的迭代速度前所未有,投資者需要不斷質疑自己的假設,保持靈活性。這一輪技術週期比之前的網際網路、雲端計算等週期變化更快,也更具顛覆性。

目前,AI 發展面臨資料和算力的瓶頸。模型要繼續提升,需要遠超當前的計算資源和資料量,尤其是特定領域的專用資料。

雖然合成資料可以應用於規則明確的領域,但生成關於世界的見解仍然受限於現有的知識庫。

他認為未來 AI 演算法還將繼續進化,逐步納入規劃和世界模型的概念,以應對特定任務和增強推理能力。(@ 有新 Newin)

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章