OpenAI首次官宣語音專案,配音演員警報拉響

机器之心發表於2024-04-01

文字輸入和一個 15 秒的音訊樣本就能生成與原始說話者非常相似的自然聲音。


今天,OpenAI 在語音領域又帶給我們一點點震撼,透過文字輸入以及一段 15 秒的音訊示例,可以生成既自然又與原聲極為接近的語音。值得注意的是,即使是小模型,只需一個 15 秒的樣本,也能創造出富有情感且逼真的聲音。
OpenAI 將這個語音引擎命名為 Voice Engine,首次開發時間是 2022 年末,今天是 Voice Engine 預覽版的首次亮相。
圖片
下面為該語音引擎的一些早期示例,例如可以幫助使用者翻譯影片和播客等內容,輸入一段原始音訊:OpenAI首次官宣語音專案,配音演員警報拉響Voice Engine 可以翻譯成西班牙語: OpenAI首次官宣語音專案,配音演員警報拉響還能翻譯成中文: OpenAI首次官宣語音專案,配音演員警報拉響以及日語: OpenAI首次官宣語音專案,配音演員警報拉響
Voice Engine 為有語言障礙的人合成相似的聲音,使得使用者在每種口語中保持聲音一致:
輸入參考音訊:OpenAI首次官宣語音專案,配音演員警報拉響生成的音訊(英語): OpenAI首次官宣語音專案,配音演員警報拉響生成的音訊(葡萄牙語): OpenAI首次官宣語音專案,配音演員警報拉響
又比如,幫助患有突發性或退化性言語病症的患者說話。
原始聲音:OpenAI首次官宣語音專案,配音演員警報拉響參考聲音: OpenAI首次官宣語音專案,配音演員警報拉響生成的音訊: OpenAI首次官宣語音專案,配音演員警報拉響
令人驚訝的是,Voice Engine 並未根據使用者資料進行訓練或微調,而是透過一個擴散過程和 transformer 結合的方式 —— 從而產生語音。
OpenAI 產品員 Jeff Harris 表示,他們採用少量音訊樣本和文字,生成與原始說話者相匹配的真實語音。請求完成後,所使用的音訊將被刪除。
其實,在語音生成領域,有很多我們熟悉的公司,從 ElevenLabs 到 Replica Studios 再到 Papercup ,亞馬遜、谷歌和微軟等大型科技公司也早已佈局。
Harris 聲稱,採用 OpenAI 的方法,可以得到更好的語音質量。
在定價方面,儘管 OpenAI 在今天釋出的營銷材料中刪除了 Voice Engine 的定價資訊,但根據新聞網站 TechCrunch 訊息,Voice Engine 的定價為每一百萬字元 15 美元,這樣的定價可以覆蓋狄更斯的《霧都孤兒》,還略有餘地,相當於 18 小時的音訊,使得價格略低於每小時 1 美元。這個價格確實比 ElevenLabs 的收費便宜一些 —— 每月 100,000 字元收費 11 美元。不過,Voice Engine 目前不支援音調、音高或節奏的調整。
如果 OpenAI 的音訊工具流行起來,那麼,配音員們又將何去何從呢?要知道,ZipRecruiter 上的配音員工資從每小時 12 美元到 79 美元不等 —— 比 Voice Engine 貴很多,即使是低端的配音員,價格也不便宜。
最後又回到大家關心的安全與隱私,OpenAI 也早早考慮了這些問題,他們明確禁止未經授權來模仿任何個人或組織。與此同時,他們也開發了一系列安全措施,包括對 Voice Engine 生成的音訊加水印,主動監控使用情況等。

參考連結:

https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices

https://techcrunch.com/2024/03/29/openai-custom-voice-engine-preview/

相關文章