OpenAI:可從15秒的音訊中克隆出聲音

banq發表於2024-03-30


OpenAI 剛剛宣佈近期進行了小規模預演一個名為“語音引擎”的新工具的誕生。這是一種聲音克隆技術,可以透過分析 15 秒的音訊樣本來模仿任何說話者。該公司表示,它可以生成“自然的語音”和“情感豐富且真實的聲音”。

這項技術基於該公司已有的文字到語音 API,自 2022 年起就在開發中。OpenAI 已經在使用該工具集的一個版本,為當前文字到語音 API 和朗讀功能中的預設語音提供動力。在該公司的官方部落格上有一些樣本,聽起來非常接近真實的聲音。

OpenAI 表示,他們認為這項技術可以用於閱讀輔助、語言翻譯,以及幫助那些患有突發性或退行性語言疾病的人。該公司提到了布朗大學的一個試點專案,該專案透過建立一個語音引擎克隆,從學校專案錄制的音訊中提取語音,幫助一位患有語言障礙的病人。

儘管有潛在的好處,但不良分子肯定會濫用這項技術,進行一些嚴重的深度偽造,這已經是一個問題。考慮到這一點,"語音引擎 "還沒有準備好進入黃金時代,因為在全面推廣之前,必須解決嚴重的隱私問題。

OpenAI 承認這項技術存在 "嚴重風險,尤其是在大選年"。該公司表示,它將採納 "來自政府、媒體、娛樂、教育、民間社會等領域的美國和國際合作夥伴 "的反饋意見,以確保產品推出時風險最小。所有預覽測試者都同意 OpenAI 的使用政策,其中禁止在未經同意或沒有合法權利的情況下冒充他人。

此外,任何使用該技術的人都必須向受眾披露,這些聲音是人工智慧生成的。OpenAI 還採取了一些安全措施,比如透過水印追蹤音訊來源,以及 "主動監控 "系統的使用情況。當該產品正式推出時,將有一個 "禁用聲音列表",用於檢測和防止人工智慧生成的揚聲器與知名人士過於相似。

亞馬遜最近開始AI有聲讀物程式的測試

相關文章