ChatGPT的高階語音模式終於上線了:中文一開口,就暴露了「歪果仁」身份

机器之心發表於2024-07-31

OpenAI 的「Her」終於向部分人群開放了。

圖片

今年 5 月,OpenAI 在「春季新品釋出會」上搬出了新一代旗艦生成模型 GPT-4o、桌面 App,並展示了一系列新能力。

現在,OpenAI 宣佈向一小部分 ChatGPT Plus 使用者開放 ChatGPT 的高階語音模式,讓使用者首次獲得 GPT-4o 的超現實音訊響應。這部分使用者將在 ChatGPT 應用程式中收到提醒,並收到一封電子郵件,其中包含有關如何使用該應用程式的說明。

「自從我們首次演示先進的語音模式以來,我們一直致力於加強語音對話的安全性和質量,準備將這項前沿技術帶給數百萬人。」OpenAI 表示,該功能將在 2024 年秋季逐步向所有 Plus 使用者推出。

一些使用者已經曬出了高階語音模式的使用效果:ChatGPT的高階語音模式終於上線了:中文一開口,就暴露了「歪果仁」身份

來源:https://x.com/tsarnick/status/1818402307115241608

當你和 ChatGPT 講段子時,Ta 可以提供一些笑聲陪伴:ChatGPT的高階語音模式終於上線了:中文一開口,就暴露了「歪果仁」身份

來源:https://x.com/yoimnotkesku/status/1818406786077970663

使用 ChatGPT 的高階語音模式,「Her」可以在講故事的同時建立背景音樂,並且適用於多種語言。ChatGPT的高階語音模式終於上線了:中文一開口,就暴露了「歪果仁」身份

來源:https://x.com/yoimnotkesku/status/1818415019349901354

法語、西班牙語和烏爾都語也都可以:ChatGPT的高階語音模式終於上線了:中文一開口,就暴露了「歪果仁」身份

來源:https://x.com/yoimnotkesku/status/1818424494106853438

但中文表達不太地道,彷彿一個正在學習中文的「歪果仁」:ChatGPT的高階語音模式終於上線了:中文一開口,就暴露了「歪果仁」身份

來源:https://x.com/yoimnotkesku/status/1818446895083139170

聽完的人都懵了:
圖片
而口音問題不只出現在中文,據說德語也一樣:
圖片ChatGPT的高階語音模式終於上線了:中文一開口,就暴露了「歪果仁」身份
來源:https://x.com/yoimnotkesku/status/1818445235606671670

最後,講段繞口令吧:ChatGPT的高階語音模式終於上線了:中文一開口,就暴露了「歪果仁」身份

來源:https://x.com/yoimnotkesku/status/1818427991514337695

OpenAI 表示高階語音模式與 ChatGPT 目前提供的語音模式有所不同。

ChatGPT 的舊語音模式解決方案使用了三種獨立的模型:一個模型將語音轉換為文字,GPT-4 負責處理提示(prompt),第三個模型則負責將 ChatGPT 的文字轉換為語音。而 GPT-4o 是多模態的,能夠在沒有輔助模型的幫助下處理這些任務,從而顯著降低對話延遲。OpenAI 還表示 GPT-4o 可以感知使用者聲音中的情緒語調,包括悲傷、興奮等等。

今年 5 月,OpenAI 首次展示了 GPT-4o 的語音功能,「她」的反應速度、與真人聲音的驚人相似度震驚了觀眾 —— 問題就出在這兒。

圖片

這個名叫 「Sky」 的聲音酷似電影《Her》中人工助手的扮演者斯嘉麗・約翰遜(Scarlett Johansson)。

在 OpenAI 演示之後不久,約翰遜說她曾拒絕 OpenAI CEO 山姆・奧特曼關於使用她的聲音的多次請求,在看到 GPT-4o 的演示之後,她聘請了法律顧問為自己的聲音辯護。OpenAI 否認使用了斯嘉麗・約翰遜的聲音,但也刪除了演示中的聲音。

6 月,OpenAI 表示將推遲釋出高階語音模式,以改進其安全措施。

漫長的等待後,「Her」總算與大家見面了。OpenAI 表示,此次推出的高階語音模式將僅限於 ChatGPT 與付費配音演員合作,製作了四種預設語音:Juniper、Breeze、Cove 和 Ember。

值得注意的是,輸出的聲音有且只有這四種 —— OpenAI 5 月份的演示中展示的 Sky 語音已不再適用於 ChatGPT。OpenAI 發言人 Lindsay McCallum 表示:「ChatGPT 不能冒用他人的聲音,包括個人和公眾人物的聲音,並且會阻止與這些預設聲音之一不同的輸出。」

這種設定的初衷是避免 Deepfake 爭議。今年 1 月,人工智慧初創公司 ElevenLabs 的語音克隆技術被用來冒充美國總統拜登,欺騙了新罕布什爾州的初選選民,引發了不小的爭議。

OpenAI 還表示,已經引入了新的過濾器來阻止某些生成音樂或其他受版權保護音訊的請求。

去年,很多影像生成、音樂生成的 AI 公司因侵犯版權而陷入了法律糾紛,尤其是喜歡打官司的唱片公司,已經起訴過人工智慧音訊生成器 Suno 和 Udio。而 GPT-4o 這樣的音訊模型則讓可以提出投訴的公司增加了一個全新的類別。

據說,OpenAI 與 45 種語言的 100 多名外部「紅隊」成員一起測試了 GPT-4o 的語音功能。而這些關鍵資訊,將在 8 月份一份關於 GPT-4o 的功能、侷限性和安全評估報告中有更詳細的公佈。

參考連結:

https://twitter.com/OpenAI/status/1818353580279316863

https://www.theverge.com/2024/7/30/24209650/openai-chatgpt-advanced-voice-mode

https://www.reuters.com/technology/openai-starts-roll-out-advanced-voice-mode-some-chatgpt-plus-users-2024-07-30/

https://www.bloomberg.com/news/articles/2024-07-30/openai-begins-rolling-out-voice-assistant-after-safety-related-delay?srnd=phx-technology

https://techcrunch.com/2024/07/30/openai-releases-chatgpts-super-realistic-voice-feature/

https://www.theinformation.com/briefings/after-delay-openai-releases-ai-voice-assistant

相關文章