WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?
WebRTC 的早期建立者之一,Fixie.ai 聯合創始人兼 CTO Justin Uberti 近日宣佈加入 OpenAI,領導實時 AI(Real-Time AI)專案的開發。
Uberti 在 2011 年於 Google 參與建立並領導了 WebRTC 專案,並推動其成為 W3C 和 IETF 標準。
從最早參與 AOL Instant Messenger(AIM)開始,他見證了人與人之間溝通方式從文字聊天到音影片聊天的演變。現在,他正在積極推動人與 AI 的互動從文字框走向更自然的語音對話。
2023 年完成種子輪融資,Fixie.ai 初期專注於 AI Agent 搭建平臺,後來轉向 Uberti 更為擅長的實時 AI 領域,先後推出了虛擬角色語音對話網站 AI.TOWN、大模型速度評測平臺 thefastest.ai,以及最近釋出的開源語音模型 Ultravox(編者注:我們剛翻譯了 Ultravox 提出的「人類級別語音 AI 路線圖」)。
11 月 26 日 Uberti 宣佈離開 Fixie.ai,加入 OpenAI。
我們找到了他今年 6 月以 Fixie.ai 聯創身份參與播客 AI Inside 的節目,摘錄了部分精彩對話,希望能幫助大家理解 Justin Uberti 對語音 AI 未來的思考。
語音互動的未來:對話 Justin Uberti
The Future of Voice Interaction (with Justin Uberti)
主播:Jason Howell、Jeff Jarvis 嘉賓:Justin Uberti
注:為便於閱讀,本文內容已作精簡,並非完整對話。你可以訪問原文收聽完整版播客。
從文字訊息到語音 AI 互動
Jason Howell: Justin,歡迎!我從你在 Google 時期就關注你的工作,你領導了 WebRTC、Hangouts Video、Duo 和 Stadia 等專案,之後加入 Clubhouse,現在是 Fixie.ai 聯合創始人兼 CTO。你豐富的 AI 經驗是如何引領你建立 Fixie 和 AI Town 的?
Justin Uberti: 我一直對語音/影片對話和純文字對話的差異很感興趣。我早期參與了 AOL Instant Messenger,它能即時傳送訊息,這在當時很神奇。後來我們新增了音影片功能,因為它們承載的資訊更豐富。現在,Instagram 和 TikTok 等應用都以影片為中心,因為它更具吸引力。Clubhouse 也證明了語音的魅力,它能傳達文字無法表達的情感。我認為與 AI 的互動也應如此。 ChatGPT 很強大,但它像個新型命令列工具——輸入文字,輸出文字,很多人不知如何有效使用它。
Jason Howell: 的確如此。我剛接觸 AI 時,雖然知道它潛力巨大,但不知從何入手,直到我強迫自己用它解決實際問題。
Justin Uberti: 與電腦對話對很多人仍是挑戰。 處理重要事情時,人們更傾向於面對面或透過語音/影片溝通。 疫情期間,Google Meet 等工具的普及也印證了這一點。我們也應期待 AI 以更自然的方式與我們互動。語音是人類與生俱來的能力,它比文字更豐富。我們正處於 AI 能夠理解和運用語音,並最終可能結合視覺進行多模態互動的時代。在 Fixie,我們正構建工具,讓 AI 更自然地使用語音互動。AI Town 就是這樣一個平臺,你可以在那裡透過語音與 AI 交流。
與 AI 對話:「我們正迴歸對話式社會」
Jason Howell: 關於語音 AI,我想到的是視訊會議,你在 Hangouts Video 和 Duo 經驗豐富。現在聊天應用中的 AI 就像視訊會議中加入了智慧體。隨著語音 AI 越來越像人類,它能解析對話併成為助手,AI 語音成為我們線上對話一部分指日可待。或許這已發生,只是我未注意到。
Justin Uberti: 的確如此。語音部分的發展可能比助手部分更快。我們希望助手能代表我們行動,但目前的 AI 缺乏內部審查機制,難以判斷正確行動。我們不放心讓 AI 代表我們做不可逆轉的事,例如發郵件或安排日程。但 AI 在對話中不易出錯。大型語言模型擅長對話,對話也具有自我修復特性。
Jeff Jarvis: 我寫過一本書 The Gutenberg Parenthesis,探討印刷和文字的時代。在此之前,社會是對話式的,後來被文字主導。我認為我們正迴歸對話式社會。廣播出現時,報紙堅稱耳朵不是學習的好方法,必須透過眼睛。你認為人們是否需要重新學習對話?
Justin Uberti: 人們知道如何與親友交談。與電腦交談可能需要適應,但不難。有人曾說人們不想與電腦交談,我說你每天都在和電腦交談數小時, 他說是用手指。我說,想象一下,另一端是 AI。 幾年後,你會以同樣方式看待與 AI 的對話,就像 Zoom 通話一樣。 語音比文字傳遞的資訊更多。
Jeff Jarvis: GPT-4o 和 Scarlett Johansson 事件後(編者注:OpenAI 的 GPT-4o 語音助手因使用與電影 Her 演員 Scarlett Johansson 聲音相似的合成語音引發爭議),關於擬人化,讓人們相信他們在與人類交談是你的目標嗎?你想建立什麼樣的倫理框架?
Justin Uberti: 我們認為這波浪潮即將到來,但正確的實驗方式是在低風險環境中進行,主要用於閒聊和娛樂,就像我們在 AI Town 所做的。我們建立了一個環境,你可以在那裡與不同的 AI 角色交談,它們有自己的生活,會發布社交媒體帖子,你可以給他們發簡訊,也可以語音通話。
Jeff Jarvis: 你是這個領域的先驅,有機會定義這項技術的正確和錯誤使用方式。你認為這項技術的壞處是什麼?
Justin Uberti: 一些明顯的壞處包括克隆聲音用於欺詐。業內領先的語音提供商正努力防止這種情況,例如對語音加水印,徵得同意,甚至要求使用者錄製影片並出示身份證明。 另一個挑戰是,我們曾經相信出版的文字是真實的,但現在不是了。生成式 AI 也讓我們無法相信照片一定是真實的。語音也面臨同樣的問題。
Jeff Jarvis: 印刷術剛出現時,人們也不信任它,因為它缺乏來源。後來我們建立了機構來驗證真實性。我認為這裡的機會是,你的 AI 來自哪裡?你的聲音來自哪裡?它的來源、知識、行為以及是誰把它帶給你的?這些都是重要的人類問題,也是機遇。
人類為何與虛擬角色對話?以及「幻覺」的妙用
Jason Howell: 你提到了 AI Town,它就像與虛擬或真實角色進行語音對話,你也可以透過文字與他們交流。它是一個低風險的體驗環境。你在使用者與網站上的角色互動時,看到了哪些讓你感到驚訝的事情?
Justin Uberti: 我們最初建立了 HiSanta.ai,讓人們與聖誕老人和精靈語音互動。我們本以為這只是一個測試,但需求遠超預期。我們意識到,人們很喜歡與虛構角色,特別是那些耳熟能詳的角色交談。聖誕老人就是一個非常受歡迎的例子。我們還創造了一個「壞聖誕老人」,他也很受歡迎。我們希望人們能與 AI 角色進行有趣對話,並發現人們真正感興趣的話題。事實證明,虛構角色是樂趣和有趣對話的豐富來源。
Jeff Jarvis: 建立一個虛構角色需要做些什麼?你需要多深入的描述?
Justin Uberti:我們有一個最佳化過的流程,你甚至可以透過語音完成。系統會問你幾個問題,幫助你構建角色的背景故事。大型語言模型非常擅長角色扮演。你告訴它你的身份、興趣等等,它就會順著你的描述進行下去。 我們通常認為大型語言模型的「幻覺」不好,但在這種虛構的 AI 角色場景中,「幻覺」反而是好事,因為它可以補充角色個性。
Jason Howell: 你提到了「幻覺」,我認為它是否負面取決於具體情況。如果追求事實,那麼「幻覺」不好。但如果追求創造力,「幻覺」則可能很棒。
Jeff Jarvis: 《衛報》最近刊登了一篇文章,認為 AI 可以治癒人類的孤獨感。你的目標有這麼高尚嗎?或者只是為了娛樂?
Justin Uberti: 這是一個相當崇高的目標。我們發現 AI Town 的一個用例是幫助英語作為第二語言的人練習口語。他們可以在一個沒有評判的環境中與 AI 角色交談,甚至可以請角色指出錯誤。
Jason Howell: 這很有意義。因為你不必擔心被評判,你知道你交談的物件是 AI。
Justin Uberti: 不被評判很重要。我認為這可以幫助人們建立自信。
低延遲和語氣詞的作用
Jason Howell: 在語音到語音模型的開發過程中,你們遇到了哪些當時沒有預料到的挑戰?
Justin Uberti: 挑戰有很多。人耳對聲音非常敏感,很容易分辨出聲音的自然度。 AI 的響應速度至關重要。 在 Duo、Google Meet 等產品中,我們的延遲標準是 250 毫秒。WebRTC 協議本身的設計就考慮到了低延遲的需求。
Justin Uberti: 人類對話的節奏非常快。如果延遲過高,就會出現一方打斷另一方,或者出現長時間的停頓,這會影響對話的流暢性。 超過 600 毫秒的延遲,聽起來就會像是故意停頓的。所以,低延遲不僅僅是為了讓對話更流暢,它實際上會影響對話的語義理解。 我們使用的 WebRTC 技術專注於低延遲,而且我認為整個 AI 生態系統都需要做出一些調整,來適應低延遲的語音互動。
Jeff Jarvis: 你們一定對人類對話的本質做了很多研究吧。有什麼有趣的發現可以分享嗎?
Justin Uberti: 像「嗯」、「呃」這樣的語氣詞,通常被認為是不規範的、應該避免的。但實際上,它們是對話流程中的一部分,用來控制話語權的。
Jason Howell: 這很有意思。我做播客的時候經常用 AI 生成文字稿,「嗯」、「呃」這些語氣詞在文字稿和實際聽到的效果完全不同。聽的時候,它們可以連線上下文,讓對話更流暢。但在文字裡,它們會顯得說話的人表達不清。
Jeff Jarvis: 我記得我第一次接受媒體採訪的時候,製作人告訴我他們會對我的話進行大量的剪輯。他特意告訴我這一點,是因為他知道我會經常在一個句子中間重新開始,而他們會把這些重新開始的部分剪掉。他們還做過一期節目,把所有人的「嗯」和「呃」都去掉了,這樣顯得嘉賓更聰明。這就引出一個新聞倫理的問題:你是應該展現一個人的真實狀態,還是出於某種「禮貌」,在文字稿裡去掉這些語氣詞?我們如何透過一個人的說話方式來判斷他的智力水平,這真是一個耐人尋味的問題。
Justin Uberti: 即興講話的時候,很難組織出非常嚴謹的段落。你在開口之前,並不會完全想好要說什麼。你在報紙上看到的引語,通常都經過了潤色,去掉了所有的錯誤和語氣詞。現在,對影片或音訊內容進行同樣的處理,也會產生類似的效果。但我認為,這樣做會扭曲說話者的真實形象。
「我們正處於第二代語音 AI 發展的時代」
Jeff Jarvis: 你們會為 AI 新增這些人類語氣詞嗎?比如英國人常用的「sort of」,美國人常用的「like」或「you know」?你們會在 AI 的輸出中加入這些嗎?
Justin Uberti: 這可以看作是語音技術從第一代到第二代的演進。 OpenAI 的 GPT-4o 語音模式可以被視為第二代。第一代是語音轉文字,然後透過 LLM 處理,最後再文字轉語音。在這個過程中,沒有語氣詞,因為大型語言模型沒有接受過這方面的訓練。
Justin Uberti: 第二代模型則直接處理語音輸入和輸出,沒有中間的文字轉換步驟。在這種模式下,訓練資料中包含了語氣詞等對話特徵。這些特徵最終會成為語音 AI 的一部分,因為要真正參與對話,就需要能夠使用這些語氣詞。雖然 AI 不需要像人類一樣停頓思考,但在某些情況下,例如檢索資訊時,AI 的響應速度可能會變慢。這時,使用語氣詞可以讓對話更自然流暢,避免尷尬的停頓。
Jason Howell: 不過,我也能預見到很多人會因此批評 AI,認為它沒必要使用語氣詞。我們人類需要,但 AI 不需要。但我認為,如果我們能克服這種觀念,或許可以讓對話感覺更自然。
Justin Uberti: 我們正處於第二代語音 AI 發展的時代, 我認為我們終將找到將人類對話的細微特徵對映到 AI 互動中的方法。 這將會非常有趣。在不久的將來,你可能閉上眼睛,都無法分辨是在與人還是與 AI 交談。我認為這將極大地促進像 ChatGPT 這樣的技術的發展,並吸引更廣泛的使用者,因為你只需要與它交談即可,非常便捷。
Jason Howell: 除了 AI Town,Fixie 目前還有哪些其他專案?
Justin Uberti: 我們最近開源了一個名為 Ultravox.ai 的語音 AI 模型,這是一個非常令人興奮的專案。它基於 Meta 的 Llama 3,並進行了多模態擴充套件,能夠理解語音並進行多模態互動,可以應用於像 AI Town 這樣的場景,實現更快速、更自然的語音互動體驗。我們希望透過開源這個模型,推動語音 AI 技術的快速發展,讓更多人受益。此外,我們還建立了 thefastest.ai 排行榜,用於跟蹤哪些大規模語言模型的速度最快,以便在低延遲的語音互動場景中使用。我們非常關注速度,因為低延遲是實現流暢自然語音互動的關鍵。
Jason Howell: 真是非常精彩的工作!Justin,感謝你今天與我們分享這些寶貴的見解。
原文:https://aiinside.show/episode/the-future-of-voice-interaction-with-justin-uberti
編譯:傅豐元社群技術
顧問:付則宇
RTE 開發者社群持續關注 Voice AI 和語音驅動的下一代人機互動介面。如果你對此也有濃厚興趣,也期待和更多開發者交流(每個月都有線上/線下 meetup,以及學習筆記分享),歡迎加入我們的社群微信群,一同探索人和 AI 的實時互動新正規化。
加入我們:加微信 Creators2022,備註身份(你的公司或專案)和來意「加群」,備註完整者優先加群。
相關文章
- QUIC 將會是 WebRTC 的未來麼?UIWeb
- 未來,語音技術將如何重塑業務?
- 開發者實踐丨Agora Home AI 音視訊的未來GoAI
- 智慧語音,互動入口的新未來
- 聽懂未來:AI語音識別技術的進步與實戰AI
- WebRTC 作者加入 OpenAI 主導實時 AI 專案;TTS 小模型 OuteTTS v0.2 釋出:聲音克隆 + 多語言WebOpenAITTS模型
- WebRTC 作者加入 OpenAI 主導實時 AI 專案;TTS 小模型 OuteTTS v0.2 釋出:聲音克隆+多語言WebOpenAITTS模型
- siri未來能讀心?看看AI語音助手的五大進階趨勢!AI
- 深夜思考著未來
- 遊戲AI:AI的遊戲還是遊戲的未來遊戲AI
- Ofcom 分享頻譜的未來思考
- SUMO Heavy:語音助手購物的現狀與未來
- 語音社交系統的亮點在哪,未來行業發展趨勢如何?行業
- 谷歌、OpenAI學者談AI:語言模型正在努力「攻克」數學谷歌OpenAI模型
- 百度丘位元是什麼?百度丘位元上線,未來或實現AI語音伴侶AI
- 生成式AI:未來的發展方向是什麼?AI
- 預訓練是AI未來所需要的全部嗎?AI
- 語音生成口型與表情技術的演進與未來
- 聽見未來:AI音樂生成,個性化音樂新體驗!AI
- 相容 WebRTC 標準的抗丟包語音編碼器Web
- AI的未來是一個巨大的模型,還是多個specialized小模型AI模型Zed
- 原來智慧語音是“拼湊”出來的,重要的VAD模組
- 詹皇比肩喬丹!如何防住他?這是AI給出的回答AI
- 新火種AI|比爾蓋茲:人工智慧的未來是AI AgentAI人工智慧
- 亞馬遜秘密研發 AI 對標 ChatGPT;語音 AI 未來五年或將釋放 100 億美元市場 丨 RTE 開發者日報亞馬遜AIChatGPT開發者日報
- 未來網路若干問題思考
- RAGFlow開源Star量破萬,是時候思考下RAG的未來是什麼了
- 周正寧:未來五年屬於WebRTC+AV1Web
- 基於OpenAi通用特定領域的智慧語音小助手OpenAI
- 一條簡單的更新語句,MySQL是如何加鎖的?MySql
- OpenAI o1 模型到來後,談談提示詞工程的未來OpenAI模型
- 語音處理加窗分幀
- WebRTC與音訊音量Web音訊
- 未來遊戲將如何運用AI技術?遊戲AI
- AI未來可期,企業如何做好準備?AI
- 教育行業AI應用Cerebrium建立實時RAG語音智慧體行業AI智慧體
- 生成式 AI 重構開發者未來競爭力AI
- 帶著技術出發,誰是未來的AI"獨角獸"?AI