幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記

RTE开发者社区發表於2024-12-12

👋活動招募:如果你正在關注 Voice Agent 的開發和創業,歡迎線上參與本週日(15 日)的 Voice Agent 開發者分享會

AI 語言學習公司 Speak 近日宣佈完成 7800 萬美元 C 輪融資,由 Accel 領投,OpenAI 創業基金、Khosla Ventures、Y Combinator 等頂級投資機構參投。此輪融資後公司估值達 10 億美元。

Speak 核心產品是基於 AI 的英語學習應用。使用者可與 AI 實時對話練習英語,系統分析回答並提供語言指導。2024 年至今使用者已透過 Speak 完成超 10 億次會話練習。

根據資料統計,今年 2 月 Speak 在 App 端全球雙端月流水已經增長到了 143 萬美元,而去年 11 月這個資料還只有 74 萬美元。也就是說,短短三個月時間,Speak 的收入就增長了 1 倍。

如果算上網頁端收入,Speak 的收入已經能夠排在同類產品的第三位,僅次於 Duolingo、Babbel。

據「投資實習所」預測,目前 Speak 的 ARR 已經接近 5000 萬美金,每年的增長率達到了 100%。

Speak 爆發的背後,AI 正在以超出想象的速度影響教育行業。至少從目前看,AI 很大有機會解決教育資源規模化優質供給的難題。

Speak 擁有自主研發語音識別系統。系統能夠準確理解各種口音,並識別常見的語音錯誤。此外,Speak 還利用音素識別系統精準地分析學習者的發音問題,幫助他們提升口語水平。

近期, Speak CEO 兼聯合創始人 Connor Zwick 作為嘉賓參與了播客 Unsupervised Learning 的錄製。在這次對話中,他分享了創立 Speak 的經驗教訓,對 Speak 的護城河、音訊技術和語音互動介面的理解和思考,以及對 ChatGPT 發展的觀點,我們摘錄了部分精彩內容,希望能給大家提供一些新思考,enjoy~

風靡全球的 AI 英語導師

The AI English Tutor Taking the World by Storm

主持人:

Jacobeffron, Redpoint 合夥人,前 Flatiron Health 執行長

Patrickachase,Redpoint 合夥人, LinkedIn 前 ML 工程師

嘉賓:

Connor Zwick, Speak CEO 兼聯合創始人

注:為便於閱讀,本文內容已作精簡,並非完整對話。你可以訪問原文收聽完整版播客。

主持人: 歡迎 Connor Zwick 做客我們的播客!Connor 是 Speak(speak.com)的 CEO,這是一個由 OpenAI 支援的英語學習平臺,最近估值 5 億美元。(編者注:這期訪談錄製於 24 年 8 月。在 12 月新一輪融資中,Speak 的估值已達 10 億美元)自 2019 年在韓國首發以來,Speak 已發展到超過 1000 萬使用者,遍佈 40 多個國家。今天我們將與 Connor 廣泛探討 Speak 的護城河、產品差異化、音訊技術的新突破以及 Speak 發展至今的最大經驗教訓。

Connor 的創業歷程——從抽認卡(flashcard)到 Speak

主持人: Connor,據我所知,你在高中時期就開發了一款學習用的抽認卡應用程式並出售,這算是你創業之旅的開端吧?如果現在你還在運營那個公司,結合如今的生成式 AI 技術,你會怎麼做?

Connor Zwick: 這是一個很有趣的問題,之前沒有人問過我。我的應用程式本質上是 iPhone 早期階段的一個產品,其理念是將抽認卡學習數字化,用在 iPhone 上,取代實體卡片。它曾非常受歡迎,擁有數百萬使用者,製作了數億個卡組,可能數十億張卡片。我當時的想法是,如果能將這些知識點彙總成某種知識圖譜,就能生成任何內容、教授任何知識,並創造出一個無所不知的導師 。現在看來,我們已經擁有了這樣的技術。如果我還在開發那個應用程式,我會嘗試構建一個無所不知的導師,它可以教你任何東西。從某種意義上說,我的發展軌跡有點迂迴,但現在我在 Speak 也在做類似的事情。

主持人:在構建無所不知的導師的過程中,你會如何評價抽認卡資料在你所有可能擁有的資料中的地位?

Connor Zwick: 老實說,抽認卡資料可能非常有用,特別是對於學習而言,因為它的結構以學習者正在嘗試學習的資訊為中心。但事後看來,並且現在瞭解了大型語言模型的工作原理,更好的方法可能是抓取整個網際網路,並嘗試將其壓縮成一個非常大的模型。

主持人: 你在抽認卡應用程式中可以獲得非常好的使用者反饋,並在此基礎上進行迭代,所以我想這可以幫助你建立某種護城河。

Connor Zwick: 我很好奇像 Quizlet 這樣的平臺會如何發展,他們擁有非常有趣的資料集。

以「用 AI 完全取代學習過程中的人類」為目標,注重長期發展

主持人: 在深入瞭解 Speak 之前,我們想了解一下你在 2015 年開始的 AI 速成課程。據我所知,你旁聽了伯克利的課程,並確信這些底層模型會變得更好。當時你在考慮不同的選擇時,除了語言學習,你還考慮過構建哪些其他產品?

Connor Zwick: 那是在 2015 年,我們關注的是迴圈神經網路和卷積神經網路之類的東西,Transformer 還沒有被發明出來。我們主要關注計算機視覺和語音領域。我們有很多關於計算機視覺的想法,包括一些瘋狂的、甚至有點反烏托邦的想法,比如在城市車輛上使用攝像頭進行自動抄牌,但我們覺得這對世界來說很糟糕,所以放棄了。我們還考慮過很多關於視覺的應用,例如為定製服裝或醫學影像測量人體,以及使用深度學習來更好地預測天氣。但最終,我們還是被語音識別所吸引,因為我們希望構建一種感覺像是在與之建立真正關係的技術,背後有一些角色感,這正是 Speak 的機會所在。

主持人: 這很自然地引出了你現在在 Speak 所做的事情。可以為我們的聽眾簡單介紹一下你的產品嗎?

Connor Zwick: Speak 本質上是一個完整的語言學習解決方案 ,特別是學習如何說一門外語並進行真正的對話。我們 專注於口語交際,而不是語法或詞彙記憶 。我們的教學法和方法論的核心是教人們高頻詞塊,讓他們反覆練習直到能夠自動化地使用。然後,我們讓他們在模擬對話中練習,以實現與學習動機相關的真實目標。例如,如果我正在學習西班牙語是為了去墨西哥城,我會練習相關的對話。所有這些都是針對個人使用者量身定製的,無論他們的動機、興趣或水平如何,課程和所有內容都會根據他們的目標進行調整。

主持人: 從你最初的想法到現在,隨著模型的不斷改進,Speak 的產品功能發生了哪些變化?

Connor Zwick: 我們做的一件非常明智的事情是,我們非常注重長期發展。我們知道,這項技術還有很長的路要走,我們無法完美地預測它,但我們知道的是,在接下來的 5 到 10 年裡,隨著更多的資料和算力,模型會越來越好,最終在各種任務上超越人類。我們始終以「用 AI 完全取代學習過程中的人類」為目標 ,並確保我們所有的產品決策都不是為了短期利益,而是與這一長期願景相一致。我們將其視為一系列階梯,每隔一兩年,我們就向上爬一級,產品也在不斷發展,但始終保持一致和連貫的願景。這就是我們能夠在基於 AI 的學習領域取得領先地位的原因。

使模型協同工作是長期技術護城河

主持人: 許多創始人都在思考,應該在多大程度上構建一些功能來彌補當前模型的不足,或者等待模型在未來幾年內變得更好。你在回顧過去的產品投入時,是如何看待這個問題的?

Connor Zwick: 如果你正在基於這些技術進行構建,你需要對它們現在和未來的工作方式以及時間框架有深入的技術直覺。你也需要能夠更好地理解和闡明你正在為人們解決的問題 。即使今天的技術還沒有到位,只要你一直在朝著這個方向努力,即使在幾年後你不得不替換掉整個技術棧,這仍然是非常值得的。

主持人: Speak 產品的一個很酷的功能是幫助人們改善口語,包括口音。你們是如何構建這個功能的?

Connor Zwick: 對於 Speak 來說,有幾個不同的技術護城河。我們有機會在短期到中期繼續構建和開發自己的內部模型,用於某些特定任務。例如,我們開發了自己的內部語音識別系統,它非常擅長理解帶有口音的人的講話,並理解他們犯的特定錯誤。我們還擁有一個基於我們所有資料的音素識別系統,可以檢測學習者在發音方面犯的錯誤。這些都是專業化的模型,即使我們只使用這些模型幾年,它仍然對我們的業務非常有價值。

主持人: 構建這些模型需要多少投資,無論是算力、團隊還是資源?

Connor Zwick: 這絕對是一項非常大的投資,但它只是我們做出的多項投資之一。構建在某項任務上處於世界領先水平的模型並不容易,你需要資料和專業知識。我們還在構建所謂的「機器學習支架」,即所有技術上非常難以實現的技術,以使這些模型能夠很好地協同工作,並與我們的後端和產品協同工作 。這部分技術的複雜性和深度非常大,人們總是談論建模,但實際上我們在這部分的投資要大得多。如果要說我們的長期技術護城河是什麼,我會說這可能是更大的一個。

主持人: 你構建的主要基礎設施有哪些?

Connor Zwick: 包括評估、模型連結、推理基礎設施等等。我們發現,很多時候我們需要構建的東西非常專業化和獨特,以至於使用現成工具沒有意義,我們應該在內部構建它。所以,很大一部分工作是如何讓這些模型在單個任務上表現出色,然後如何協調這些模型,以及如何持續收集新資料,何時進行微調,如何評估,以及如何圍繞「如何對語言進行真正的表示」來構建更大的基礎設施,以便我們可以在其上進行檢索並構建知識圖譜,例如瞭解某人在哪些方面精通,哪些方面不精通。目前,我們至少 50% 的產品開發時間都花在與這些系統相關的事情上。

主持人: 目前最痛苦的部分是什麼?

Connor Zwick: 很多事情都相當愚蠢,比如我們仍在進行任何形式的提示最佳化,感覺有點傻,就像你在提示中寫「假裝你很友好」。隨著模型變得更智慧,這種情況肯定正在減少。

任何工具提示、使用者教育或功能說明,都表明還沒有做出足夠好的設計

主持人: Speak 提供了一種不同的語言學習方式,使用者教育是否很難?人們是否能夠直觀地使用它?

Connor Zwick: 我與產品和設計團隊合作時始終堅持的一個原則是,任何工具提示、使用者教育或功能說明,都表明我們還沒有做出足夠好的設計,還沒有以直觀的方式構建它。我們正在發明圍繞音訊優先體驗的新介面正規化。人們與 Speak 的互動方式在技術上來說是前所未有的。例如,在我們的 onboarding 流程中,當你開啟應用程式時,只有一個麥克風按鈕和一個簡單的問題:「你為什麼要學習英語?」你只需按下按鈕並開始說話,但人們會疑惑:我應該說什麼?我應該用什麼語言?我應該回答一分鐘還是五個字?他們對這種開放性感到不適應。我們希望以直觀且面向未來的方式設計這種體驗。

主持人: 隨著時間的推移,你如何看待 UI 的發展?它是否會越來越多地轉向音訊,甚至變成一個你與之對話的代理?或者你認為這種 UI 始終有一席之地?

Connor Zwick: 我們經常思考的問題是如何構建混合模式, 讓你可以在任何時候選擇說話或打字。語音並不總是更好,但在某些時候它肯定更好,這將是一個巨大的轉變,尤其是在語音到語音模型越來越好的情況下。但肯定有很多時候你更喜歡打字或點選,例如,如果你可以使用鍵盤,在某些情況下,它的輸入速度要快得多。

語言學習課程設計與生成式 AI 的顛覆性潛力

主持人: 課程是如何設計的?你預想未來會如何發展?

Connor Zwick: 學習一門語言確實有一定的正確順序,例如,你需要從最基本的單詞和詞彙開始,因為有些單詞我們 80% 的時間都在使用。但在第一個同心圓的語言學習中,特定單詞的順序可以根據使用者進行個性化定製。在很長一段時間內,都需要人類參與其中,以賦能課程的精心建立,至少在高層次的策略和方法論方面。但隨著時間的推移,越來越多的工作將由機器學習團隊而不是課程團隊來完成。

主持人: 模型成本不斷下降,你是否感覺受到限制?

Connor Zwick: 我們並沒有感到受到很大的限制。如果我們真的感到受到限制,我們可能會選擇先構建它,並在短期內承擔成本,因為成本會隨著時間的推移而下降。

主持人:你是如何考慮產品定價的?

Connor Zwick: 我們希望讓任何想要學習英語的人都能夠使用 Speak。但與此同時,這裡有一個非常有趣的機會,可以對消費類產品收取更高的費用。目前有數百萬人每月為線下輔導或課堂教育支付數百美元。如果我們能夠構建差異化且真正有價值的產品,那麼我們就可以避免價格競爭。

主持人: 你如何知道一個新模型是否真的很好?

Connor Zwick: 評估非常困難且重要。對於我們的機器學習團隊來說,最重要的可能是評估,因為如果你能夠提煉出一個評估,特別是對於大型語言模型經常執行的開放式任務,如果你能夠提煉出完美的評估,你就基本上提煉出了你正在最佳化的目標問題。即使對於語音識別,也不僅僅是關於我們的單詞錯誤率是多少,我們還關心是否捕捉到個別錯誤,例如,使用者說了一個詞,但基本上難以理解,而我們現在可以訓練一個能夠理解人類在交流中無法理解的單詞的模型。一旦你擁有了一個良好的評估框架,它實際上就能推動大量的執行清晰度,使團隊能夠做出更好的決策。

主持人: 許多人認為生成式 AI 的好處主要體現在現有企業身上,例如 Duolingo。你如何看待這個問題?

Connor Zwick: 如果人工智慧只是讓你更好地解決相同的問題,那麼它對現有企業是有幫助的,它是一種持續性技術。但有時,人工智慧實際上是在解決不同的問題。例如,客戶支援,如果你解決的問題是提高客戶支援代理的效率,而現在有大型語言模型可以提供全自動解決方案,這將是高度顛覆性的。以語言學習為例, Duolingo 和 Speak 從根本上解決的是不同的問題。Duolingo 的大多數使用者是英語母語人士,他們學習語言是為了娛樂,而 Speak 的使用者是真正想要流利地說英語的人。人工智慧顯然對我們的使用者非常有幫助。

GPT-4o 釋出從根本上對 AI 語言學習產品來說是好事

主持人:如果我們擁有實時翻譯和口音轉換功能,是否會消除一些使用者學習英語的需求?

Connor Zwick: 可能會消除一些需求。即使是世界上最好的翻譯器,也會有延遲和不完美之處。更重要的是, 我們的使用者從根本上追求的是人際關係,他們想要與世界各地更多的人建立聯絡。 即使是最好的 AI 實時翻譯器也無法真正解決這個問題。

主持人: GPT-4o 釋出後,Duolingo 的股價立即下跌,你如何看待這種情況?

Connor Zwick: 我不確定,市場現在感覺非常嘈雜。但 GPT-4o 的語音到語音功能對我們來說非常令人興奮。人們會開始使用 ChatGPT 學習和練習語言,這對 AI 語言學習產品來說從根本上是件好事 ,因為人們會意識到他們可以使用 AI 學習語言,如果他們認真對待,就會尋找專業的解決方案。我們專注於擁有這個類別,就像 Airbnb 擁有房屋共享,Uber 擁有拼車一樣。

音訊方面可以有更好的多模態能力和多語言能力

主持人:在音訊模型方面,你是否在尋找市場上出現某些特定功能,以便 Speak 可以做新的事情?

Connor Zwick: 當然。在這些大型認知模型和多模態音訊方面,我們仍處於早期階段。我們關注的主要內容是多模態音訊,這是聖盃,它需要一些時間才能變得真正好,而且有很多機會在其上構建一些專業化的東西。現在的開發工具,比如說 ElevenLabs 就非常酷,它激起了一股有趣的創造性應用的熱潮,他們的優勢在於,作為初創公司,他們願意比 OpenAI 這種大公司冒更多的風險。

主持人: 你希望未來(譬如 GPT-6)能夠實現哪些具體功能?

Connor Zwick: 在音訊方面,我們希望有更好的多模態能力和多語言能力,能夠生成更接近真人導師的東西,這意味著更自然、更低延遲。它不是將你的語音的複雜性降低成一小段文字,然後將其放入大型語言模型,然後再嘗試將其擴充套件回具有正確細微差別和音調的語音合成。更重要的是,它能夠更復雜地理解你在說什麼、你如何說、你是否感到自信、你的情緒以及你犯了什麼錯誤。

個人學習或將成為人類活動發生最大變化的領域之一

主持人: 你如何看待公開演講或其他與演講相關的技能?你們是否考慮過圍繞這些方面構建產品?

Connor Zwick: 當然。我們業務中一個非常有趣且快速增長的部分是企業版產品,三星、SK 等公司可以將其提供給所有員工。這很重要,因為它可以證明員工的技能,而且這是一項非常有價值的專業技能。我們肯定會在未來探索這方面的更多可能性。

主持人: 你如何看待這些擴充套件領域?

Connor Zwick: 除了語言學習之外,還有巨大的機會。我們主要關注三個領域:學校、企業和個人學習。個人學習將是人類活動發生最大變化的領域之一。我們每天做的很多事情都可以歸類為學習,例如閱讀書籍、收聽播客、觀看 YouTube 影片、閱讀文章等。個人學習將和早期的網際網路一樣,人們沒有意識到搜尋引擎在未來意味著什麼,而個人學習也將如此。

主持人: 如果你必須預測的話,你認為 10 到 15 年後個人學習會是什麼樣子?

Connor Zwick: 它將 高度個性化,就像電影《她》中的那樣,它具有長期記憶,並且對你的知識、興趣、個性以及你想要了解的內容有很好的瞭解,然後利用這些資訊在正確的時間向你提供正確的資訊。會有不同層次的平臺,就像谷歌或 YouTube 這樣的平臺一樣,它們有非常廣泛的應用範圍。也會有更專業的解決方案。

AI 領域的過度炒作與低估技術

主持人: 我們通常以快速問答環節結束採訪。在當今的 AI 領域,你認為哪些東西被過度炒作,哪些東西被低估了?

Connor Zwick: 可能所有東西都被過度炒作了。有很多資金投入,但沒有多少真正的產品與市場契合,也沒有多少真正的活躍使用者。但從長遠來看,肯定會出現真正的大贏家。現在被低估的可能是 Transformer 之外的技術,以及對這方面的研究投入。

主持人: 在構建 AI 功能時,最大的驚喜是什麼?

Connor Zwick: 我一直在努力解決的問題是,你看到一項新技術或新功能,你會非常興奮,認為它將改變一切,但事實證明,它總是沒有你想象的那麼好,它不是萬能藥。構建真正能改變使用者行為的東西真的非常困難。

主持人: 自從構建 Speak 以來,你改變了哪些想法?

Connor Zwick: 有很多小事情,我一直在不斷學習。也許在一開始,我們將自己完成所有的建模工作,但現在我們意識到,實際上有些模型的構建成本非常高。

主持人: 除了你自己的領域之外,你最看好哪家 AI 初創公司?

Connor Zwick: 我沒有足夠好地跟蹤這個領域,我非常專注於 Speak。我確實會密切關注 OpenAI Startup Fund 投資的所有初創公司,因為他們擁有非常好的交易流程,而且有很多非常有趣的東西來自那裡。

主持人: 與 OpenAI 合作感覺如何?

Connor Zwick: 很棒,強烈推薦。

主持人: 人們可以在哪裡瞭解更多關於你和你在 Speak 所做的 AI 工作的資訊?

Connor Zwick: 你可以訪問我們的網站 speak.com,我們正在招聘各種職位,你也可以訪問 speak.com/careers 瞭解更多資訊。

主持人: 這真是一期精彩的播客!Speak 的產品顯然具有市場契合度,它是一個很好的 AI 用例,因為它可以提供以前難以實現的個性化學習體驗。Connor 對護城河的理解、對音訊和 UI 的思考,以及對 ChatGPT 的觀點都非常 insightful。我們期待 Speak 在 AI 賦能語言學習領域取得更大的成功!

原影片:https://www.youtube.com/watch?v=nFC3asFKlH0

編譯:施蘇娜、傅豐元

👋活動招募:如果你正在關注 Voice Agent 的開發和創業,歡迎線上參與本週日(15 日)的 Voice Agent 開發者分享會

更多 Voice Agent 學習筆記:

市場規模超 60 億美元,語音如何改變對話式 AI?

2024 語音模型前沿研究整理,Voice Agent 開發者必讀

從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶

WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?

人類級別語音 AI 路線圖丨 Voice Agent 學習筆記

語音 AI 革命:未來,消費者更可能傾向於與 AI 溝通,而非人工客服

語音 AI 迎來爆發期,也仍然隱藏著被低估的機會丨 RTE2024 音訊技術和 Voice AI 專場

下一代 AI 陪伴 | 平等關係、長久記憶與情境共享 | 播客《編碼人聲》

Voice-first,閉關做一款語音產品的思考|社群來稿

相關文章