一旦按下通話鍵,我們就很難再放下手機了。
大年底的,豆包又轟動了一把。
今天,豆包 APP 宣佈全新端到端實時語音通話功能正式上線,不玩「預釋出」,直接全量開放、人人免費使用,迎接每一個使用者的檢驗。
豆包實時語音大模型網址:https://team.doubao.com/realtime_voice
看完後,我們發現有幾個很妙的點:
首先,豆包真的很像人,遣詞造句、語氣和呼吸節奏都高度擬人化。你壓低音量說話時,豆包也會使出「悄悄話」技能,完全消除了以往 AI 語音通話的人機感。
其次,不管中文對話的複雜度如何,豆包都能頂得住。經過我們一系列實測體驗,豆包在中文能力方面可以說是斷層式領先。這個優勢不只是相比於 ChatGPT 等海外選手,對比一系列國產 AI 對話類應用也是這樣。
此外,豆包是一個上知天文下知地理的「聊天搭子」。它是認真在聽使用者說的話以及想要表達的深層含義,會迅速給出有趣又有用的回覆,而且有聯網查詢能力。
要想體驗這項功能,需要將豆包 APP 升級至 7.2.0 新春版本。上線後,大量使用者第一時間更新、湧入,和豆包煲起了電話粥:
還記得在 2024 年 5 月 14 日凌晨那場直播中,GPT-4o 橫空出世,帶給 ChatGPT 全新的實時語音通話能力,業內稱之為「震撼全球的釋出」。遺憾的是,這項功能在 ChatGPT 全面上線後,我們的實際感受卻並不像釋出會演示那樣印象深刻。
現在,輪到豆包震撼世界了。上線之前,內部團隊已經圍繞擬人度、有用性、情商、通話穩定性、對話流暢度等多個維度,對這項功能背後的豆包實時語音大模型和 GPT-4o 進行了考評。整體滿意度(以 5 分為滿分)方面,豆包實時語音大模型評分為 4.36,GPT-4o 為 3.18。其中,50% 的測試者對豆包實時語音大模型表現打出滿分。
此外,在模型優點評測中,豆包實時語音大模型在情緒理解和情感表達方面優勢明顯。尤其是「一聽就是 AI 與否」評測中,超過 30% 的反饋表示 GPT-4o 「過於 AI 」,而豆包實時語音大模型相應比例僅為 2% 以內。
接下來的部分是機器之心的實測,如果你看完感興趣,建議趕快開啟自己的豆包 App,將版本升級至 7.2.0 新春版即可體驗。畢竟從目前的火爆程度來說,去晚了可能有擠不上車的機率。
在 2024 年底,豆包大模型團隊就透露了會很快上線豆包 APP 的全新端到端實時語音功能,引發了一大波使用者的期待。
真正用上之後,我們的感覺是:它的擬人程度和自然程度的確超出想象。
非常擅長感知、承接人類使用者的情緒,是豆包的一大亮點。不妨聽幾段我們和豆包的對話,感受一下它的擬人程度。
比如情緒表現能力,讓它在聲音中表現出複雜情感,可做到「人機難辨」的程度。
豆包彷彿是一位演技精湛的演員,面對 500 萬元彩票的不同場景,時而欣喜若狂,時而悲痛欲絕。
指令遵循能力也很強。我們怎麼 PUA 豆包用各種語速去背詩都能做到,而且還會自己感受詩文中的情緒,有感情的背誦。共情能力也是拿捏了。我們第一句話是帶著沮喪的情緒講述壞訊息,豆包就會用比較平靜溫暖的語氣來安慰你。但當你恢復了積極心態,轉換為輕鬆的語氣誇獎它,豆包就會切換為活潑的語調。它也會有類人的副語言特徵,包括語氣詞、遲疑、停頓等。
注:部分回覆有延遲,源於聯網查詢。
與此同時,我們能感受到,豆包不只是提供情緒陪伴,比如在第一場對話測試中,它給出的搶票建議、行程推薦也是非常實用,關於天氣等即時資訊,也能迅速檢索到準確的結果。
是的,豆包侃侃而談的背後是基於豆包實時語音大模型強大的語義理解能力和資訊檢索能力。在使用者語音輸入時,豆包馬上開始對各維度資訊進行深度理解,保證輸出資訊的有用性與真實性。通俗地說,就是既有「情緒價值」,也有「實用價值」。(不過我們也發現,豆包實時語音大模型目前只支援中英文,期待未來多語種能力可以強化一波。)
既然豆包長期「混跡」網際網路,玩抽象的水平一定不會差。
注:部分回覆有延遲,源於聯網查詢。
當然,和豆包對話,你擁有的不只是一個搭子,而是無數個戲精朋友。
在「百變大咖」模式下,從孫悟空到林黛玉,從灰太狼到懶羊羊,對聲音的控制和對情感的演繹,讓豆包的使用者體驗更上了一層樓。既然角色扮演不在話下,講故事能力也手拿把掐。在恐怖與搞笑之間,自由切換。
有意思的是,豆包 APP 推出了 GPT-4o 沒有的唱歌功能,這是一個老少皆宜的玩法,爆火指日可待。
年底了,我們就讓它來一些拜年歌曲吧,作為這次測評的收官之作:
遙遙領先的通話體驗,背後是哪些技術?
如此絲滑、自然的實時語音通話,豆包背後的團隊是如何實現的?
為這項功能提供核心能力支援的是近期推出的豆包實時語音大模型。
據豆包大模型語音團隊介紹,這是一個真正實現端到端語音對話的語音理解和生成一體化模型,比傳統級聯模式,在語音表現力、控制力、情緒承接方面的表現更驚豔,並具備低時延、對話中可隨時打斷等優點。
放眼語音 AI 相關領域,面向真人級的實時語音大模型,技術難點有二。
其一是,情商與智商之間難以平衡。
語音領域不少從業者都知道,模型自身在對話自然度、有用性及安全性維度經常存在著此消彼長的矛盾關係。換而言之,就是如何能讓模型既是邏輯推理能力線上的 「學霸」,也能表現力、共情力、理解力線上,情商水平拉滿。
據團隊介紹,他們面向上述問題,在資料和後訓練演算法方面,確保了多模態語音對話資料兼具語義正確性與表現力的自然性。同時,依靠多輪資料合成方法,生產高質量、高表現力的語音資料,確保生成語音表達自然且一致。
此外,團隊還定期對模型進行多維度評測,依託結果及時調整訓練策略和資料使用方式,確保模型在智商和表現力之間始終保持良好平衡。
其二是落地門檻高,欲讓語音功能不止步於 Toy,對團隊綜合能力是一大挑戰。
在以往,包括 GPT-4o 在內的一眾端到端語音釋出只是展示 Demo,即便後續能力公開,實際能力也未必被大眾認可。原因在於:功能研發過程中需要演算法、工程、產品、測試等團隊參與,既要明確使用者需求、又要劃分好技術測評維度和指標,此後在模型訓練、微調等過程中,同樣需要多個團隊密切配合。最後,當產品若想上線服務億萬使用者,還面臨極大工程落地、安全方面挑戰。
前文提及,本次豆包官宣的全新實時語音功能上線即開放,直接服務於萬千使用者,團隊也儘可能尋找交付體驗方面的最佳平衡點,在保障安全性的基礎上,讓模型擁有前所未有的語音高表現力、控制力和亮眼的情緒承接能力,同時,確保其既具備強大的理解和邏輯能力,又能聯網回答時效性問題。
在語音生成、理解與文字大模型聯合建模的框架下,團隊實現了模型多樣輸入輸出能力,同時,保證了生成側模型在更低系統時延情況下的生成準確性、自然度,同時在理解側,該框架讓模型實現了敏銳的語音打斷與使用者對話判停能力。
當然,團隊也非常重視模型能力提升帶來的安全問題。據相關技術人員分享,他們在聯合建模的過程中,於後訓練階段,引入多種安全機制,透過對潛在非安全內容進行有效壓制和過濾,降低安全風險。
技術團隊還向我們透露,經由聯合建模,模型令人驚喜地湧現出指令理解、聲音扮演和聲音控制等新能力。舉例來說,目前模型部分方言和口音,主要源自於 Pretrain 階段資料泛化,而非針對性訓練。在這一點上,語音模型和語言模型非常相似。
驚喜之外,豆包「顛覆」了什麼?
在目前已有的同類產品功能中,我們能感受到:豆包的擬人度、情感化體驗是最好的,十八般武藝樣樣精通,在中文能力上更是遠超 ChatGPT 等「舶來品」。
看到最後,可能有人想問:除了驚喜的使用者體驗之外,為什麼豆包更新的端到端實時語音收穫瞭如此多的關注?
關鍵答案是:它是第一個服務於億萬使用者且真正 Work 的端到端中文語音系統 —— 好用,且免費用。
曾幾何時,與 AI 進行實時語音對話只是一種科幻電影的場景,也是我們對高階人工智慧的一種具體想象。但現在,這樣的神奇功能就存在於你我手機中的豆包 APP,從「遙遙相望」變得「觸手可及」。
簡單總結,豆包的全新端到端實時語音開創了兩個先河:
從技術變革的層面看,豆包業內首次地給 AI 注入了「靈魂」,做到了「情商」和「智商」的雙商線上。這似乎意味著傳統語音助手時代的結束。我們已經不再下意識覺得自己是與一個被海量資料訓練的模型說話,人和 AI 開始產生了微妙的情感連線,包括信任、依賴,科幻電影的情節正走進大眾生活。
正如《Her》等經典作品中,人類之所以愛上 AI,從來不是因為它能提供無限的知識,而是因為它能帶來恰到好處的情感價值。
從大模型技術落地的層面看,端到端實時語音通話補齊了多模態互動方式中為數不多的空白。大模型應用的玩法正在不斷升級 —— 未來的產品可能是接收文字、音訊和影像的任意組合作為輸入,並實時生成文字、音訊和影像的任意組合輸出。人和機器的互動方式正在被顛覆,進而變革人與人的互動方式。
至少對於當前的中文使用者來說,豆包端到端實時語音功能的上線提供了一種以人類自然語言為媒介的互動方式,真正打破了人們獲取、體驗高階人工智慧的門檻。
回到半年前,我們能想象到是豆包率先創造了歷史嗎?
從 2023 年的大語言模型開始,到 2024 年結束,豆包大模型家族在影像、語音、音樂、影片、3D 等多模態層面均已補全,不僅在國內躋身第一梯隊,也在短短几個月的時間裡完成了從「初出茅廬」到「震撼世界」的蛻變。
而在百舸爭流的大模型賽道上,誰先抵達這一里程碑,或許就決定了其未來十年在領域內的排位。
接下來一年裡,關於大模型、關於豆包和國產 AI 將以怎樣的速度前進,更加值得我們期待。