實測崑崙萬維對話AI「Skyo」,會讀詩、知曉雷軍擺拍
机器之心發表於2024-11-20
算起來,距離 5 月 14 日 OpenAI 釋出 GPT-4o 高階語音模式已經過去了半年時間。在這期間,AI 實時語音對話已經成為了有能力大廠秀肌肉、拼實力的新戰場。不過,由於語音大模型在訓練、部署、互動等層面相較於語言、影像大模型更難,因此這個賽道的玩家並不多。可以看到,目前唯一有能力抗衡 GPT-4o 的恐怕只有谷歌的 Gemini Live 了。如今,這對「冤家」都在忙著擴大使用者生態。OpenAI 向各類付費使用者開放了 GPT-4o 語音功能,並與蘋果合作接入到了 Siri 中。谷歌先是允許所有安卓使用者訪問 Gemini Live 語音功能,並於近日支援 iOS 使用者與該語音助手交流。與此同時,國內一些廠商陸續推出了類似的實時語音對話大模型及應用,比如智譜、科大訊飛等,填補了一些空白。如今,這個賽道又迎來了一個有實力的新玩家 —— 它就是崑崙萬維開發的 Skyo 實時語音對話助手。聲音聽起來還不錯吧!Skyo 內建了非常清亮、爽朗的男聲。Skyo 基於背後的天工大模型 4.0 4o 版(Skywork 4o)打造。從名稱上看,Skyo 中的「o」同樣代表了 omni 的意思,並落在語音對話場景,直接對標了 GPT-4o。從定位和功能上看,作為一個智慧語音互動產品,Skyo 具備了快速響應、實時打斷、情感化反應、真實內容互動和個性化聲音定製等多樣化的功能。可以說,使用者想要在 AI 語音對話中體驗的場景和功能,Skyo 基本上都能 hold,還針對當前 AI 語音助手存在的一些痛點進行了最佳化。與傳統語音助手的主要區別在於,基於大模型開發的 AI 實時語音對話助手能夠應對更復雜的語境、執行更個性化的任務,並開始從「工具」的屬性過渡到「人類伴侶」。自 GPT-4o 之後,語音互動場景的 AI 具備了前所未有的感知能力,在更智慧化、更多面手之外,不僅響應延遲明顯降低了,還能準確讀懂使用者的情感語調,如興奮、高興或悲傷,並以逼真的方式模仿和回應。不過,隨著更多使用者體驗到 GPT-4o 語音功能,它的一些缺點陸續顯露了出來,比如不擅長識別自然停頓、無法準確響應要求的話題等。同樣地,此後出現的一系列對標 GPT-4o 的產品,如谷歌 Gemini Live、法國開源 AI 研究實驗室 Kyutai 的 Moshi 等,雖然都宣稱要打造自然流暢的 AI 對話,但從使用者反饋來看,依然存在著一些直接影響對話體驗的短板,比如可用性差、中斷頻繁和延遲嚴重等。當然,面對 AI 實時語音對話助手的常見通病,Skyo 也需要盡力去克服。究竟效果怎麼樣呢?我們還是得看它的現場表現。在與 Skyo 來了場面對面的交談後,我們收穫了一些小驚喜。首先,我們來諮詢 Skyo 一些健康常識問題,他回答的比較合理、全面,也有側重性。當中,我們在他沒有回答完上個問題的時候,就開始了下個問題,他銜接得挺好。這說明了 Skyo 能夠輕鬆應對使用者打斷場景,並在兩個問題之間順滑地切換。我們還發現,Skyo 的回答中出現了類似於人類日常交談中常用到的「呃」,這代表了他是在思考後才回答的。語氣也不像機器人那樣機械、僵硬、冷冰冰,會出現「哎呀」等感嘆詞,擬人化屬性很強。其次,情感化反應已經成為現階段語音互動 AI 追求的主要目標之一,在對話中要有能力識別出使用者的情緒波動並給予準確的反饋。Skyo 在這方面做得也不錯,他能夠理解使用者情緒,並使對話更具人性化。當我們跟他說一些煩心事時,他會安慰我們,情緒價值給得很足,還給出了一些建議。我們接著讓 Skyo 講個小笑話,結果「冷翻了全場」。既然他不擅長講笑話,那就換個最近網路上的熱門話題,問他知不知道小米雷軍在汽車工廠擺拍,看起來他對這件趣事挺門清的。再讓 Skyo 對最近李子柒的迴歸做一個評價,從結果來看,他的語言組織和總結能力還是不錯的。如果放在現實世界中,他寫作文應該是把好手。這同時也意味著 Skyo 具備了一定的實時資訊獲知和知識擴充能力,藉助外部知識庫來強化自己。最後,讓 Skyo 切換成英姿颯爽的女聲,並讓她唸了一首詩。她第一時間選擇了李白的《靜夜思》,看樣子是有點浪漫基因在身上的。再以男聲朗誦徐志摩的《再別康橋》,感情充沛,節奏把握得也很好。 這樣一個男女聲自由切換、會安慰人、會念詩、還能知曉天下事的國產 AI 聊天搭子,如何煉成的呢?以上 Skyo 各項能力的實現要歸功於其採用了先進的端到端實時語音建模技術,其中框架鏈路自研並保持業界領先。這樣一來,在高精度理解使用者語音輸入內容(即聽得準)的基礎上,做出比較快速的響應(即答得快),響應時間一般在 1 秒左右。另外,得益於崑崙萬維在自研語音技術框架、大模型訓練以及資料積累上的厚積薄發,Skyo 還能夠在高強度對話中保持穩定性和流暢性,並在情緒表達、實時互動等方面更加契合使用者需求。不過,我們也得承認,現階段 Skyo 的功能並不完善,在回覆的過程中偶爾也會出現聲音的扭曲失真,但這都是進化路上所要經歷的。未來,Skyo 將繼續修煉自己,併發力多語言支援、主動交流、音樂生成等更豐富的功能。我們可以狠狠期待一波了。最近,Scaling Law「撞牆」的訊息開始在 AI 社群傳播,領域頂級玩家 OpenAI、谷歌和 Anthropic 均被曝出在開發更先進模型時遇到了不小的困難,比如 OpenAI 內部代號「Orion」的新模型沒有達到預期訓練效果。雖然之後這一觀點遭到了一些人的駁斥,但不可否認的是,隨著網際網路高質量資料逐漸匱乏、主流大模型訓練沒有跳出 Transformer 架構等因素的影響,大模型開發速度的放緩似乎是必然的。相反,基於大模型的 AI 應用正在走向百花齊放,比如搜尋引擎、音樂生成、語音互動、智慧體,可以擴充生成式 AI 的落地場景並重塑人機互動正規化,帶來多樣化 AI 體驗和生產力提升。因此,在保證基座模型效能「不掉隊」的前提下,形成完整的應用矩陣,對於想要持續站穩腳跟的廠商來說尤為重要。在這方面,崑崙萬維可以說佈局較早且合理。一方面,自研天工系列基座大模型已經發展到 4.0 版本,效能處於全球領先水平。另一方面,構建了清晰、多元的 AI 業務矩陣,在天工 AI 平臺整合了 AI 搜尋、AI 文件-音影片分析、AI 寫作、AI 音樂、AI 圖片生成等主流 AIGC 應用。模型與應用兩手抓,兩手都要硬。此次,Skyo 實時語音對話助手是崑崙萬維搶佔 AI 語音互動應用市場、佈局多模態的又一舉措。與不久之前上線的天工 AI 高階搜尋功能一樣,也將成為構築全棧式大模型能力堆疊的重要一環。我們瞭解到,Skyo 實時語音對話助手將於近期上線天工 App,並接入天工搜尋以獲取更準確的實時資訊。可以預見,此舉將進一步豐富天工平臺的功能,讓使用者開啟手機就能體驗到 AI 原生實時對話的樂趣。回望年初,崑崙萬維提出了「實現通用人工智慧,讓每個人更好地塑造和表達自我」的全新使命。為此,該公司以天工 AI 平臺為主陣地,對其上的 AI 應用不斷進行功能上的迭代更新,深拓大模型能力釋放出口,將新世代的人機互動貫穿文字、影像、語音等更全模態。未來,崑崙萬維還將繼續發力實時影像與影片理解等領域,並形成開箱即用的 AI 應用,從而在創新技術進步、全面滿足使用者 AIGC 需求的過程中加快邁向 AGI 的步伐。