實測崑崙萬維對話AI「Skyo」，會讀詩、知曉雷軍擺拍

机器之心發表於2024-11-20

原文網址 : https://www.jiqizhixin.com/articles/2024-11-20-5

算起來，距離 5 月 14 日 OpenAI 釋出 GPT-4o 高階語音模式已經過去了半年時間。在這期間，AI 實時語音對話已經成為了有能力大廠秀肌肉、拼實力的新戰場。

不過，由於語音大模型在訓練、部署、互動等層面相較於語言、影像大模型更難，因此這個賽道的玩家並不多。可以看到，目前唯一有能力抗衡 GPT-4o 的恐怕只有谷歌的 Gemini Live 了。

如今，這對「冤家」都在忙著擴大使用者生態。OpenAI 向各類付費使用者開放了 GPT-4o 語音功能，並與蘋果合作接入到了 Siri 中。谷歌先是允許所有安卓使用者訪問 Gemini Live 語音功能，並於近日支援 iOS 使用者與該語音助手交流。

與此同時，國內一些廠商陸續推出了類似的實時語音對話大模型及應用，比如智譜、科大訊飛等，填補了一些空白。如今，這個賽道又迎來了一個有實力的新玩家 —— 它就是崑崙萬維開發的 Skyo 實時語音對話助手。實測崑崙萬維對話AI「Skyo」，會讀詩、知曉雷軍擺拍

聲音聽起來還不錯吧！Skyo 內建了非常清亮、爽朗的男聲。

Skyo 基於背後的天工大模型 4.0 4o 版（Skywork 4o）打造。從名稱上看，Skyo 中的「o」同樣代表了 omni 的意思，並落在語音對話場景，直接對標了 GPT-4o。從定位和功能上看，作為一個智慧語音互動產品，Skyo 具備了快速響應、實時打斷、情感化反應、真實內容互動和個性化聲音定製等多樣化的功能。

可以說，使用者想要在 AI 語音對話中體驗的場景和功能，Skyo 基本上都能 hold，還針對當前 AI 語音助手存在的一些痛點進行了最佳化。

實時對話 AI

一要準、二要快

與傳統語音助手的主要區別在於，基於大模型開發的 AI 實時語音對話助手能夠應對更復雜的語境、執行更個性化的任務，並開始從「工具」的屬性過渡到「人類伴侶」。

自 GPT-4o 之後，語音互動場景的 AI 具備了前所未有的感知能力，在更智慧化、更多面手之外，不僅響應延遲明顯降低了，還能準確讀懂使用者的情感語調，如興奮、高興或悲傷，並以逼真的方式模仿和回應。

不過，隨著更多使用者體驗到 GPT-4o 語音功能，它的一些缺點陸續顯露了出來，比如不擅長識別自然停頓、無法準確響應要求的話題等。

同樣地，此後出現的一系列對標 GPT-4o 的產品，如谷歌 Gemini Live、法國開源 AI 研究實驗室 Kyutai 的 Moshi 等，雖然都宣稱要打造自然流暢的 AI 對話，但從使用者反饋來看，依然存在著一些直接影響對話體驗的短板，比如可用性差、中斷頻繁和延遲嚴重等。

當然，面對 AI 實時語音對話助手的常見通病，Skyo 也需要盡力去克服。究竟效果怎麼樣呢？我們還是得看它的現場表現。

一手實測

會念詩、還拿捏住了擬人化

在與 Skyo 來了場面對面的交談後，我們收穫了一些小驚喜。

首先，我們來諮詢 Skyo 一些健康常識問題，他回答的比較合理、全面，也有側重性。當中，我們在他沒有回答完上個問題的時候，就開始了下個問題，他銜接得挺好。這說明了 Skyo 能夠輕鬆應對使用者打斷場景，並在兩個問題之間順滑地切換。

我們還發現，Skyo 的回答中出現了類似於人類日常交談中常用到的「呃」，這代表了他是在思考後才回答的。語氣也不像機器人那樣機械、僵硬、冷冰冰，會出現「哎呀」等感嘆詞，擬人化屬性很強。實測崑崙萬維對話AI「Skyo」，會讀詩、知曉雷軍擺拍

其次，情感化反應已經成為現階段語音互動 AI 追求的主要目標之一，在對話中要有能力識別出使用者的情緒波動並給予準確的反饋。

Skyo 在這方面做得也不錯，他能夠理解使用者情緒，並使對話更具人性化。當我們跟他說一些煩心事時，他會安慰我們，情緒價值給得很足，還給出了一些建議。實測崑崙萬維對話AI「Skyo」，會讀詩、知曉雷軍擺拍

我們接著讓 Skyo 講個小笑話，結果「冷翻了全場」。

既然他不擅長講笑話，那就換個最近網路上的熱門話題，問他知不知道小米雷軍在汽車工廠擺拍，看起來他對這件趣事挺門清的。實測崑崙萬維對話AI「Skyo」，會讀詩、知曉雷軍擺拍

再讓 Skyo 對最近李子柒的迴歸做一個評價，從結果來看，他的語言組織和總結能力還是不錯的。如果放在現實世界中，他寫作文應該是把好手。

這同時也意味著 Skyo 具備了一定的實時資訊獲知和知識擴充能力，藉助外部知識庫來強化自己。實測崑崙萬維對話AI「Skyo」，會讀詩、知曉雷軍擺拍

最後，讓 Skyo 切換成英姿颯爽的女聲，並讓她唸了一首詩。她第一時間選擇了李白的《靜夜思》，看樣子是有點浪漫基因在身上的。實測崑崙萬維對話AI「Skyo」，會讀詩、知曉雷軍擺拍

再以男聲朗誦徐志摩的《再別康橋》，感情充沛，節奏把握得也很好。實測崑崙萬維對話AI「Skyo」，會讀詩、知曉雷軍擺拍

這樣一個男女聲自由切換、會安慰人、會念詩、還能知曉天下事的國產 AI 聊天搭子，如何煉成的呢？

以上 Skyo 各項能力的實現要歸功於其採用了先進的端到端實時語音建模技術，其中框架鏈路自研並保持業界領先。這樣一來，在高精度理解使用者語音輸入內容（即聽得準）的基礎上，做出比較快速的響應（即答得快），響應時間一般在 1 秒左右。

另外，得益於崑崙萬維在自研語音技術框架、大模型訓練以及資料積累上的厚積薄發，Skyo 還能夠在高強度對話中保持穩定性和流暢性，並在情緒表達、實時互動等方面更加契合使用者需求。

不過，我們也得承認，現階段 Skyo 的功能並不完善，在回覆的過程中偶爾也會出現聲音的扭曲失真，但這都是進化路上所要經歷的。

未來，Skyo 將繼續修煉自己，併發力多語言支援、主動交流、音樂生成等更豐富的功能。我們可以狠狠期待一波了。

當 Scaling Law 放緩

多模態 AI 應用勢在必行

最近，Scaling Law「撞牆」的訊息開始在 AI 社群傳播，領域頂級玩家 OpenAI、谷歌和 Anthropic 均被曝出在開發更先進模型時遇到了不小的困難，比如 OpenAI 內部代號「Orion」的新模型沒有達到預期訓練效果。

雖然之後這一觀點遭到了一些人的駁斥，但不可否認的是，隨著網際網路高質量資料逐漸匱乏、主流大模型訓練沒有跳出 Transformer 架構等因素的影響，大模型開發速度的放緩似乎是必然的。

^{奧特曼：「牆」不存在。}

相反，基於大模型的 AI 應用正在走向百花齊放，比如搜尋引擎、音樂生成、語音互動、智慧體，可以擴充生成式 AI 的落地場景並重塑人機互動正規化，帶來多樣化 AI 體驗和生產力提升。因此，在保證基座模型效能「不掉隊」的前提下，形成完整的應用矩陣，對於想要持續站穩腳跟的廠商來說尤為重要。

在這方面，崑崙萬維可以說佈局較早且合理。一方面，自研天工系列基座大模型已經發展到 4.0 版本，效能處於全球領先水平。另一方面，構建了清晰、多元的 AI 業務矩陣，在天工 AI 平臺整合了 AI 搜尋、AI 文件-音影片分析、AI 寫作、AI 音樂、AI 圖片生成等主流 AIGC 應用。模型與應用兩手抓，兩手都要硬。

此次，Skyo 實時語音對話助手是崑崙萬維搶佔 AI 語音互動應用市場、佈局多模態的又一舉措。與不久之前上線的天工 AI 高階搜尋功能一樣，也將成為構築全棧式大模型能力堆疊的重要一環。

我們瞭解到，Skyo 實時語音對話助手將於近期上線天工 App，並接入天工搜尋以獲取更準確的實時資訊。可以預見，此舉將進一步豐富天工平臺的功能，讓使用者開啟手機就能體驗到 AI 原生實時對話的樂趣。

回望年初，崑崙萬維提出了「實現通用人工智慧，讓每個人更好地塑造和表達自我」的全新使命。為此，該公司以天工 AI 平臺為主陣地，對其上的 AI 應用不斷進行功能上的迭代更新，深拓大模型能力釋放出口，將新世代的人機互動貫穿文字、影像、語音等更全模態。

未來，崑崙萬維還將繼續發力實時影像與影片理解等領域，並形成開箱即用的 AI 應用，從而在創新技術進步、全面滿足使用者 AIGC 需求的過程中加快邁向 AGI 的步伐。

實測崑崙萬維對話AI「Skyo」，會讀詩、知曉雷軍擺拍

相關文章