Open main menu
IT人
實測崑崙萬維對話AI「Skyo」,會讀詩、知曉雷軍擺拍
机器之心
發表於
2024-11-20
原文網址 :
https://www.jiqizhixin.com/articles/2024-11-20-5
AI
算起來,距離 5 月 14 日 OpenAI 釋出 GPT-4o 高階語音模式已經過去了半年時間。在這期間,AI 實時語音對話已經成為了有能力大廠秀肌肉、拼實力的新戰場。
不過,由於語音大模型在訓練、部署、互動等層面相較於語言、影像大模型更難,因此這個賽道的玩家並不多。可以看到,目前唯一有能力抗衡 GPT-4o 的恐怕只有谷歌的 Gemini Live 了。
如今,這對「冤家」都在忙著擴大使用者生態。OpenAI 向各類付費使用者開放了 GPT-4o 語音功能,並與蘋果合作接入到了 Siri 中。谷歌先是允許所有安卓使用者訪問 Gemini Live 語音功能,並於近日支援 iOS 使用者與該語音助手交流。
與此同時,國內一些廠商陸續推出了類似的實時語音對話大模型及應用,比如智譜、科大訊飛等,填補了一些空白。如今,
這個賽道又迎來了一個有實力的新玩家 —— 它就是崑崙萬維開發的 Skyo 實時語音對話助手
。
聲音聽起來還不錯吧!Skyo 內建了非常清亮、爽朗的男聲。
Skyo 基於背後的天工大模型 4.0 4o 版(Skywork 4o)打造
。從名稱上看,Skyo 中的「o」同樣代表了 omni 的意思,並落在語音對話場景,直接對標了 GPT-4o。從定位和功能上看,作為一個智慧語音互動產品,Skyo 具備了快速響應、實時打斷、情感化反應、真實內容互動和個性化聲音定製等多樣化的功能。
可以說,使用者想要在 AI 語音對話中體驗的場景和功能,Skyo 基本上都能 hold,還針對當前 AI 語音助手存在的一些痛點進行了最佳化。
實時對話 AI
一要準、二要快
與傳統語音助手的主要區別在於,基於大模型開發的 AI 實時語音對話助手能夠應對更復雜的語境、執行更個性化的任務,並開始從「工具」的屬性過渡到「人類伴侶」。
自 GPT-4o 之後,語音互動場景的 AI 具備了前所未有的感知能力,在更智慧化、更多面手之外,不僅響應延遲明顯降低了,還能準確讀懂使用者的情感語調,如興奮、高興或悲傷,並以逼真的方式模仿和回應。
不過,隨著更多使用者體驗到 GPT-4o 語音功能,它的一些缺點陸續顯露了出來,比如不擅長識別自然停頓、無法準確響應要求的話題等。
同樣地,此後出現的一系列對標 GPT-4o 的產品,如谷歌 Gemini Live、法國開源 AI 研究實驗室 Kyutai 的 Moshi 等,雖然都宣稱要打造自然流暢的 AI 對話,但從使用者反饋來看,依然存在著一些直接影響對話體驗的短板,比如可用性差、中斷頻繁和延遲嚴重等。
當然,面對 AI 實時語音對話助手的常見通病,Skyo 也需要盡力去克服。究竟效果怎麼樣呢?我們還是得看它的現場表現。
一手實測
會念詩、還拿捏住了擬人化
在與 Skyo 來了場面對面的交談後,我們收穫了一些小驚喜。
首先,我們來諮詢 Skyo 一些健康常識問題,他回答的比較合理、全面,也有側重性。當中,我們在他沒有回答完上個問題的時候,就開始了下個問題,他銜接得挺好。這說明了 Skyo 能夠輕鬆應對使用者打斷場景,並在兩個問題之間順滑地切換。
我們還發現,Skyo 的回答中出現了類似於人類日常交談中常用到的「呃」,這代表了他是在思考後才回答的。語氣也不像機器人那樣機械、僵硬、冷冰冰,會出現「哎呀」等感嘆詞,
擬人化屬性很強
。
其次,情感化反應已經成為現階段語音互動 AI 追求的主要目標之一,在對話中要有能力識別出使用者的情緒波動並給予準確的反饋。
Skyo 在這方面做得也不錯,他能夠理解使用者情緒,並使對話更具人性化。當我們跟他說一些煩心事時,他會安慰我們,情緒價值給得很足,還給出了一些建議。
我們接著讓 Skyo 講個小笑話,結果「冷翻了全場」。
既然他不擅長講笑話,那就換個最近網路上的熱門話題,問他知不知道小米雷軍在汽車工廠擺拍,看起來他對這件趣事挺門清的。
再讓 Skyo 對最近李子柒的迴歸做一個評價,從結果來看,他的
語言組織和總結能力還是不錯的
。如果放在現實世界中,他寫作文應該是把好手。
這同時也意味著 Skyo 具備了一定的實時資訊獲知和知識擴充能力,藉助外部知識庫來強化自己。
最後,讓 Skyo 切換成英姿颯爽的女聲,並讓她唸了一首詩。她第一時間選擇了李白的《靜夜思》,看樣子是有點浪漫基因在身上的。
再以男聲朗誦徐志摩的《再別康橋》,
感情充沛,節奏把握得也很好
。
這樣一個男女聲自由切換、會安慰人、會念詩、還能知曉天下事的國產 AI 聊天搭子,如何煉成的呢?
以上 Skyo 各項能力的實現要歸功於其採用了先進的端到端實時語音建模技術,其中框架鏈路自研並保持業界領先。這樣一來,在高精度理解使用者語音輸入內容(即
聽得準
)的基礎上,做出比較快速的響應(即
答得快
),響應時間一般在 1 秒左右。
另外,得益於崑崙萬維在自研語音技術框架、大模型訓練以及資料積累上的厚積薄發,Skyo 還能夠在高強度對話中保持穩定性和流暢性,並在情緒表達、實時互動等方面更加契合使用者需求。
不過,我們也得承認,現階段 Skyo 的功能並不完善,在回覆的過程中偶爾也會出現聲音的扭曲失真,但這都是進化路上所要經歷的。
未來,Skyo 將繼續修煉自己,併發力多語言支援、主動交流、音樂生成等更豐富的功能。我們可以狠狠期待一波了。
當 Scaling Law 放緩
多模態 AI 應用勢在必行
最近,Scaling Law「撞牆」的訊息開始在 AI 社群傳播,領域頂級玩家 OpenAI、谷歌和 Anthropic 均被曝出在開發更先進模型時遇到了不小的困難,比如 OpenAI 內部代號「Orion」的新模型沒有達到預期訓練效果。
雖然之後這一觀點遭到了一些人的駁斥,但不可否認的是,隨著網際網路高質量資料逐漸匱乏、主流大模型訓練沒有跳出 Transformer 架構等因素的影響,大模型開發速度的放緩似乎是必然的。
奧特曼:「牆」不存在。
相反,基於大模型的 AI 應用正在走向百花齊放,比如搜尋引擎、音樂生成、語音互動、智慧體,可以擴充生成式 AI 的落地場景並重塑人機互動正規化,帶來多樣化 AI 體驗和生產力提升。因此,在保證基座模型效能「不掉隊」的前提下,形成完整的應用矩陣,對於想要持續站穩腳跟的廠商來說尤為重要。
在這方面,崑崙萬維可以說佈局較早且合理。一方面,自研天工系列基座大模型已經發展到 4.0 版本,效能處於全球領先水平。另一方面,構建了清晰、多元的 AI 業務矩陣,在天工 AI 平臺整合了 AI 搜尋、AI 文件-音影片分析、AI 寫作、AI 音樂、AI 圖片生成等主流 AIGC 應用。模型與應用兩手抓,兩手都要硬。
此次,Skyo 實時語音對話助手是崑崙萬維搶佔 AI 語音互動應用市場、佈局多模態的又一舉措。與不久之前上線的天工 AI 高階搜尋功能一樣,也將成為構築全棧式大模型能力堆疊的重要一環。
我們瞭解到,
Skyo 實時語音對話助手將於近期上線天工 App,並接入天工搜尋以獲取更準確的實時資訊
。可以預見,此舉將進一步豐富天工平臺的功能,讓使用者開啟手機就能體驗到 AI 原生實時對話的樂趣。
回望年初,崑崙萬維提出了「實現通用人工智慧,讓每個人更好地塑造和表達自我」的全新使命。為此,該公司以天工 AI 平臺為主陣地,對其上的 AI 應用不斷進行功能上的迭代更新,深拓大模型能力釋放出口,將新世代的人機互動貫穿文字、影像、語音等更全模態。
未來,崑崙萬維還將繼續發力實時影像與影片理解等領域,並形成開箱即用的 AI 應用,從而在創新技術進步、全面滿足使用者 AIGC 需求的過程中加快邁向 AGI 的步伐。
相關文章
ChatGPT 開啟「眼睛」,實時攝像頭對話來了;崑崙萬維推出實時語音助手 Skyo 丨 RTE 開發者日報
2024-11-21
ChatGPT
開發者日報
ChatGPT 開啟「眼睛」,實時攝像頭對話來了;崑崙萬維推出實時語音助手 Skyo丨 RTE 開發者日報
2024-11-21
ChatGPT
開發者日報
崑崙萬維財報:2023年崑崙萬維收入49億淨利潤13億
2024-04-24
崑崙萬維財報:2022 年崑崙萬維營業收入 47.37 億元 同比減少 2.33%
2023-03-01
對話崑崙萬維創始人周亞輝:我不是大佬,我還是個創業者
2021-01-15
創業
崑崙萬維宣佈天工AI每日活躍使用者(DAU)超過100萬
2024-05-27
AI
崑崙萬維旗下天工AI正式上線DeepSeek R1+聯網搜尋
2025-02-10
AI
崑崙萬維釋出AI流媒體音樂平臺Melodio和AI音樂商用創作平臺Mureka
2024-08-14
AI
周亞輝請辭崑崙萬維董事長 稱全心投身非洲市場
2020-04-16
崑崙萬維推出全球首款 AI 短劇平臺 SkyReels,「一人一劇」時代來臨
2024-08-19
AI
棋牌遊戲春節爆表實錘!崑崙萬維Q1盈利至少增長33%
2020-03-02
遊戲
崑崙萬維「天工大模型4.0」o1版(Skywork o1)正式啟動邀請測試
2024-11-27
大模型
2700億元遊戲賽道紅火,崑崙萬維為何執意轉型?
2020-10-28
遊戲
周亞輝和他的恩師陳一舟 崑崙萬維是下一個人人
2019-05-13
JavaScript 輸出崑崙主管641480
2022-11-22
JavaScript
今日A股為元宇宙概念“瘋狂”,盛天網路、崑崙萬維等遊戲股暴漲
2021-09-09
元宇宙
遊戲
崑崙萬維上半年淨利潤同比暴漲525%,閒徠互娛營收持續下滑
2020-08-26
營收
崑崙萬維牽手位元組跳動,後者獨家代理《聖境之塔》大陸地區
2021-09-10
崑崙萬維周亞輝:人形機器人時代,中國新首富就在這三個人當中
2025-01-03
機器人
崑崙分散式資料庫Sequence功能及其實現機制
2022-01-17
分散式
資料庫
崑崙分散式資料庫技術特點
2022-01-17
分散式
資料庫
崑崙分散式資料庫技術優勢
2022-01-17
分散式
資料庫
崑崙分散式資料庫架構介紹
2022-01-13
分散式
資料庫
架構
崑崙萬維「天工4.0」攜超強o1/4o霸氣上線!強推理+實時語音,免費無限體驗
2025-01-06
崑崙芯科技加入龍蜥社群 ,賦能智慧開源,共築AI芯生態
2022-05-31
AI
崑崙萬維攜手南洋理工大學搶發Q*演算法:百倍提升7B模型推理能力
2024-06-25
演算法
模型
崑崙資料庫 MySQL 連線協議簡介
2022-07-12
資料庫
MySql
協議
崑崙萬維23年收入49億淨利潤13億,研發費用增長40%,堅定All in AGI與AIGC
2024-04-24
AI
GC
崑崙分散式資料庫儲存叢集 Fullsync 機制
2022-04-07
分散式
資料庫
崑崙芯 AI 加速卡 R200 與龍蜥作業系統完成產品相容認證
2022-09-20
AI
作業系統
基於ChatGPT用AI實現自然對話
2023-04-30
ChatGPT
AI
對拍
2024-11-14
AI 智慧寫情詩、藏頭詩
2022-02-09
AI
顏水成掛帥,崑崙萬維2050全球研究院聯合NUS、NTU釋出Vitron,奠定通用視覺多模態大模型終極形態
2024-04-26
視覺
大模型
雷軍:小米8拍照超越iPhone X 小米MIX 2S將升級相同韌體
2018-06-03
iPhone
助力世界級拳擊賽事,CoinW幣贏見證崑崙決新拳王!
2022-06-28
對話式 AI 應用的降本增效實踐
2023-04-19
AI
《原神》雷電將軍怎麼搭配?雷電將軍養成心得分享
2022-03-20