剛剛,我們感受了一波最「像人」的國產AI,模型還是開源的

机器之心發表於2024-10-25
今年 5 月,OpenAI 首次展示了 GPT-4o 的語音功能,無論是對話的響應速度還是與真人聲音的相似度,都頗為驚豔。特別是它允許使用者隨時打斷,充分感知到使用者的情緒並給予回應。

大家突然發現,原來 AI 語音通話還能這麼玩?

但由於種種原因,使用者們等了好久才等到 OpenAI 開放 ChatGPT 的高階語音功能,目前僅 Plus 和 Team 使用者可體驗,且這些使用者每天也有使用時長限制。

不過現在,國內使用者也有了同樣絲滑的實時語音互動應用,重點是:免費開放,無需等待。

10 月 25 日,智譜清言宣佈全量上線「情感語音通話」功能,任何使用者都可以立即獲得端到端情感語音體驗。

對標 GPT-4o,智譜清言「情感語音通話」在響應和打斷速度、情緒感知情感共鳴、語音可控表達、多語言多方言等方面實現了突破。簡單來說,「情感語音通話」提供了一個真人一般的對話夥伴,而不僅僅是一個文字的朗讀者。剛剛,我們感受了一波最「像人」的國產AI,模型還是開源的剛剛,我們感受了一波最「像人」的國產AI,模型還是開源的精通各種方言,比如這段北京烤鴨的介紹,那叫一個地道: 剛剛,我們感受了一波最「像人」的國產AI,模型還是開源的
與此同時,智譜還重磅宣佈,該功能背後的情感語音模型 GLM-4-Voice 同步正式開源。不久後,相關能力還將上線視訊通話,為所有使用者提供一個既能「看」又能「說」的 AI 語音助理。

開源地址:https://github.com/THUDM/GLM-4-Voice

自大模型浪潮興起的兩年來,AI 技術的發展日新月異,有時甚至超過我們的想象,讓大家直呼科幻時代提前到來。

當然,這背後所代表的技術趨勢也不斷變化。比如在人類的想象中,「Any-to-Any」才是真正屬於未來的人與 AI 互動方式。具體來說,AI 能做到接收文字、音訊和影像的任意組合作為輸入,並實時生成文字、音訊和影像的任意組合輸出。

如今,智譜清言的「情感語音通話」又一次推動了國產 AI 對標國際先進水平。

情感語音模型 GLM-4-Voice
上線即開源

自從去年的 GPT-4 釋出之後,領域內就一直在傳 GPT-5 的各種訊息。但我們後來都知道,OpenAI 並未透過簡單粗暴地增加模型引數來擴充智慧上限,而是選擇了兩條路線分別開拓:一條是 GPT-4o 所代表的端到端多模態大模型的探索,一條是 o1 所代表的關於推理 Scaling Law 的探索。

具體到 GPT-4o 上,OpenAI 跨文字、視覺和音訊端到端地訓練了一個新模型,所有輸入和輸出都由同一神經網路處理。行業內認為,這是一種可以將音訊直接對映到音訊作為一級模態的技術方法,涉及 Token 化和架構等方面的研究,總體來說是一個資料和系統最佳化問題。

在這方面,智譜也已經有了一定的技術積累。智譜清言情感語音通話功能背後的 GLM-4-Voice,同樣是一個端到端的語音模型。

與傳統的 ASR + LLM + TTS 的級聯方案相比,GLM-4-Voice 以離散 Token 的方式表示音訊,實現了音訊的輸入和輸出的端到端建模,在一個模型裡面同時完成語音的理解和生成,避免了傳統的「語音轉文字再轉語音」級聯方案過程中帶來的資訊損失和誤差積累,且擁有理論上更高的建模上限。

具體來說,智譜基於語音識別(ASR)模型以有監督方式訓練了音訊 Tokenizer,能夠在 12.5Hz(12.5 個音訊 token)單碼錶的超低位元速率下準確保留語義資訊,幷包含語速,情感等副語言資訊。語音合成方面,智譜採用 Flow Matching 模型流式從音訊 Token 合成音訊,最低只需要 10 個 Token 合成語音,最大限度降低對話延遲。

預訓練方面,為了攻克模型在語音模態下的智商和合成表現力兩個難關,智譜將 Speech2Speech 任務解耦合為 Speech2Text(根據使用者音訊做出文字回復) 和 Text2Speech(根據文字回復和使用者語音合成回覆語音)兩個任務,並設計兩種預訓練目標,分別基於文字預訓練資料和無監督音訊資料合成資料以適配這兩種任務形式:

  • Speech2Text:從文字資料中,隨機選取文字句子轉換為音訊 Token
  • Text2Speech:從音訊資料中,隨機選取音訊句子加入文字 Transcription
圖片
GLM-4-Voice 預訓練資料構造。

與傳統的 TTS 技術相比 (Text-to-Speech),GLM-4-Voice 能夠理解情感,有情緒表達、情感共鳴,可自助調節語速,支援多語言和方言,並且延時更低、可隨時打斷。

能夠在情感的把握上做到如此精準,是因為 GLM-4-Voice 在 GLM-4-9B 的基座模型基礎之上,經過了數百萬小時音訊和數千億 token 的音訊文字交錯資料預訓練,擁有很強的音訊理解和建模能力。為了支援高質量的語音對話,智譜設計了一套流式思考架構:輸入使用者語音,GLM-4-Voice 可以流式交替輸出文字和語音兩個模態的內容,其中語音模態以文字作為參照保證回覆內容的高質量,並根據使用者的語音指令變化做出相應的聲音變化,在保證智商的情況下仍然具有端到端建模 Speech2Speech 的能力,同時保證低延遲性(最低只需要輸出 20 個 Token 便可以合成語音)。
圖片
GLM-4-Voice 模型架構圖。

伴隨著 GLM-4-Voice 的推出,智譜在通往 AGI 的道路上又邁出了最新一步。

一句指令自動操作電腦、手機
AutoGLM 同步上線

在情感語音通話全面開放的同時,智譜也宣佈了另一項前沿成果:AutoGLM。

讓 AI 像人類一樣操作電腦和手機,是近期領域內的熱點話題。以往這是一項頗具挑戰性的任務,因為在此類場景下,AI 需要根據使用者的要求拆解指令背後蘊含的步驟,感知環境、規劃任務、執行動作,逐步完成任務。某種程度上說,這突破了大模型的常規能力邊界,更加註重其「工具」屬性。

很多大模型公司都在探索這一方向,錨定其為「下一個 AI 前沿」。基於大語言模型(GLM 系列模型)、多模態模型和工具使用(CogAgent 模型)等方面的探索,智譜已經在由自主智慧體(Agent)驅動的人機互動新正規化方面取得了一些階段性成果。

在智譜最新發布的 AutoGLM App 中,使用者可以憑藉一句指令讓 AI 自動完成許多工,比如閱讀網頁資訊、電商產品購買、點外賣、訂酒店、評論和點贊微信朋友圈等。目前,AutoGLM 已開啟內測(暫時僅支援 Android 系統)。剛剛,我們感受了一波最「像人」的國產AI,模型還是開源的
在 AutoGLM App 釋出之前,AutoGLM-Web 已經透過「智譜清言」外掛對外開放使用。這是一個能模擬使用者訪問網頁、點選網頁的瀏覽器助手,可以根據使用者指令在私域網站上完成高階檢索並總結資訊、模擬使用者看網頁的過程進行批次、快速的瀏覽並總結多個網頁,結合歷史郵件資訊回覆郵件。

在 Phone Use 和 Web Browser Use 上,AutoGLM 都取得了大幅的效能提升。在 AndroidLab 評測基準上,AutoGLM 就顯著超越了 GPT-4o 和 Claude-3.5-Sonnet 的表現。在 WebArena-Lite 評測基準中,AutoGLM 更是相對 GPT-4o 取得了約 200% 的效能提升,大大縮小了人類和大模型智慧體在 GUI 操控上的成功率差距。
圖片
我們知道,當代人工作和生活中的大部分事項都需要透過計算機和手機完成,一旦讓 AI 學會像人類一樣直接與計算機和手機端的軟體互動,就能擴充出大量當前一代 AI 助手無法實現的應用。

面向 AGI,智譜這樣規劃技術路線圖
圖片
從文字的一種模態,到包括影像、影片、情感語音模型在內的多模態,然後讓AI學會使用各種工具。基於GLM-4-Plus,智譜過去幾年在多模態領域探索取得了一些階段性成果:CogView 能讓文字化作一幅幅畫作,CogVideo / 清影(Ying)讓文圖生成一幀幀影片,GLM-4V-Plus 帶來了通用的影片理解能力。GLM-4-Voice的出現讓 GLM 多模態模型家族更加完整,為朝著原生多模態模型又邁出了一步。

雖然在產品矩陣上全面對標 OpenAI,但可以看出,在追求 AGI 終極目標的過程中,智譜 AI 慢慢展現出了一些不同於 OpenAI 的思考,比如對 AI 分級的思考,這也影響了這家科技公司所走的技術路線。

如果將 AI 的能力從低到高劃分為 Level 1-Level 5,則從當前各家 AI 大模型來看,Level 1 語言和多模態能力、Level 2 邏輯與思維能力和 Level 3 工具使用能力成為了主流認知。因此,包括智譜在內的大模型廠商都在實現這些能力的路上一路狂奔。

智譜此次揭露了其面向 AGI 的路線圖。除了單一模態的端到端大模型之外,智譜未來希望打造各種模態混合訓練的統一多模態模型,不僅認知能力要比肩人類,還要與人類價值觀保持一致,做到能力出眾的同時要安全可控。
圖片
在 Level 3 階段,智譜拿出了最新武器 AutoGLM,具備了更強大的全棧式工具使用能力,並越來越像人一樣透過感知環境、規劃任務、執行任務並最終完成特定任務。同時伴隨著人機互動正規化的轉變,智譜也離其未來打造以大模型為中心的通用計算系統 GLM-OS 的目標更近了一步。

可以說,截止目前, 前三階段的競爭大家都走得差不多,差別就在於更高階段的 Level 4 和 Level 5,OpenAI 探索的是 AI 自己能夠發明創新並最終融入組織或自成組織。在這兩個決定未來 AI 能力走向的關鍵階段,如今的智譜有了更全面的定義和解讀。

在智譜的願景中,未來 AI 在 Level 4 不僅要具備發明創造能力,還要全方位地追求「內省」,具備自我學習、自我反思和自我改進能力;到了最終的 Level 5,也就是實現 AGI,AI 的能力將首次全面超越人類,並開始向探究科學規律、世界起源等終極問題發起挑戰。

與此同時,如果將 AI 與人腦做一個類比,AI 在多大程度上能夠達到人腦水平呢?智譜認為,從目前大模型具備的文字、視覺、聲音以及邏輯和工具使用能力來看,在未來相當長一段時間內將處於 42%這個階段。因此,想要達到最終的 AGI,持續深拓已有能力並解鎖未知能力是關鍵。
圖片
AI 技術發展到今天,已經為我們展開了一幅美好畫卷。在未來,由人類創造的強大 AI 將真正使大眾受益,而智譜也是推動這一里程碑的重要參與者。

點選「閱讀原文」,體驗 GLM-4-Voice 和 AutoGLM 加持的最新版智譜清言。

相關文章