實時多模態 AI 的 N 種新可能丨實時互動和大模型專場@RTE2024回顧

在本屆 RTE2024 大會上，來自產業界和學術界的多位專家深入探討了實時互動和大模型技術的最新進展及其潛在應用。

西湖心辰聯合創始人俞佳、聲網 AI 演算法工程師喬齊、MiniMax 資深音訊演算法專家張博聞、商湯科技數字文娛解決方案負責人焦文奎以及面壁智慧演算法 VP 翟忠武等分享了他們在各自領域的研究成果和獨到見解。

RTE 開發者社群主理人林旅強和聲網大語言模型實驗室高階研究員李忻瑋分別主持了主題分享和圓桌討論環節。

俞佳：生成式語音與使用者粘性的密切關係

西湖心辰聯合創始人俞佳帶來了一場關於生成式語音技術及其使用者粘性的分享。他著重探討了語音技術在實際應用中的價值，尤其是在 AI 心理諮詢和 AI 陪伴 等領域。

俞佳強調了語音技術對使用者體驗的深刻影響。 「心理諮詢的本質在於連線，」他解釋說：「使用者能否與 AI 系統或 AI 諮詢師建立起如同與真人諮詢師般的連線至關重要。」語音，乃至多模態的視覺能力，都在構建這種連線中扮演著關鍵角色。當使用者感受到系統真正理解自己時，即使提供的建議並非完美無缺，也能帶來實質性的幫助。

傳統的語音處理流程通常是將語音轉換為文字，處理後再轉換回語音。然而，這種方法不可避免地會丟失諸如語速、語氣、情緒等重要的資訊。為了解決這一難題，俞佳及其團隊開發了 端到端的語音大模型 Lingo。 該模型採用三階段訓練方法，包括模態對齊、適應性訓練和多模態微調。尤為值得一提的是，Lingo 支援語音和文字的同時輸入輸出，為後續的處理和應用提供了更多可能性。

喬齊：基於大語言模型的雙全工對話模式探索

聲網 AI 演算法工程師喬齊分享了基於大語言模型的雙全工對話方面的探索。他指出，現有的 AI 語音助手，以 ASR、LLM、TTS 三段式框架為主，在實際互動中仍存在不足。

雙全工對話模式是解決這一問題的關鍵。 「雙全工」允許使用者在對話過程中隨時打斷，並要求 AI 助手能夠理解、響應這種打斷，並在合適的時機進行回覆，最終實現更自然流暢的互動體驗。

他進一步解釋了讓大語言模型進行雙全工對話的核心在於 理解「說」和「聽」兩種對話狀態， 以及它們之間四種可能的轉移路徑：說->說（忽略干擾，繼續發言），說->聽（響應打斷，開始聆聽），聽->說（回覆使用者），聽->聽（繼續聆聽）。

為實現雙全工對話，喬齊介紹了兩種方案。第一種是利用現有的閉源商業大模型，並結合提示詞工程進行調優。第二種方案是微調小規模大語言模型並部署在端側裝置，以解決閉源模型成本高和資料安全問題。

張博聞：新一代語音大模型 Abab-speech-01 的突破性應用

MiniMax 聲音團隊演算法工程師張博聞分享了新一代語音生成大模型 Abab-speech-01 的落地成果。該模型利用 數百萬小時 涵蓋多語言、方言、情緒和場景的標註音訊資料進行預訓練和微調，顯著提升了語音合成的 自然度和情感表達能力。 相較於傳統模型，Abab-speech-01 更擅長理解文字語義和情感，能夠更自然地表達如笑聲等細節，並根據文字情感調整語音，使其更生動傳神。此外，它只需 5-6 秒音訊即可實現高質量音色復刻，大幅提升效率並降低成本。

在 C 端應用方面，MiniMax 推出了 AI 虛擬社交產品「星野」和生產力工具「海螺 AI」。「星野」利用 Abab-speech-01 的 音色復刻能力， 支援使用者建立數百萬種獨特音色，並可透過文字描述生成音色。「海螺 AI」則內建 30 種官方精品音色及音色復刻功能，確保安全合規的前提下，允許使用者使用自身或親人的聲音進行語音合成。兩款產品均整合 低延時語音通話功能， 端到端延時控制在 400 毫秒以內。

在產業應用方面，Abab-speech-01 已成功應用於有聲讀物、數字人帶貨和智慧硬體等領域。

焦文奎：商湯科技多模態模型解決方案與創新應用

商湯科技數字文娛解決方案負責人焦文奎介紹了商湯科技「日日新」大模型的流式多模態能力及其應用探索。依託強大的算力基礎設施（12000P，年底將達 20000P）和約 10TB 的資料（20%為高質量標註資料），「日日新」大模型已迭代至 5.5 版本，重點關注 大裝置、大模型和應用的三位一體發展。

流式多模態模型支援音訊、影片、文字輸入，並以音訊或文字輸出，響應延遲為 560 毫秒。面向使用者的 SDK「日日新 5O」已釋出，未來將推出企業級版本。現場演示的擬人對話和影像描述等 demo，展示了在品牌/地標識別、人像/場景理解等方面的能力，並計劃將文生圖能力融入多模態模型。

應用場景探索方面，包括：品牌/地標識別： 例如博物館展品講解
人像/場景理解： 例如電商直播中的穿著打扮指導
數字人： 與聲網合作，探索陪聊、帶貨等場景，並解決弱網環境下的低延時需求，未來將實現音進音出，並逐步加入視覺模組。
AI 面試官： 結合慢推理模型，用於校招和社招初面。
音影片美顏美體美型。

翟忠武：基於面壁小鋼炮訓練的對話模型實踐

面壁智慧演算法 VP 翟忠武分享了他們在端側對話模型領域的突破性進展。面對大模型高昂的推理成本，面壁智慧致力於將大模型部署到手機、微控制器等低功耗裝置，並取得了顯著成果。

翟忠武重點介紹了「面壁小鋼炮」專案，這項創新嘗試旨在 提升模型的知識密度。 團隊透過一套精密的「風洞系統」進行大量實驗，最佳化模型架構和關鍵引數，最終實現了一個僅有 1.2B 引數但效能優於 7B 和 13B 模型的小型化模型。

在實際應用中，面壁智慧的端側對話模型展現出令人驚豔的效能。該模型無需 GPU 支援，可在手機端流暢執行，平均每位使用者可持續對話 80 分鐘，進行 300 輪對話。翟忠武現場演示了模型極快的響應速度，甚至超越使用者輸入速度。

這一高效的端側模型背後，凝聚了多項核心技術：

1、快慢系統融合： 模型整合了「慢思考」（分析使用者畫像、記憶和聊天記錄）和「快思考」（快速生成回覆）兩個系統，顯著提升了模型的整體能力和響應效率。

2、多模態架構設計： 模型支援文字和語音的同步輸入輸出，並採用流式處理和 Beam Search 解碼，以適應多樣化的互動場景。

3、創新的訓練方法： 團隊採用獨特的訓練方法，同時訓練模型的「接龍」和「對話」能力，並在後期引入高質量資料進行強化學習。

4、模型稀疏化技術： 借鑑人腦神經元連線的稀疏性，透過稀疏化技術大幅提升模型效率，降低計算資源消耗。

圓桌討論：實時多模態 AI 的 N 種可能

主題是 「實時多模態 AI 的 N 種可能」 的圓桌討論由聲網大語言模型實驗室的李忻瑋主持，參與討論的嘉賓有面壁智慧演算法 VP 翟忠武、TEN Framework 聯合發起人 Plutoless 以及西湖心辰聯合創始人俞佳。

會議伊始，主持人李忻瑋用一個輕鬆的快問快答環節與 Plutoless 互動，確認他「暫時透過了圖靈測試」，也為「實時性」這一關鍵詞埋下伏筆。
圍繞 Anthropic 新推出的 Claude 3.5 模型的 「Computer Use」功能， 討論正式展開。該功能允許 Claude 透過 API 接入使用者電腦，模擬滑鼠鍵盤操作。

翟忠武認為這並非新技術，並指出其實 現流暢穩定操作的關鍵在於端側模型， 以規避雲端模型的網路延時問題。他更看好 function call 的應用，認為直接呼叫 API 比透過視覺識別 UI 更高效。

Plutoless 也表示類似功能在 Framework 已有嘗試，並指出語音控制的實現 難點在於與應用 API 的打通， 即「最後一公里」問題。他進一步介紹了 Framework 在實時影片方面的佈局，表示已支援類似 ChatGPT 的截圖提問功能，並計劃在開源專案中包含螢幕共享功能，以實現更自然的互動。

俞佳則從產品角度對「Computer Use」功能表達了興奮之情。他認為，儘管技術上並無突破，但該功能 賦予了大模型操作圖形介面的能力， 擴充了 AI 的應用空間，如同人形機器人擁有了「手」一樣意義重大。

關於端側模型的潛力， 翟忠武認為未來的互動將以語音為主，並強調端側模型作為基礎設施的重要性，能夠讓開發者無需重複訓練大模型。他認為目前端側模型的瓶頸在於實時性和算力。

Plutoless 指出， 人工智慧處理資訊的方式與人類截然不同。 以遠端會議為例，當網路連線不穩定時，人類更注重音影片的流暢度而非完整性。即使畫面模糊或聲音斷續，我們仍然可以憑藉自身的理解能力抓住會議的主旨。但如果出現嚴重的音訊延遲，溝通就會受到阻礙。相反， 人工智慧並不需要像人類那樣理解資訊的語義。 比如，將 10 秒的資訊壓縮到 1 秒，對人類來說是無法理解的，而人工智慧卻可以輕鬆處理。

TEN Framework 的初衷正是解決這些複雜問題，讓開發者專注於業務邏輯和自身優勢領域。TEN Framework 致力於將這些複雜能力原生整合到框架中，並透過外掛提供給開發者，降低開發門檻和心智負擔。

關於 AI 帶來的道德風險， 俞佳坦言，隨著人與 AI 情感連線的加深，AI 回覆的風險性挑戰也日益增大，西湖心辰已在產品中加入了針對使用者極端情緒的預警機制。

最後，圓桌討論轉向了 多模態生成正規化。 翟忠武認為，用統一的 token ID 處理不同模態資料是可行的，並指出目前的關鍵在於如何 將影像和聲音轉化為 token ID。 Plutoless 則認為，多模態互動更加自然，但也帶來了延時問題。他指出目前多模態模型的精確度和可控性仍有不足，主要 受限於訓練資料的缺乏。 俞佳也承認，多模態模型效果的不足 限制了某些產品需求的實現， 但他對未來發展仍然樂觀。