這些實時互動 AI 場景正在湧現生長，也預示著多模態 AI 的未來｜RTE2024 聲網 CEO 趙斌演講實錄

10 月 25 日，在 RTE2024 第十屆實時網際網路大會主論壇上，聲網創始人兼 CEO 趙斌發表了《實時互動十年：從 WebRTC 到生成式 AI 時代的 RTE 》主旨演講。

趙斌認為，生成式 AI 正在驅動 IT 行業發生大變革，這一趨勢主要體現在四個層面：終端、軟體、雲以及人機介面。在這樣的時代背景下，生成式 AI 將會一如既往地助力 RTE 能力的進化與普及，同時也將藉助 RTE 能力以及 RTE 應用的廣度與深度來實現自身進化。

同時，他也在分享中釋出了 聲網 RTE+AI 能力全景圖。 在全景圖中，聲網從實時 AI 基礎設施、RTE+AI 生態能力、聲網 AI Agent、實時多模態對話式 AI 解決方案、RTE+AI 應用場景五個維度，清晰地呈現了當前 RTE 與 AI 相結合的技術能力與應用方案。 趙斌表示，生成式 AI 與 RTE 結合帶來的場景創新，也將成為下一個十年的主題。

以下內容基於趙斌演講全文整理：

感謝大家在金秋十月再次來到北京 RTE 大會的現場，與各位嘉賓、講師一起探討 RTE 行業的現狀和未來。尤其要感謝來參會的開發者、工程師、產品經理、創業者，在過去十年中，是你們與我們共同參與並見證了 RTE 行業波瀾壯闊的成長曆程。

在過去的十年裡，RTE 能力成為了顛覆眾多行業發展與成長的核心力量。 在社交泛娛樂領域， 湧現出了多家以實時音影片技術為底層能力的企業，它們開創了新的玩法、場景和商業服務，其中有不少已成功上市，使得 RTE 能力逐步廣泛應用並普及至全球市場。

在線上教育領域， 以 RTE 能力為支撐的 “線上課堂” 不僅曾是中國網際網路創業圈的熱門關注點，還為體制內教育 “三個課堂” 這一全國性政策提供了支援，並且在疫情期間發揮了不可或缺的作用。

在 IoT 領域， 也出現了許多依託 RTE 能力而實現的新產品，例如兒童手錶。VR/AR 裝置進化中，RTE 也賦能了眾多高價值功能。

在企業服務領域， 從金融業的雙錄面簽到產業遠端巡檢巡查、生產現場指導協同，以及快遞站點和排程中心的實時協同等場景，各行業都在透過 RTE 能力深度改造經營方式。

過去十年，大家熟知的網際網路風口也有很多離不開 RTE 能力的賦能和參與。 社交泛娛樂、線上教育等行業的創業風口，電商直播對電商行業格局的改變等等，其中很多都和實時互動能力的使用和進化有不可分割的關係。如今，在大模型和生成式 AI 時代，也將伴隨 RTE 能力的輔助與賦能走向成熟和應用。

生成式 AI 時代 IT 行業四大變革趨勢

過去一年，透過與大模型以及 IT 行業同行、合作伙伴進行深入的探討與交流，我們逐漸釐清了生成式 AI 能力將會如何改造和影響未來十年甚至二十年 IT 行業進化的途徑與方法，並總結出了四大趨勢，這些趨勢將會決定並影響整個 IT 行業發展的程序。

趨勢一：終端的進化將以對大模型的能力支援為核心驅動。 在未來十到二十年，無論是 PC 還是智慧手機，必然會以 如何更好地支援大模型能力在端上的應用，以及推理能力的成熟和推理效能的提升為主要進化軸線。

趨勢二：所有的軟體都可以且將會透過大模型重新實現。 僅僅在現有軟體中運用大模型能力進行小改進和補充是遠遠不夠的，而是要以大模型能力為核心，重新思考每個領域的軟體應如何設計、如何實現，以及最終會有怎樣的使用體驗和效果。 這便是從 “ Software with AI ” 到 “ AI Native Software ” 的根本轉變，也將改變行業的技術框架和技術能力進化方式。

趨勢三：所有的雲都需要具備對大模型的訓練和推理能力。 大模型出現後，對於雲服務而言， 在早期提出的三個基本能力之外，GPU 算力必然成為第四個關鍵能力。 沒有這一能力，就很難成為一個真正意義上的大規模公有云服務。

趨勢四：人機介面從鍵盤、滑鼠、觸屏轉變為自然語言對話介面（LUI）。 自計算機出現的第一天起，人機介面就是一個持續進化的話題。從視窗卡片，到鍵盤滑鼠，以及當下最主流的觸屏，都不如幾十年前科幻小說中就開始提出的自然語言人機對話介面更為易用、高效。多模態對話式智慧體（Agent）的出現，已經滲透到 IoT 裝置以及電腦、手機的各種軟體中，也將極快地改變這些裝置中人機介面的使用體驗。

以上四個趨勢定義了下個時代 IT 進化的主題，也將成為 IT 進化的核心驅動力。在這樣的時代背景下，我們認為生成式 AI 將會一如既往地助力 RTE 能力的進化與普及，同時生成式 AI 也將藉助 RTE 能力以及 RTE 應用的廣度與深度來進化自身。

我們對生成式 AI 的未來發展有兩個方向性的總結：

其一，向多模態深度進化。 目前，文字所能提供的訓練資料已基本被充分利用。語言作為聲音化的文字，所提供的資訊和資料空間將會被放大很多倍。同時，自然環境聲音和視覺資料的獲取與運用，也將為大模型提供幾乎無限的資料空間，進一步滿足大模型智慧進化的資料需求。

其二，多步推理。 無論是思維鏈（CoT）還是多 Agent 協同的方式，都為依託推理引擎完成具有高智慧、高複雜度的現實任務提供了清晰的機會。這必然會成為一個重要的發展方向，從而實現利用大模型完成許多人完成起來都頗具挑戰的任務。狹義的通用人工智慧（AGI）有望在未來幾年內透過多步推理的方式迅速變為現實。

迴歸到生成式 AI 未來發展的兩大方向與 RTE 之間的關係。多模態大模型已逐步進化到能夠提供高度擬人化的聽、說、看、寫能力。 透過與多個行業夥伴的打磨和深度實驗，我們發現多模態對話體驗存在兩個關鍵側面：

第一，是聲音體驗， 包括延遲、語氣、情感、情緒、口音等，都是大模型參與人機對話時體驗感知和評價的關鍵角度。

第二，人與 AI Agent 對話時，最核心的互動體驗就是打斷。 如果在對話過程中打斷體驗不自然，出現搶話或者不知道如何順利開展下一段對話的情況，就會對多模態大模型的實用化產生嚴重影響和阻礙。

為了解決這一問題，我們發現現有 RTC 技術棧和基礎設施有大量改進空間。只有透過改進，大模型才有機會在各種場景、形態、模型下大規模參與到和人的語言對話中，參與的來源也是從雲到端再到更低延遲的邊緣進行的。基於這些能力的改進和普及，未來 RTE 必將成為生成式 AI 時代 AI 基礎設施（AI Infra）的關鍵部分。

很多智慧都涉及所在領域的專業知識和資訊，在完成複雜任務時，這些專業資訊和知識可能由於隱私、資料權屬、財產保密等原因，分佈在雲邊端的各個部分。當它們協同完成任務時，其中連線的延遲降低和可用性的穩定保障就成了一個關鍵需求。 實時互動領域的軟體定義實時網 SD-RTN™，對傳輸質量的保證以及穩定可靠的支援，將是其中必不可少的能力保障。

10 月初，聲網兄弟公司 Agora 作為語音 API 合作者，出現在了 OpenAI 釋出的 Realtime API 公開測試版中。同時，我們也很高興地宣佈， 聲網與 MiniMax 正在打磨國內第一個 Realtime API，這裡給大家放個彩蛋。讓我們一起期待接下來 MiniMax 的正式釋出。

Beyond GenAI 更多進化與商業價值

生成式 AI 固然是宏大時代潮流中最重大的趨勢之一，但絕非全部， 還有更多 IT 技術和產業進化在推動 RTE 行業發展，不斷提供新的商業價值。

值得一提的是，去年 Apple Vision Pro 正式釋出 ，儘管行業第一手體驗反饋褒貶不一，但我們認為它依舊實現了實時互動領域的重大邊界擴充。
\
Immersive Video 在人的視覺體驗上展現了全新的潛力，具備接近全息視覺體驗的能力，給人所建立的真實感遠遠超越上一代 VR 裝置。這種新的媒體形式也是未來創造 “如聚一堂” 互動感覺的基礎，這些進展著實令人激動。

我們很高興在行業內率先推出 支援 Vision Pro OS 的 SDK ，與客戶和開發者共同創造眾多有趣的場景。例如 InSpaze，便是利用裝置新能力開展社交的一次極有意義的探索。

隨著疫情的消退， WebRTC 需求 雖曾有明顯下降，但在 2023 年迴歸穩定且呈現穩中有升的狀態，整體用量是疫情前的四倍。

WebRTC 開源專案 過去一年的進化主要體現在一些具體能力點上，包括 AI 噪聲消除、AI 語音增強、支援 AV1 以及適配 AI Insertable Streams。

社交出海持續升溫， 核心區域的影片社交增長超過一倍。1V1、秀場直播、語聊房是最受青睞的三個社交出海場景；用量最大的區域為東南亞、中東和印度；增長最快的三大區域分別是東南亞、中東和南美地區。

2024 年是體育賽事大年，這也促使體育賽事直播應用不斷進化。 資料顯示，本屆奧運會相比上屆，透過手機和智慧裝置觀看直播的數量大幅提升。我們支援的雲演播廳場景，可以實現更低的卡頓率、延遲，擁有更好的互動體驗和易用性。

在自動駕駛領域， RTE 技術不僅應用於 Robotaxi 這種自動駕駛計程車上，在各種功能性車輛上的應用也在加速落地，甚至比 Robotaxi 更快。

遊戲大作的出現持續推動遊戲社群和遊戲開黑使用場景的成長。 “黑神話：悟空” 的推出使得遊戲開黑業務呈現爆發式增長。

在全球市場上，許多被 AI 影響和改造的新場景和新案例也在持續演進。 例如，利用 AI 能力進行影片風格化處理，可以將影片改造成卡通等各種風格；AI 呼叫中心，由於多模態和大模型智慧的進化，也開始加速替代人工客服；AI 智慧嬰兒監護，除了過去的聽得見和看得見之外，AI 也在嘗試解讀嬰兒的哭聲究竟代表何種需求。

在更多領域，如高階酒店管家、線上劇本殺、虛擬主播等等，都是大模型和多模態能力進化帶來的令人感到豐富多彩、耳目一新的創新。

RTE 產品也正朝著更加專業化的方向邁進。 近期，我們推出了面向實時互動的 Status Page。它提供了電信級的質量保證，擁有分鐘級更新質量保證狀態的能力。同時，針對實時互動對話體驗，無論是卡頓還是延遲，都能提供更為細緻且清晰的指標。我們期望將這樣的 Status Page 透明給所有開發者和客戶，以便為大家更好地提供對實時互動服務狀態和能力的感知。

AI+RTE 推動各行業場景創新與成熟

生成式 AI 技術正在結合新的專業能力滲透到各個場景，創造新場景、加速場景成熟以及降低生成場景的成本。

社交泛娛樂領域， 過去一年 AI 寵物突然變成一個新的有趣玩法。

線上教育領域，生成式 AI 技術讓原本很難、很貴的服務，變得算力化和平民化。 例如 AI 題庫 幾乎變成所有大模型都有的知識，降低了利用題庫開展教育服務的門檻；AI 口語教學中， 多模態大模型在語言能力上，已經完全可以替代傳統口語老師，無論發音、語法、還是用詞表達等方面都表現的不錯；

AI 答疑老師 基本也可以做到隨叫隨到，結合多模態能力，做到與真實答疑老師能力相當，甚至更有耐心。語言翻譯能力 也隨著我們 RTT 實時翻譯產品功能的釋出成為觸手可及的能力，當前這一能力的使用價值仍然被遠遠低估。

AI 多語言交流， 正在打破全球語言障礙，成為推進全球化的新方式。

IoT 領域 最值得關注的是大模型能力帶來的對話機器人的實用化，不僅更容易理解意圖，而是能夠提供實質性、資訊量豐富、且擁有高度智慧的答案。預計未來一年左右的時間，大家就會感受到各種對話機器人場景的實用性進化。

可穿戴裝置 利用生成式 AI 能力成為爆品，比如 Meta 智慧眼鏡憑藉提供 LLAMA3 支援的對話能力，至少賣了 300 萬副。

具身智慧機器人 也逐漸在 AI 推動下成為現實，已經沒有什麼障礙可以妨礙機器人走路和生活。

AI 客服正在實質性地替代人工客服， 已經不只一家創業公司在大規模採用 AI 客服，最讓人感到驚訝的是，不僅節省了人工客服成本，也提升了客服滿意度，這裡面有很多值得關注的進化潛力。

會議場景上， 我們的 aPaaS 產品靈動會議已經把實時字幕、實時翻譯和智慧會議紀要完全做在模板裡，任何做會議協同甚至社交場景的開發者和創業者，都可以利用這一能力簡單打破語言障礙。

AI 對新場景的催化也讓人大開眼界，例如現在智慧眼鏡對環境的理解、認知，結合地理位置和自然對話能力已經完全可以取代導盲犬，甚至更好用，這些都開創了以前從未有過的機會。

生成式 AI 的確為我們展現了無限的想象空間與諸多可能性，然而，生成式 AI 應用的開發同時也面臨著諸多挑戰。

首先，基礎大模型和 AI 應用之間的邊界是在哪裡？ 過去一年，包括 Inflection、CharacterAI 以及很多估值 10 億美元以上的公司被收購，Perplexity 的搜尋創新，也遭到了大模型公司和以搜尋為主業的公司的強烈挑戰。那麼，究竟哪些應用才真正屬於創業者的機會呢？我們認為，只有與垂直應用所在的領域結合得越深，壁壘才會越高，應用開發者也才越有機會。

其次，應用開發的架構與機制尚不明晰。 在當下這個時代，將大模型能力視作推理引擎或者知識庫，如何在此基礎上進行應用領域的知識推理和服務，仍然是一個處於探索階段的話題。LangChain、RAG、SWARM 等框架僅僅是一種思路，雖然可以提供一定能力的支援，但還不夠成熟、不夠完備，更不用說易用性了，這些框架自身不斷變化的現象恰恰反映出其不成熟和不確定的特點。

RTE 10 年在場景創新中一路走來

過去的十年，是 RTE 行業從無到有逐步崛起的十年。十年前，RTE 行業處於 “三無狀態”，既無行業會議，又無專業書籍，也無專業媒體和社群，而如今這些都已逐步建立起來。

在這十年的大會中，有超過 2000 位來自各領域的專家、講師參與分享，累計超過 4 萬人次的參會者親臨現場交流，累計影響的開發者超過 200 萬。

今年，我們非常高興地推出了 行業首本系統介紹實時互動的技術型科普圖書《讀懂實時互動》 。透過這本書，讀者能夠窺探到過去十年實時互動領域發展的關鍵節點以及其中的規律、脈絡和未來的可能性。

RTE 開發者社群始終是過去十年 RTE 行業成長的主旋律。 我們欣喜地看到當下各個開發者專案之間的技術交流與互動達到了極為高頻和活躍的狀態。透過 RTE 開發者社群，我們與大家共同打造一個技術共建、產品加速、交流連線的平臺，與各個開發者一同把社群建設得更加繁榮。

十年征程，RTE 已從一個理念發展成為一個行業。然而，在如今的生成式 AI 時代，我們覺得所有過往都僅僅是未來的序章。憑藉著 RTE 與 AI 能力結合的廣闊前景，我們有理由期待下一個更加波瀾壯闊、激動人心的十年。 希望在未來的發展程序中，我們能繼續與大家攜手共進，開創生成式 AI 時代下 RTE 的嶄新篇章。

這些實時互動 AI 場景正在湧現生長，也預示著多模態 AI 的未來｜RTE2024 聲網 CEO 趙斌演講實錄

生成式 AI 時代 IT 行業四大變革趨勢

Beyond GenAI 更多進化與商業價值

AI+RTE 推動各行業場景創新與成熟

RTE 10 年 在場景創新中一路走來

相關文章

RTE 10 年在場景創新中一路走來