腦機介面、嵌入式 AI 、工業級 MR、空間影片和下一代 XR 瀏覽器丨 RTE2024 空間計算和新硬體專場回顧

RTE开发者社区發表於2024-11-12

這一輪硬體創新由 AI 引爆,或許最大受益者仍是 AI,因為只有硬體才能為 AI 直接獲取最真實世界的資料。

在人工智慧與硬體融合的新時代,實時互動技術正迎來前所未有的創新浪潮。從嵌入式系統到混合現實,從空間影片到腦機介面,這些前沿領域正以驚人的速度推進,為未來的人機互動描繪出令人振奮的藍圖。在本屆 RTE2024 大會上,來自產業界和學術界的多位專家深入探討了這些技術的最新進展及其潛在應用。

閃極科技 CTO 周萬程、聲網影片工程師許振明、螢火空間創始人邵鵬、姬械機科技聯合創始人盧樹強以及 Rokid 前端工程師劉亞中等分享了他們在各自領域的研究成果和獨到見解。

果殼創始人、未來光錐基金創始合夥人姬十三主持了主題分享和圓桌討論環節。

周萬程:有限硬體資源下嵌入式系統的 AI 實時音訊演算法

閃極科技 CTO 周萬程 在分享中深入探討了在嵌入式系統中實現 AI 實時音訊演算法的挑戰與解決方案。他結合自己在電路與系統領域的背景,生動闡述了 「沒有嵌入式,AI 則無翅」 這一觀點。

隨著 AI 技術的爆發式發展,如何將先進的 AI 功能部署到輕量級的邊緣計算平臺上,成為提升使用者體驗的關鍵技術。然而,嵌入式系統面臨著處理能力、記憶體和功耗等硬體資源的嚴格限制。

針對這些限制,周萬程提出了三個最佳化方向:

1、降低演算法複雜度: 透過量化、減枝和低秩近似等技術,顯著降低計算量。

2、資料最佳化: 利用多級快取、資料預取和動態快取等策略,提高資料訪問效率。

3、硬體支援: 充分利用 DSP、ASIC 和 FPGA 等硬體加速單元。

展望未來,周萬程認為 NPUFPGA 的可重構特性將為嵌入式 AI 帶來巨大機遇。他強調,嵌入式系統中的機器學習將成為推動 AI 發展的重要力量,因為它們能直接接觸到真實世界的資料。

許振明:空間影片在 RTC 直播中的應用探索

許振明 分享了聲網團隊在空間影片技術方面的最新探索,重點介紹瞭如何將空間影片應用於實時互動直播中。

要在 RTC 中實現空間影片,必須解決三個關鍵問題:3D 內容的生產、傳輸和渲染顯示。

在內容生產方面,iPhone 15 Pro 的雙攝像頭設計使得消費級裝置能夠採集空間影片成為可能。此外,AI 生成的影片,如 SORA,也可以透過時間偏移技術模擬雙目效果。

在傳輸方面,採用 Multi-view 編碼技術可以節省超過 30% 的位元速率。與此同時,還需要考慮網路抖動、FEC 保護等 RTC 特有的問題。

渲染顯示 是最具挑戰的環節。為了實現流暢的空間影片體驗,每隻眼睛至少需要 1080p 30fps,理想情況下是 4K 60fps。這對渲染效能和系統排程精度提出了很高要求。聲網透過多種最佳化手段來保證渲染質量。

許振明表示,聲網提供了靈活的 API,開發者可以根據需求選擇使用聲網的採集、編解碼、傳輸等能力。除了空間影片,聲網還提供 空間音訊、AI 降噪、Persona 等多項技術,支援更沉浸式的 RTC 體驗。

邵鵬:混合現實 MR 和空間計算的未來與挑戰

蘇州螢火空間創始人兼 CTO 邵鵬 首先介紹了混合現實(MR)的概念,稱其為擴增實境(AR)的升級分支。MR 裝置可以讓使用者同時看到真實世界和虛擬內容,並實現虛擬與現實的無縫融合和互動。他進一步詳細解釋了空間計算的不同層次,從 0 自由度(DOF)到 6DOF 再到 SLAM,每一層級都要求更復雜的硬體和演算法支援。

在技術細節方面,邵鵬強調了實現高質量 MR 體驗所面臨的挑戰,包括 穩定的空間演算法、明亮的實景顯示、清晰的 RGB 顯示以及較大的視場角(FOV)。他預測,真正的消費級 MR 眼鏡可能要到 2030 至 2035 年才能問世,這將需要在重量、續航、建模能力等多個方面達到高水平。

面對這些挑戰,邵鵬提出了將計算任務上雲的解決方案,認為這一策略可以使本地裝置更加輕便,並大大延長續航時間。然而,他也指出,這種趨勢可能對國內硬體廠商構成威脅,並呼籲加強對 SLAM空間計算的研究,以在未來的技術浪潮中保持競爭力。

最後,邵鵬展示了螢火空間的產品,介紹了其能夠實時快速建立空間模型,並支援遠端專家進行空間標註和指導的功能。他認為這種技術在遠端協作培訓等領域具有廣闊的應用前景。

盧樹強:腦機介面與俱身智慧計算體系的前沿探索

姬械機科技聯合創始人盧樹強開門見山地解釋道,「腦機介面本質上屬於智慧硬體,它是對大腦訊號的採集與計算,並透過與外界裝置或環境的互動來實現功能。」他進一步將腦機介面技術分為兩類:侵入式(需要開顱)和非侵入式(皮膚外接觸)。雖然這項技術在日常生活中尚不普及,但其巨大的潛力令人期待。

俱身智慧 的主要體系可以分為兩大類:一類是透過視覺感測器進行環境理解和任務執行;另一類是透過智慧穿戴裝置(包括腦機介面)來捕捉人體資訊,用於訓練人形機器人。

在介紹計算體系時,盧樹強詳細闡述了從資料採集、處理到重建、生成的完整流程。「與 VR、XR 技術不同,我們面對的是 多元高維度的資料,」他強調道,「這就要求我們具備高精度、高取樣率的感測器,以及複雜的降噪和特徵識別演算法。」

劉亞中:多維沉浸,探索 XR 中的 Web 內容新體驗

Rokid 前端工程師劉亞中介紹了 JSAR——一個創新的 Web XR 執行時與瀏覽器,旨在解決當前 Web XR 內容在 XR 空間中面臨的兩大挑戰:

應用形態的限制: 目前,Web XR 內容在 XR 裝置上只能選擇呈現為平面網頁或獨佔的 3D 場景,無法同時存在,這大大限制了 Web XR 的使用場景和體驗。

3D 場景中的 UI 開發複雜性: 與傳統的 2D 網頁相比,在 Web XR 中開發簡單的 UI 元件需要大量程式碼,這對開發者非常不友好。

為了解決這兩個問題,劉亞中和團隊開發了 JSAR。JSAR 使得 Web XR 應用能夠與其他 2D 和 3D 應用並存,並簡化了 3D 場景中的 UI 開發。透過深度緩衝等技術,JSAR 實現了 Web XR 內容與 Unity 等遊戲引擎渲染的無縫整合。

JSAR 的架構設計: 每個 Web XR 應用都是一個獨立程序,透過客戶端與 Unity 程序通訊。這不僅實現了多個應用的共存,還引入了空間音訊等優勢。

未來展望:JSAR 將擴充套件更多功能,包括支援執行 HTML、傳統 2D 網頁等,成為真正的下一代 XR 瀏覽器。

圓桌討論:下一代計算平臺的模樣

在主題是「下一代計算平臺的模樣」的圓桌討論中,來自「未來光錐前沿基金」的姬十三擔任主持人,參與討論的嘉賓包括周萬程、許振明、邵鵬、盧樹強和劉亞中。

談及 Apple Vision Pro 的未來, 嘉賓們普遍認為儘管存在一些侷限性,但這款產品為整個行業樹立了新的標杆。盧樹強觀察到 Vision Pro 在遊戲開發和個人使用方面的需求正在增長。許振明補充道,即便 Vision Pro 停產,它對行業的影響也已經深遠。

在 AI 與硬體結合的話題上, 周萬程強調了 反思型 AI 的重要性,認為未來 AI 應該能夠根據使用者的反饋不斷改進。邵鵬從混合現實的角度出發,指出大語言模型、影像識別和 3D 模型理解將極大提升 MR 裝置 的互動能力和應用場景。盧樹強則預測,AI 在未來兩三年內將主要提供基礎資訊服務,而在更遠的未來,可能會實現 任務和操作 層面的服務。劉亞中則提出,大語言模型使得使用者 不再依賴傳統的網址輸入 ,而是透過 AI 自動為其選擇和提供相應服務,極大提升了使用體驗。

關於下一代計算平臺 , 專家們提出了多元化的觀點。盧樹強認為 人形機器人 可能成為重要的計算平臺,預計在十年內可能出現雛形。許振明則看好 汽車作為潛在的計算中心 ,特別是在自動駕駛領域。邵鵬堅持認為 雲端計算 仍將是主要的計算平臺,但 AR/MR/VR 裝置可能成為重要的人機互動介面。周萬程提出 未來的計算可能是分散式的, 利用閒置的裝置資源進行邊緣計算。劉亞中則認為,AI 可能會引發硬體革命,使用者們將能夠 自行開發新的硬體 來滿足他們的需求。

「無所不在的計算:空間計算和新硬體」技術專場由 RTE 開發者社群和未來光錐前沿基金聯合出品。

RTE 開發者社群是聚焦實時互動領域的開發者社群。希望透過社群連結領域內的開發者和生態力量,萌芽更多新技術、新場景,探索實時互動領域的更多可能。這裡你將遇見一群致力於改變人和人、人和世界,以及人和 AI 連線方式的開發者。

「未來光錐」是由果殼發起的科創品牌,致力於推動科研端與產業端相互融合,促進科技成果的高效轉化。

相關文章