「人眼視覺不再是影片消費的唯一形式」丨智慧編解碼和 AI 影片生成專場回顧 @RTE2024

你是否想過，未來你看到的電影預告片、廣告，甚至新聞報導，都可能完全由 AI 生成？

在人工智慧迅猛發展的今天，影片技術正經歷著一場前所未有的變革。從智慧編解碼到虛擬數字人，再到 AI 驅動的影片生成，這一領域的創新正以驚人的速度推進。這些進步不僅提升了技術指標，更為實時互動、內容創作、廣告營銷等場景帶來了全新的可能性。

在本屆 RTE2024 實時網際網路大會上，來自學界和業界的多位專家深入探討了影片 AI 技術的最新進展。阿里巴巴達摩院的陳建華、聲網的周世付、鵬城實驗室的林榮群、雙深科技的曹磊、生數科技的張旭東等行業專家分享了他們的研究成果和洞見。

北京大學的馬思偉教授和聲網影片編解碼負責人戴偉分別主持了主題分享和圓桌討論環節。

林榮群：AI 時代下的智慧影片編解碼新思路

鵬城實驗室的林榮群博士以一個問題開篇：「如果影片內容全部由 AI 生成，我們該如何進行編碼？」

林博士首先回顧了影片編碼的發展歷程，從早期以人眼感知為導向的保真度指標，到注重商業評級的階段，再到如今 AI 時代對智慧任務的需求，影片編碼的目標不斷演變。他指出，未來的智慧編碼不僅要滿足人類視覺體驗，更要服務於機器識別、檢測等 AI 任務。

在介紹智慧編碼技術時，林博士強調了兩個關鍵點：智慧作為工具，提升我們對編碼物件的理解；智慧作為目標，服務於下游智慧應用。他認為，智慧編碼的核心挑戰在於對場景和物件進行結構化表示。「深入理解壓縮物件，才能大幅提升壓縮效率。」林博士解釋道。

林博士隨後詳細介紹了幾種智慧編碼的技術路線，包括傳統編碼與深度學習的融合、全神經網路框架以及生成式編碼。他還特別介紹了鵬城實驗室在文生影片大模型領域的實踐，展示了團隊基於國產框架和算力平臺的最新成果。

展望未來發展方向，林博士提出了幾個關鍵點：資料處理的重要性、演算法最佳化、模型輕量化以及推理和取樣速度的提升。

周世付：虛擬數字人的發展趨勢與技術突破

聲網人工智慧演算法負責人周世付首先介紹了虛擬數字人的基本概念，指出它是存在於數字空間中，擁有近似真人或卡通人物外貌、行為和特質的角色。一個成功的虛擬數字人需要兼具「好看的皮囊和有趣的靈魂」。

他將虛擬數字人的製作流程概括為三個階段：建模、驅動和互動。建模階段利用 AI 技術為特定人物建立模型；驅動階段運用計算機視覺技術，賦予模型動態的表情和動作；最後，藉助大語言模型，實現與虛擬數字人的自然流暢的互動。

展望未來，周世付認為虛擬數字人的發展將呈現四大趨勢：

3D 智慧數字人：3D 形式將成為主流，結合大語言模型實現更高階的智慧化。
實時互動：傳輸表情引數而非影像畫素，依靠終端裝置重建數字人形象，實現低延遲、高流暢度的互動體驗。
虛實融合：將數字人融入虛擬空間，增強沉浸式互動體驗。
低成本應用：透過技術進步降低計算量和成本，推動數字人在更廣泛的場景中應用。

陳建華：新一代影片編解碼標準 VVC 的機遇與挑戰

阿里巴巴達摩院高階演算法專家陳建華從一線研發和應用的角度，深入剖析了 VVC（Versatile Video Coding）標準在實際落地過程中的關鍵問題。

關於 VVC 標準釋出四年多來的發展現狀，陳建華介紹說，支援 VVC 硬體的晶片正逐漸增多，包括聯發科（MediaTek）、瑞昱（RealTek）等廠商均已釋出相關產品。基於這些晶片，市場上已經出現了超過 100 款支援 VVC 的智慧電視、機頂盒等裝置。在軟體生態方面，除了標準參考軟體 VTM 之外，多個開源編解碼器和播放器也已支援 VVC，為開發者提供了豐富的學習和研究資源。

以達摩院自研的 DAMO 266 為例，陳建華介紹了他們在軟體解碼器最佳化方面的創新成果。透過異構計算技術，將關鍵演算法遷移到 DSP 等單元，顯著降低了功耗，使 VVC 軟解碼在移動端的效能已接近 H.265 硬解碼水平。這不僅擴充套件了 VVC 的裝置覆蓋範圍，也為其大規模應用掃清了障礙。

曹磊：AI Codec 將引領影片編解碼技術革新

雙深科技 CEO 曹磊指出，在影像和影片大爆發的時代，提升編解碼效能是實現降本增效的關鍵手段。AI 正在計算機視覺領域發揮越來越重要的作用，貫穿從成像到應用的整個過程。如果編解碼也能融入 AI，整個流程將更加智慧化。

曹磊指出，傳統編解碼技術發展到 H.266 後，提升空間已趨於平緩，且編碼複雜度高，落地困難。相比之下，AI Codec 基於深度學習的端到端編碼，能更好地表達細微特徵，擁有更大的發展潛力。他引用了團隊最新的研究成果，表明他們研發的 ANF 基礎模型在平均資料序列上，相比 H.266 的參考軟體 VTM，壓縮率提升了約 25%，超越了 DCVC 等現有方案。同時，他還介紹了 IEEE 1857.11 HIV 標準，其中雙深科技貢獻了一項高效的並行熵編碼核心專利。

曹磊重點分享了 AI Codec 在移動端落地的實踐。為了實現落地，團隊致力於模型輕量化，包括模型剪枝、蒸餾和量化等，並在運算元定製化部署上投入了大量精力，以適應不同型號的手機 NPU。

張旭東：AI 影片生成技術的飛躍與實踐

生數科技產品總監張旭東分享了 AI 影片生成技術的最新進展。他帶領的團隊深耕多模態大模型領域多年，親歷了從 GPT-3 到 ChatGPT 的技術變革，以及從影像生成到影片生成的跨越式發展。

張旭東回顧了團隊在影片生成領域的探索歷程。早在 2022 年，他們就提出了 U-ViT 框架，這一架構與後來備受矚目的 Sora 有著諸多相似之處，其核心優勢在於能夠進行連續預測，從而獲得更佳的一致性和效果。

生數科技的影片生成模型在實踐中展現出多項顯著優勢：

強大的語義理解能力：能夠精準捕捉複雜的場景描述。
多鏡頭語言支援：實現鏡頭間的流暢過渡。
極致的推理速度：僅需 30 秒即可生成一段影片。
出色的一致性表現：在不同場景中保持人物形象、動物特徵等元素的一致性。
參考影像支援：可以根據提供的商品圖、人物照片等生成相關影片。

這些特性賦予 AI 生成影片在廣告製作、影視宣發等領域巨大的應用潛力。張旭東以動畫電影《熊貓呼呼》和科幻電影《毒液》的宣傳影片為例，展示了 AI 技術如何將原本 1-2 天的製作週期壓縮至 3 小時內，極大地提升了效率。

圓桌討論：影片生成的 ChatGPT 時刻何時到來？

在主題是「影片生成的 ChatGPT 時刻何時到來」的圓桌討論中，聲網影片編解碼負責人戴偉擔任主持人，邀請了包括始智 AI wisemodel 創始人劉道全、聲網人工智慧演算法負責人周世付、生數科技聯合創始人張旭東以及學界代表馬思偉教授等嘉賓參與討論。

劉道全認為，真正的「影片生成的 ChatGPT 時刻」需要融合影像、文字和語音等多種模態，生成完整的影片。目前的難點在於 多模態融合 ，但隨著 LLaMA-Omni 等音訊語言模型的出現，這種融合正在加速，未來可期。他還提到了始智 AI 在開源社群的貢獻，例如 Sora 復刻計劃，鼓勵大家共同探索。

張旭東則對未來充滿樂觀。他認為，從技術的可用性來看，影片生成已經不再像過去那樣生成不可用的內容，甚至已經與索尼等國際大 IP 達成合作，解決實際問題。但他指出，成本和滲透率仍然是制約因素 。目前單次影片生成的成本較高，限制了大規模應用。隨著算力提升和演算法最佳化，成本下降，滲透率將會提高，真正的「影片生成的 ChatGPT 時刻」也將到來。

周世付則從互動角度出發，認為 以語音互動為基礎 ，結合大語言模型和數字人，或許會更快地推動「影片生成的 ChatGPT 時刻」的到來。

馬思偉老師補充道，雖然影片生成面臨一致性、時長等技術挑戰，但從應用模式和技術發展來看，一些公司例如生數科技、智譜 AI 的 會員付費模式 ，既帶來了資金支援，也積累了訓練資料，形成了良性迴圈，推動著技術的進步。他樂觀地認為，2024 年或許可以視為「影片生成 ChatGPT 時刻」的開端。

當機器也開始「生產」和「觀看」影片，影片的意義將被重新定義。RTE2024 大會讓我們思考，在人眼視覺之外，影片還能為我們帶來什麼？在機器視覺的時代，影片技術又將如何發展？這些問題，或許正是未來影片技術探索的方向。