影片版IC-Light來了!Light-A-Video提出漸進式光照融合,免訓練一鍵影片重打光

机器之心發表於2025-02-20
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文作者來自於上海交通大學,中國科學技術大學以及上海人工智慧實驗室等。其中第一作者周彧傑為上海交通大學二年級博士生,師從牛力副教授。

圖片
數字化時代,影片內容的創作與編輯需求日益增長。從電影製作到社交媒體,高質量的影片編輯技術成為了行業的核心競爭力之一。然而,影片重打光(video relighting)—— 即對影片中的光照條件進行調整和最佳化,一直是這一領域的技術瓶頸。傳統的影片重打光方法面臨著高昂的訓練成本和資料稀缺的雙重挑戰,導致其難以廣泛應用。

如今,這一難題終於迎來了突破 —— 由上海交通大學以及上海人工智慧實驗室聯合研發的 Light-A-Video 技術,為影片重打光帶來了全新的解決方案。
圖片
  • 論文地址:https://arxiv.org/abs/2502.08590

  • 專案主頁:https://bujiazi.github.io/light-a-video.github.io/

  • 程式碼地址:https://github.com/bcmi/Light-A-Video

無需訓練,零樣本實現影片重打光

Light-A-Video 是一種無需訓練的影片重打光方法,能夠在沒有任何訓練或最佳化的情況下,生成高質量、時序一致的重打光影片。這一技術的核心在於充分利用預訓練的影像重打光模型(如 IC-Light)和影片擴散模型(如 AnimateDiff 和 CogVideoX),透過創新的 Consistent Light Attention(CLA)模組和 Progressive Light Fusion(PLF)策略,針對影片內容的光照變化進行了一致性的最佳化,實現了對影片序列的零樣本(zero-shot)光照控制。

其優勢在於:

1. 無需訓練,高效實現影片重打光:Light-A-Video 是首個無需訓練的影片重打光模型,能夠直接利用預訓練的影像重打光模型(如 IC-Light)的能力,生成高質量且時間連貫的重打光影片。這種方法避免了傳統影片重打光方法中高昂的訓練成本和資料稀缺的問題,顯著提高了影片重打光的效率和擴充套件性。

2. 創新的端到端流程,確保光照穩定性與時序一致性:CLA 模組透過增強跨幀互動,穩定背景光源的生成,減少因光照不一致導致的閃爍問題。PLF 透過漸進式光照融合策略,逐步注入光照資訊,確保生成影片外觀的時間連貫性。

3. 廣泛的適用性與靈活性:Light-A-Video 不僅支援對完整輸入影片的重打光,還可以對輸入的前景序列進行重打光,並生成與文字描述相符的背景。而且不依賴於特定的影片擴散模型,因此與多種流行的影片生成框架(如 AnimateDiff、CogVideoX 和 LTX-Video)具有高度的相容性。

CLA + PLF
確保光照一致性與穩定性

Light-A-Video 核心技術包括兩個關鍵模組:Consistent Light Attention 和 Progressive Light Fusion。CLA 模組透過增強自注意力層中的跨幀互動,穩定背景光照源的生成。它引入了一種雙重注意力融合策略,一方面保留原始幀的高頻細節,另一方面透過時間維度的平均處理,減少光照源的高頻抖動,從而實現穩定的光照效果。實驗表明,CLA 模組顯著提高了影片重打光的穩定性,減少了因光照不一致導致的閃爍問題。
圖片
PLF 策略則進一步提升了影片外觀的穩定性。它基於光傳輸理論的光照線性融合特性,透過逐步混合的方式,將重打光外觀與原始影片外觀進行融合。在影片擴散模型的去噪過程中,PLF 策略逐步引導影片向目標光照方向過渡,確保了時間連貫性。這種漸進式的光照融合方法不僅保留了原始影片的細節,還實現了平滑的光照過渡。
圖片
Light-A-Video 整體架構設計
圖片
1. 利用影片擴散模型的時序先驗,將原始影片加噪到對應的步數後進行去噪。在每一步的去噪過程中,提取其預測的原始去噪目標圖片並新增上對應的影片細節補償項作為當前步的一致性目標 圖片

2. 將 圖片 輸入圖片重打光模型(IC-Light),並利用 CLA 的雙流注意力模組進行逐幀重打光,實現穩定的背景光源生成,作為當前步的重打光的目標圖片

3. 在預測下一步的圖片時,先利用 VAE 編解碼器將圖片圖片從潛層編碼空間解碼到影片畫素層面。然後透過引入一個漸進式隨時間步下降的引數圖片將兩個目標進行線性外觀混合後,重新編碼到潛層編碼空間獲取混合目標圖片。即 PLF 策略利用混合目標圖片引導生成單步的重打光結果圖片

當影片完全去噪後,Light-A-Video 能夠獲得時序穩定且光照一致的重打光影片。

高質量、時間連貫的重光照效果
圖片
為了驗證 Light-A-Video 的有效性,研究團隊基於 DAVIS 和 Pixabay 公開資料集上構建了其測試資料集。實驗結果表明,Light-A-Video 在多個評估指標上均優於現有的基準方法,尤其在動作保留方面,該方法在保證原影片外觀內容的基礎上實現了高質量的重打光效果。
圖片
另外,Light-A-Video 能夠在僅提供前景序列的情況下,實現背景生成和重打光的並行處理。

未來展望:動態光照與更廣泛應用

之後,Light-A-Video 將致力於有效地處理動態光照條件,進一步提升影片重打光的靈活性與適應性。這一創新技術的出現,已然為影片編輯領域注入了全新思路。隨著技術的持續發展與最佳化,我們有理由相信,Light-A-Video 必將在更廣泛的領域大放異彩,為影片內容創作開闢更多可能性。

相關文章