微軟亞洲研究院多模態模型NÜWA：以自然語言創造視覺內容

此前我們曾提出了一個問題：從文字指令碼生成創意視訊一共分幾步？微軟亞洲研究院的開放領域視訊生成預訓練模型給出了答案：只需一步。現在，我們追問：除了文字生成視訊之外，還有哪些途徑可以生成視訊？我們能否使用自然語言對視覺內容進行編輯？微軟亞洲研究院最新推出的多模態模型 NÜWA，不僅讓視覺內容創造多了一條路，甚至還讓 Windows 經典桌面有了更多的開啟方式。

人類對於資訊的感知有五種途徑，包括視覺、聽覺、嗅覺、觸覺和味覺，其中視覺是接受資訊的最主要渠道，也是創造力的源泉。在推動人工智慧發展的道路上，計算機視覺已經成為一個重要的研究領域，尤其是近幾年視覺創作類應用的頻繁湧現，讓創作變得越來越便捷，越來越多的使用者可以用這些工具製作和分享身邊的美好生活。與此同時，視覺類應用的廣泛使用也促進了計算機視覺領域的研究。

然而，儘管這些工具功能強大，但仍有不足之處：其一，它們需要創作者手動收集和處理視覺素材，導致現有的大規模視覺資料中所包含的視覺知識無法自動地有效利用。其二，這些工具往往是通過圖形介面與創作者互動，並非自然語言指令，因此對於一些使用者來說，具有一定的技術門檻，他們需要擁有豐富的使用經驗。在微軟亞洲研究院看來，下一代視覺化內容建立工具應該能夠利用大資料、AI 模型幫助使用者更便捷地進行內容創作，並使用自然語言作為更加友好的互動介面。

在這樣的理念下，微軟亞洲研究院在視訊生成預訓練模型的基礎上進行再創新，開發了多模態的 NÜWA（Neural visUal World creAtion）模型。通過自然語言指令，NÜWA 可以實現文字、影像、視訊之間的生成、轉換和編輯，幫助視覺內容創作者降低技術門檻，提高創造力。同時，開發者也可以利用 NÜWA 構建基於 AI 的視覺內容創造平臺。

支援八大視覺生成與編輯任務

NÜWA 目前支援八大視覺生成和編輯任務。其中，支援影像的四類任務包括：文字到影像，草圖到影像，影像補全，影像編輯；支援視訊的四類任務包括：文字到視訊，視訊草圖到視訊，視訊預測，視訊編輯。

下面，讓我們以 Windows 經典桌面為例，試一下 NÜWA 的幾個功能。（點選檢視更多 NÜWA 在八大任務中的效果）

給定一張原始圖片：

讓 NÜWA 將圖片補全為256x256（影像補全）：

讓 NÜWA 在圖片的紅框位置處新增“一匹在草地上行走的馬”（影像編輯）：

讓 NÜWA 將這張圖片生成為一個能“動”起來的視訊（視訊預測）：

憑“一己之力”完成多項視覺內容創造任務

NÜWA 模型提出了一種全新的 3D 編碼器-解碼器框架。編碼器可以支援包括文字、影像、視訊，或者草圖等多種不同的輸入條件，甚至是部分圖片或部分視訊，讓模型補全後續的視訊幀；解碼器則將這些輸入條件轉換為離散的視覺標記，根據訓練資料輸出影像、視訊內容。

在預訓練階段，研究員使用了自迴歸模型作為預訓練任務來訓練 NÜWA，其中 VQ-GAN 編碼器將影像和視訊轉換為相應的視覺標記，作為預訓練資料的一部分。在推理階段，VQ-GAN 解碼器會基於預測的離散視覺標記重建影像或視訊。

NÜWA 還引入了三維稀疏注意力（3D Nearby Attention，3DNA）機制來應對 3D 資料的特性，可同時支援編碼器和解碼器的稀疏關注。也就是說，在生成特定影像的一部分或者一個視訊幀時，NÜWA 不僅會看到已經生成的歷史資訊，還會關注與其條件所對應位置的資訊，比如，在由視訊草圖生成視訊的過程中，生成第二幀時，模型就會考慮第二幀草圖對應的位置是什麼，然後按照草圖的變化生成滿足草圖變化的視訊，這就是編碼器和解碼器的同時稀疏。而此前的工作通常只是一維或二維的稀疏關注，而且只在編碼器稀疏，或只在解碼器稀疏。通過使用 3DNA 機制，NÜWA 的計算複雜度得到了簡化，提升了計算效率。

圖1：NÜWA 基於 3D 編碼-解碼架構

為了支援文字、圖片、視訊這些多模態任務的建立，跨越不同領域資料的鴻溝，研究員採用了逐步訓練的方式，在預訓練中使用不同型別的訓練資料。首先訓練文字-圖片任務和圖片-視訊任務，待任務穩定後，再加入文字-視訊的資料進行聯合訓練，而且研究員們還使用了視訊完成任務，根據給定的部分視訊作為輸入生成後續視訊，使得 NÜWA 擁有強大的零樣本視覺內容生成與編輯能力，實現影像、視訊內容的增、刪、改操作，甚至可以對視訊的未來幀進行可控調整。

微軟亞洲研究院高階研究員段楠表示，“NÜWA 是第一個多模態預訓練模型。我們希望 NÜWA 可以實現真實世界的視訊生成，但在訓練過程中模型會產生大量的‘中間變數’，消耗巨大的視訊記憶體、計算等資源。因此，NÜWA 團隊與系統組的同事們聯手協作，為 NÜWA 在系統架構上設定了多種並行機制，如張量並行、管道並行和資料並行，使得我們的跨模態訓練成為可能。”

NÜWA 覆蓋了11個資料集和11種評估指標。在文字到影像生成的弗雷切特起始距離（Frechet Inception Distance, FID）指標上，NÜWA 的表現超過了 DALL-E 和 CogView，在視訊生成的 FVD 指標上超越了 CCVS，均取得了當前 SOTA 結果。其中，測試結果如下（點選檢視更多 NÜWA 在不同資料集和評估指標中的測試結果）：

表1：文字到影像任務測試結果

NÜWA-LIP：讓視覺編輯更精細

NÜWA 模型已基本包含了視覺創作的核心流程，可在一定程度上輔助創作者提升效率，但在實際創作中，創作者還有很多多樣且高質量的需求。為此，微軟亞洲研究院的研究員們在 NÜWA 的基礎之上更新迭代，於近日提出了NÜWA-LIP 模型，並且在視覺領域的典型任務——缺陷影像修復中取得了新突破。

儘管此前也有方法完成了類似的影像修復，但是模型的創作卻比較隨意，無法符合創作者的意願，而NÜWA LIP 幾乎可以按照給定的自然語言指令修復、補全成人們肉眼可接受的影像。下面，讓我們直觀感受一下 NÜWA-LIP 神奇的影像修復效果。

圖2：在影像編輯任務上，NÜWA-LIP 展現出優秀的效能

圖2給出了兩個例子。第一個例子是希望模型可以按照“Racers riding four wheelers while a crowd watches”（一群人在看摩托車手騎四輪車）來補全黑色區域。已有工作 GLIDE 雖然可以補全，但是可以看到邊界處有明顯的白線，並且補全的區域比較模糊。NÜWA 模型使用自迴歸的方式從左到右依次掃描生成，邊界處相比於 GLIDE 更加自然。但是由於在補全黑色區域時看不到右側的車輪，因此標準的 NÜWA 模型存在補全邊界銜接不對的問題。NÜWA-LIP 修復了 NÜWA 這一不足，它會提前預看整個影像，並創新地使用無損編碼技術，然後再自迴歸地生成，因此可以做到黑色區域邊界處銜接自然，並且補全區域也很清晰。

在 FID 指標測試中，通過將修復圖與原始圖對比，NÜWA-LIP 在自然語言指示影像修復的任務上取得了最好分數。（注：FID 分數越低表示修復影像的質量越高。）

表2：NÜWA-LIP 在影像編輯任務中的 FID 指標達到10.5

NÜWA-Infinity：讓視覺創作趨於 “無限流”

除了影像修復之外，微軟亞洲研究院在高解析度、大影像的橫向延展方面也進行了持續研究，提出了 NÜWA Infinity 模型。顧名思義，NÜWA Infinity 可以根據給定的影像生成無限連續的高清“大片”。“一開始 NÜWA 能夠生成、編輯的影像和視訊的解析度相對較低，一般是256×256解析度的小圖。我們希望通過模型可以生成更高清的大圖，形成更大的視覺衝擊，滿足不同創作者的實際需求。簡單來說，NÜWA Infinity 會根據影像的不同層次內容掃描每一幀視窗，不斷渲染形成高畫素、連續的大圖，”微軟亞洲研究院研究員吳晨飛介紹說。

想知道 Windows 經典桌面的右側是什麼樣麼？點選下圖，NÜWA-Infinity 為你“揭開”神祕面紗。

段楠補充說，“表面看 NÜWA Infinity 解決了之前 NÜWA 生成圖片不高清，以及視訊幀數有限的問題。但其實 NÜWA Infinity 從底層形成了一套生成機制，不僅可以對圖片進行延展式的生成，也可以應用於視訊預測創作，而這也是我們接下來要攻克的研究課題。”

自此，NÜWA-LIP 讓機器接受語言指令自動修圖成為了可能，而 NÜWA-Infinity 則使得影像生成質量向高清、無限的真實世界邁進了一大步。按照這樣的迭代創新步伐，未來創作者擁有一套趨於“無限流”的視覺創作輔助工具，指日可待。

NÜWA 多模態模型連鎖反應：或將帶來更多“殺手級”應用

未來，隨著人工智慧技術的發展，擴增實境、虛擬現實等沉浸式的人機互動介面將會得到更廣泛的應用，數字世界和物理世界的結合也將越來越緊密。而不同型別的多模態內容則是拉近虛擬空間與現實世界的強力膠，因此，虛擬內容的建立、編輯和互動將至關重要。NÜWA 提供的視覺內容生成和編輯技術，為這些應用提供了無限的想象空間。當多模態技術成為未來人工智慧應用發展的方向時，多模態模型將會為學習、廣告、新聞、會議、娛樂、社交網路、數字人、腦機互動等領域帶來更多的下一代“殺手級”應用。

相關論文連結：

NÜWA：https://arxiv.org/abs/2111.12417

NÜWA-LIP：https://arxiv.org/abs/2202.05009

附錄：

NÜWA 在八大任務中的效果

圖3：文字到影像任務。例如，給定文字“A wooden house sitting in a field”(一個小木屋坐落在田野間)。NÜWA 創作了4種不同拍攝角度的小木屋，這些小木屋不僅朝向風格多樣、而且真實性很好。

圖4：草圖到影像任務。例如，給定一張公共汽車的草圖（第一行第一列），NÜWA 創作了3種滿足草圖形狀和位置的影像，包括窗戶的反光也清晰可見。

圖5：影像補全任務。例如第1行，輸入上方的塔尖（50%的原圖），NÜWA 可以補全出塔下方的樣子，圓柱甚至屋頂。對於第2行，當僅僅給5%的影像區域時，NÜWA 依然可以做到影像補全。

圖6：影像編輯。例如第1幅圖，給定待編輯的影像、需要編輯的影像區域（紅框）以及影像上方的文字“Beach and sky”（海灘和天空），第2幅圖則給出了編輯後的結果。

圖7：影像到視訊任務。NÜWA 不僅可以依據常見的文字 “Play golf on grass”（在草地上玩高爾夫球）來生成視訊，而且可以生成現實中不可能的視訊，例如“Play golf on the swimming pool”（在泳池玩高爾夫球）。

圖8：視訊草圖到視訊。輸入視訊草圖，NÜWA 可以生成幀和幀連續的視訊。

圖9：視訊預測。輸入靜止影像，NÜWA 可以輸出將其“動”起來的視訊。

圖10：視訊編輯。輸入編輯文字、視訊，NÜWA 可以輸出編輯之後的視訊。例如，原視訊潛水員在水平遊動，經過第二幅圖“The diver is swimming to the surface”（潛水員在向水面游去）的控制，生成的視訊潛水員在向上遊。