微軟37頁論文逆向工程Sora,得到了哪些結論?

机器之心發表於2024-03-01
一篇論文回顧 Sora 文生影片技術的背景、技術和應用。

追趕 Sora,成為了很多科技公司當下階段的新目標。研究者們好奇的是:Sora 是如何被 OpenAI 發掘出來的?未來又有哪些演進和應用方向?

Sora 的技術報告披露了一些技術細節,但遠遠不足以窺其全貌。

在最近的一篇文章中,微軟研究院和理海大學的研究者根據已發表的技術報告和逆向工程,首次全面回顧了 Sora 的背景、相關技術、新興應用、當前侷限和未來機遇。

圖片

  • 論文標題:Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models

  • 論文連結:https://arxiv.org/pdf/2402.17177.pdf

背景

在分析 Sora 之前,研究者首先盤點了視覺內容生成技術的沿襲。

深度學習革命之前,傳統的影像生成技術依賴於基於手工建立特徵的紋理合成和紋理對映等方法。這些方法在生成複雜而生動的影像方面能力有限。

如圖 3 所示,在過去十年中,視覺類的生成模型經歷了多樣化的發展路線。

圖片

生成對抗網路(GAN)和變分自動編碼器(VAE)的引入標誌著一個重要的轉折點,因為它在各種應用中都具有非凡的能力。隨後的發展,如流模型和擴散模型,進一步增強了影像生成的細節和質量。人工智慧生成內容(AIGC)技術的最新進展實現了內容建立的民主化,使使用者能夠透過簡單的文字指令生成所需的內容。

在 BERT 和 GPT 成功將 Transformer 架構應用於 NLP 之後,研究人員嘗試將其遷移到 CV 領域,比如 Transformer 架構與視覺元件相結合,使其能夠應用於下游 CV 任務,包括 Vision Transformer (ViT) 和 Swin Transformer ,從而進一步發展了這一概念。在 Transformer 取得成功的同時,擴散模型也在影像和影片生成領域取得了長足進步。擴散模型為利用 U-Nets 將噪聲轉換成影像提供了一個數學上合理的框架,U-Nets 透過學習在每一步預測和減輕噪聲來促進這一過程。

自 2021 年以來,能夠解釋人類指令的生成語言和視覺模型,即所謂的多模態模型,成為了人工智慧領域的熱門議題。

CLIP 是一種開創性的視覺語言模型,它將 Transformer 架構與視覺元素相結合,便於在大量文字和影像資料集上進行訓練。透過從一開始就整合視覺和語言知識,CLIP 可以在多模態生成框架內充當影像編碼器。

另一個值得注意的例子是 Stable Diffusion,它是一種多用途文字到影像人工智慧模型,以其適應性和易用性而著稱。它採用 Transformer 架構和潛在擴散技術來解碼文字輸入並生成各種風格的影像,進一步說明了多模態人工智慧的進步。

ChatGPT 2022 年 11 月釋出之後,2023 年出現了大量文字到影像的商業化產品,如 Stable Diffusion、Midjourney、DALL-E 3。這些工具能讓使用者透過簡單的文字提示生成高解析度和高質量的新影像,展示了人工智慧在創意影像生成方面的潛力。

然而,由於影片的時間複雜性,從文字到影像到文字到影片的過渡具有挑戰性。儘管工業界和學術界做出了許多努力,但大多數現有的影片生成工具,如 Pika 和 Gen-2 ,都僅限於生成幾秒鐘的短影片片段。

在這種情況下,Sora 是一項重大突破,類似於 ChatGPT 在 NLP 領域的影響。Sora 是第一個能夠根據人類指令生成長達一分鐘影片的模型,同時保持較高的視覺質量和引人注目的視覺連貫性,從第一幀到最後一幀都具有漸進感和視覺連貫性。

這是一個里程碑,對生成式 AI 的研究和發展產生了深遠影響。

圖片

如圖 2 所示,Sora 在準確解讀和執行復雜的人類指令方面表現出非凡的能力。該模型可以生成包含多個角色的詳細場景,這些角色在錯綜複雜的背景下執行特定的動作。研究人員認為,Sora 不僅能熟練處理使用者生成的文字提示,還能辨別場景中各種元素之間複雜的相互作用。

此外,Sora 的進步還體現在它能夠生成具有細微運動和互動描繪的擴充套件影片序列,克服了早期影片生成模型所特有的短片段和簡單視覺渲染的限制。這種能力代表了人工智慧驅動的創意工具的飛躍,使使用者能夠將文字敘述轉換成豐富的視覺故事。

總之,這些進步顯示了 Sora 作為世界模擬器的潛力,它可以提供對所描繪場景的物理和背景動態的細微洞察。

為了方便讀者查閱視覺生成模型的最新進展,研究者在論文附錄彙編了近期的代表性工作成果。

圖片

技術推演

Sora 的核心是一個預訓練的擴散 Transformer。事實證明,Transformer 模型在許多自然語言任務中都具有可擴充套件性和有效性。與 GPT-4 等強大的大型語言模型(LLM)類似,Sora 可以解析文字並理解複雜的使用者指令。為了提高影片生成的計算效率,Sora 採用了時空潛在 patch 作為其構建模組。

具體來說,Sora 會將原始輸入影片壓縮為潛在時空表示。然後,從壓縮影片中提取一系列潛在時空 patch,以囊括短暫時間間隔內的視覺外觀和運動動態。這些片段類似於語言模型中的詞 token,為 Sora 提供了詳細的視覺短語,可用於構建影片。Sora 的文字到影片生成由擴散 Transformer 模型完成。從充滿視覺噪音的幀開始,該模型會對影像進行迭代去噪,並根據提供的文字提示引入特定細節。本質上講,生成的影片是透過多步完善過程產生的,每一步都會對影片進行完善,使其更加符合所需的內容和質量。

圖片

如圖 4 所示,Sora 的核心本質是一個具有靈活取樣維度的擴散 Transformer。它由三部分組成:(1)時空壓縮器首先將原始影片對映到潛在空間。(2) 然後,ViT 處理 token 化的潛在表示,並輸出去噪潛在表示。(3) 類似 CLIP 的調節機制接收 LLM 增強的使用者指令和潛在的視覺提示,引導擴散模型生成風格化或主題化的影片。經過許多去噪步驟後,生成影片的潛在表示被獲取,然後透過相應的解碼器對映回畫素空間。

在本節中,研究者對 Sora 所使用的技術進行了逆向工程,並討論了一系列相關工作。

資料預處理

Sora 的一個顯著特徵是它能夠訓練、理解和生成原始尺寸的影片和影像,如圖 5 所示。而傳統方法通常會調整影片大小、裁剪或調整影片的長寬比以適應統一的影片和影像。利用擴散 Transformer 架構,Sora 是第一個擁抱視覺資料多樣性的模型,可以以多種影片和影像格式進行取樣,範圍從寬屏 1920x1080p 影片到垂直 1080x1920p 影片以及介於兩者之間的影片,而不影響其原始尺寸。

圖片

如圖 6 所示,Sora 生成的影片能夠更好的展現主題,從而確保在場景中完全捕捉到拍攝物件,而其他影片有時會導致檢視被截斷或裁剪,導致拍攝物件脫離畫面。

圖片

統一視覺表示。為了有效處理不同持續時間、解析度和高寬比的影像和影片,關鍵在於將所有形式的視覺資料轉換為統一表示。

Sora 處理的過程是這樣的:首先將影片壓縮到低維潛在空間,然後將表示分解為時空 patch 來對影片進行 patch 化(patchifies)。但是回看 Sora 技術報告,他們僅僅提出了一個高層次的想法,這給研究界的復現帶來了挑戰。在接下來的章節中,本文嘗試對 Sora 的技術路徑進行逆向工程,並且借鑑現有文獻,討論可以復現 Sora 的可行替代方案。

首先是影片壓縮網路。Sora 的影片壓縮網路(或視覺編碼器)旨在降低輸入資料(尤其是原始影片)的維度,並輸出在時間和空間上壓縮過的潛在表示,如圖 7 所示。根據技術報告中的參考文獻, Sora 壓縮網路是基於 VAE 或 VQ-VAE 技術的。

圖片

然而,如果不像技術報告中對影片和影像調整大小和裁剪,那麼 VAE 將任何大小的視覺資料對映到統一且固定大小的潛在空間挑戰巨大。本文總結了兩種不同的實現來解決這個問題:

空間 patch 壓縮:涉及將影片幀轉換為固定大小的 patch,類似於 ViT 和 MAE 中使用的方法(見圖 8),然後將其編碼到潛在空間中,這種方法對於適應不同解析度和寬高比的影片特別有效。隨後,將這些空間 token 按時間序列組織在一起,以建立時間 - 空間潛在表徵。

圖片

時間 - 空間 patch 壓縮:該技術旨在封裝影片資料的空間和時間維度,從而提供全面的表示。該技術不僅僅分析靜態幀,還考慮幀間的運動和變化,從而捕獲影片的動態資訊。3D 卷積的利用成為實現這種整合的一種簡單而有效的方法。

圖 9 描繪了不同影片壓縮方式的比較。與空間 patch 壓縮類似,使用具有預定卷積核引數(例如固定核心大小、步幅和輸出通道)的時間 - 空間 patch 壓縮會導致潛在空間維度也不同。為了緩解這一挑戰,空間修補(spatial patchification)所採用的方法在這種情況下同樣適用和有效。

圖片

總的來說,本文基於 VAE 或其變體如 VQ-VQE 逆向工程了兩種 patch 級壓縮方法,因為 patch 對處理不同型別的影片更加靈活。由於 Sora 旨在生成高保真影片,因此使用了較大尺寸的 patch 或核心尺寸以實現高效壓縮。這裡,本文期望使用固定大小的 patch,以簡化操作、擴充套件性和訓練穩定性。但也可以使用不同大小的 patch,以使整個幀或影片在潛在空間中的尺寸保持一致。然而,這可能導致位置編碼無效,並且給解碼器生成具有不同大小潛在 patch 的影片帶來挑戰。

壓縮網路部分還有一個關鍵問題:在將 patch 送入擴散 Transformer 的輸入層之前,如何處理潛在空間維度的變化(即不同影片型別的潛在特徵塊或 patch 的數量)。這裡討論了幾種解決方案:

根據 Sora 的技術報告和相應的參考文獻,patch n' pack(PNP)很可能是一種解決方案。如圖 10 所示,PNP 將來自不同影像的多個 patch 打包在一個序列中。這種方法的靈感來源於自然語言處理中使用的樣本打包,它透過丟棄 token 來實現對不同長度輸入的高效訓練。在這裡,patch 化和 token 嵌入步驟需要在壓縮網路中完成,但 Sora 可能會像 Diffusion Transformer(擴散 Transformer)那樣,為 Transformer token 進一步 patch 化。

圖片

無論是否有第二輪修補,都需要解決兩個問題:如何以緊湊的方式打包這些 token,以及如何控制哪些 token 應該被丟棄。

對於第一個問題,研究者採用了簡單的「貪心」演算法,即在第一個序列中新增足夠剩餘空間的樣本。一旦沒有樣本可以容納,序列就會被填充 token 填滿,從而產生批處理操作所需的固定序列長度。這種簡單的打包演算法可能會導致大量填充,這取決於輸入長度的分佈情況。另一方面,可以控制取樣的解析度和幀數,透過調整序列長度和限制填充來確保高效打包。

對於第二個問題,直觀的方法是丟棄相似的 token,或者像 PNP 一樣,使用丟棄率排程器。不過,值得注意的是,三維一致性是 Sora 的優良特性之一。在訓練過程中,丟棄 token 可能會忽略細粒度的細節。因此,研究者認為 OpenAI 很可能會使用超長的上下文視窗並打包影片中的所有 token,儘管這樣做的計算成本很高,例如,多頭注意力運算元在序列長度上表現出二次成本。具體來說,一個長時間影片中的時空潛在 patch 可以打包到一個序列中,而多個短時間影片中的時空潛在 patch 則會串聯到另一個序列中。

建模

  • 影像 DiT

傳統的擴散模型主要利用包含下采樣和上取樣塊的卷積 U-Net 作為去噪網路骨幹。然而,最近的研究表明,U-Net 架構對擴散模型的良好效能並非至關重要。

透過採用更靈活的 Transformer 架構,基於 Transformer 的擴散模型可以使用更多的訓練資料和更大的模型引數。沿著這一思路,DiT 和 U-ViT 是第一批將視覺 Transformer 用於潛在擴散模型的作品。

與 ViT 一樣,DiT 也採用了多頭自注意力層和層範數和縮放層交錯的逐點前饋網路。如圖 11 所示,DiT 還透過 AdaLN 進行調節,並增加了一個用於零初始化的 MLP 層,將每個殘差塊初始化為一個恆等函式,從而大大穩定了訓練過程。DiT 的可擴充套件性和靈活性得到了經驗驗證。

圖片

在 U-ViT 中,如圖 11 所示,將包括時間、條件和噪聲影像片段在內的所有輸入都視為 token,並在淺層和深層 Transformer 層之間提出了長跳躍連線。結果表明,基於 CNN 的 U-Net 中的下采樣和升取樣運算元並非總是必要的,U-ViT 在影像和文字到影像生成方面取得了破紀錄的 FID 分數。

與掩蔽自編碼器(MAE)一樣,掩蔽擴散 Transformer(MDT)也在擴散過程中加入了掩碼潛在模型,以明確增強影像合成中物件語義部分之間的上下文關係學習。

圖片

具體來說,如圖 12 所示,MDT 在訓練過程中使用邊緣插值(side-interpolated)進行額外的掩蔽 token 重建任務,以提高訓練效率,並學習強大的上下文感知位置嵌入進行推理。與 DiT 相比,MDT 實現了更好的效能和更快的學習速度。Hatamizadeh et al. 沒有使用 AdaLN(即移位和縮放)進行時間條件建模,而是引入了 Diffusion Vision Transformers (DiffiT),它使用與時間相關的自注意力(TMSA)模組對取樣時間步長內的動態去噪行為進行建模。此外,DiffiT 採用兩種混合分層架構,分別在畫素空間和潛在空間進行高效去噪,並在各種生成任務中取得了新的先進成果。總之,這些研究表明,利用視覺 Transformer 進行影像潛在擴散取得了可喜的成果,為面向其他模態的研究鋪平了道路。

  • 影片 DiT

在文字到影像(T2I)擴散模型的基礎上,一些近期研究專注於發揮擴散 Transformer 在文字到影片(T2V)生成任務中的潛力。由於影片的時空特性,在影片領域應用 DiT 所面臨的主要挑戰是:i) 如何將影片從空間和時間上壓縮到潛在空間,以實現高效去噪;ii) 如何將壓縮潛在空間轉換為 patch,並將其輸入 Transformer ;iii) 如何處理長序列時空依賴性,並確保內容一致性。

這裡將討論基於 Transformer 的去噪網路架構(該架構旨在時空壓縮的潛在空間中執行)下文詳細回顧了 OpenAI Sora 技術報告參考文獻列表中介紹的兩項重要工作(Imagen Video 和 Video LDM)。

Imagen Video 是谷歌研究院開發的文字到影片生成系統,它利用級聯擴散模型(由 7 個子模型組成,分別執行文字條件影片生成、空間超解析度和時間超解析度)將文字提示轉化為高畫質影片。

圖片

如圖 13 所示,首先,凍結的 T5 文字編碼器會根據輸入的文字提示生成上下文嵌入。這些嵌入對於將生成的影片與文字提示對齊至關重要,除了基礎模型外,它們還被注入級聯中的所有模型。隨後,嵌入資訊被注入基礎模型,用於生成低解析度影片,然後由級聯擴散模型對其進行細化以提高解析度。基礎影片和超解析度模型採用時空可分離的 3D U-Net 架構。該架構將時間注意力層和卷積層與空間對應層結合在一起,以有效捕捉幀間依賴關係。它採用 v 預測引數化來實現數值穩定性和條件增強,以促進跨模型的並行訓練。

這一過程包括對影像和影片進行聯合訓練,將每幅影像視為一幀,以利用更大的資料集,並使用無分類器引導來提高提示保真度。漸進式蒸餾法用於簡化取樣過程,在保持感知質量的同時大大減少了計算負荷。將這些方法和技術相結合,Imagen Video 不僅能生成高保真影片,而且還具有出色的可控性,這體現在它能生成多樣化的影片、文字動畫和各種藝術風格的內容。

Blattmann et al. 建議將二維潛在擴散模型轉化為影片潛在擴散模型(Video LDM)。為此,他們在 U-Net 主幹網和 VAE 解碼器的現有空間層中新增了一些臨時時間層,以學習如何對齊單個幀。這些時間層在編碼影片資料上進行訓練,而空間層則保持固定,從而使模型能夠利用大型影像資料集進行預訓練。LDM 的解碼器可進行微調,以實現畫素空間的時間一致性和時間對齊擴散模型上取樣器,從而提高空間解析度。

為了生成超長影片,作者對模型進行了訓練,以預測未來幀的上下文幀數,從而在取樣過程中實現無分類器引導。為實現高時間解析度,作者將影片合成過程分為關鍵幀生成和這些關鍵幀之間的插值。在級聯 LDM 之後,使用 DM 將影片 LDM 輸出進一步放大 4 倍,確保高空間解析度的同時保持時間一致性。這種方法能以高效的計算方式生成全域性一致的長影片。此外,作者還展示了將預先訓練好的影像 LDM(如穩定擴散)轉化為文字到影片模型的能力,只需訓練時間對齊層,即可實現解析度高達 1280 × 2048 的影片合成。

圖片

語言指令跟隨

為了提高文字到影片模型遵循文字指令的能力,Sora 採用了與 DALL・E 3 類似的方法。

DALL・E 3 中的指令跟隨是透過一種描述改進方法來解決的,其假設是模型所訓練的文字 - 影像對的質量決定了最終文字 - 影像模型的效能。資料質量差,尤其是普遍存在的噪聲資料和省略了大量視覺資訊的簡短標題,會導致許多問題,如忽略關鍵詞和詞序,以及誤解使用者意圖等。描述改進方法透過為現有影像重新新增詳細的描述性描述來解決這些問題。該方法首先訓練影像描述器(視覺語言模型),以生成精確的描述性影像描述。然後,描述器生成的描述性影像描述將用於微調文字到影像模型。

具體來說,DALL・E 3 採用對比式描述器(CoCa),聯合訓練具有 CLIP 架構和語言模型目標的影像描述器。該影像描述器包含一個影像編碼器、一個用於提取語言資訊的單模態文字編碼器和一個多模態文字解碼器。它首先在單模態影像和文字嵌入之間採用對比損失,然後對多模態解碼器的輸出採用描述損失。由此產生的影像描述器將根據對影像的高度詳細描述進行進一步微調,其中包括主要物件、周圍環境、背景、文字、風格和色彩。透過這一步驟,影像描述器就能為影像生成詳細的描述性描述。文字到影像模型的訓練資料集由影像描述生成器生成的重新描述資料集和真實人工編寫資料混合而成,以確保模型捕捉到使用者輸入。

這種影像描述改進方法帶來了一個潛在問題:實際使用者提示與訓練資料中的描述性影像描述不匹配。DALL・E 3 透過上取樣解決了這一問題,即使用 LLM 將簡短的使用者提示改寫成詳細而冗長的說明。這確保了模型在推理時接收到的文字輸入與模型訓練時的文字輸入保持一致。

為了提高指令跟蹤能力,Sora 採用了類似的描述改進方法。這種方法是透過首先訓練一個能夠為影片製作詳細說明的影片描述器來實現的。然後,將該影片描述器應用於訓練資料中的所有影片,生成高質量的(影片、描述性描述)對,用於微調 Sora,以提高其指令跟隨能力。

Sora 的技術報告沒有透露影片描述器是如何訓練的細節。鑑於影片描述器是一個影片到文字的模型,因此有很多方法來構建它:

一種直接的方法是利用 CoCa 架構來製作影片描述,方法是獲取影片的多個幀,並將每個幀輸入影像編碼器,即 VideoCoCa。VideoCoCa 以 CoCa 為基礎,重新使用影像編碼器預訓練的權重,並將其獨立應用於取樣影片幀。由此產生的幀 token 嵌入會被扁平化,並連線成一長串影片表示。然後,生成式池化層和對比池化層會對這些扁平化的幀 token 進行處理,二者是用對比損失和描述損失聯合訓練的。

其他可用於構建影片描述的方法包括 mPLUG-2、GIT、FrozenBiLM 等。

最後,為確保使用者提示與訓練資料中的描述性描述格式一致,Sora 還執行了額外的提示擴充套件步驟,即使用 GPT-4V 將使用者輸入擴充套件為詳細的描述性提示。

然而,Sora 訓練描述器的資料收集過程尚不清楚,而且很可能需要大量人力,因為這可能需要對影片進行詳細描述。此外,描述性影片描述可能會對影片的重要細節產生幻覺。本文作者認為,如何改進影片描述器值得進一步研究,這對提高文字到影像模型的指令跟蹤能力至關重要。

提示工程

  • 文字提示

文字提示工程對於指導文字影片模型製作出既具有視覺衝擊力又能精確滿足使用者規格的影片至關重要。這就需要製作詳細的描述來指導模型,以有效彌合人類創造力與人工智慧執行能力之間的差距。

Sora 的提示涵蓋了廣泛的場景。近期的作品(如 VoP、Make-A-Video 和 Tune-A-Video)展示了提示工程如何利用模型的自然語言理解能力來解碼複雜指令,並將其呈現為連貫、生動和高質量的影片敘事。

如圖 15 所示,「一個時髦的女人走在霓虹燈閃爍的東京街頭...... 」就是這樣一個精心製作的文字提示,它確保 Sora 生成的影片與預期的視覺效果非常吻合。提示工程的質量取決於對詞語的精心選擇、所提供細節的具體性以及對其對模型輸出影響的理解。例如,圖 15 中的提示詳細說明了動作、設定、角色出場,甚至是所期望的場景情緒和氛圍。

圖片

  • 影像提示

影像提示為即將生成的影片內容和其他元素(如人物、場景和情緒)提供了視覺錨點。此外,文字提示還可以指示模型將這些元素動畫化,例如,新增動作、互動和敘事進展等層次,使靜態影像栩栩如生。透過使用影像提示,Sora 可以利用視覺和文字資訊將靜態影像轉換成動態的、由敘事驅動的影片。

圖 16 展示了人工智慧生成的影片:「一隻頭戴貝雷帽、身穿高領毛衣的柴犬」、「一個獨特的怪物家族」、「一朵雲組成了 SORA 一詞」以及「衝浪者在一座歷史悠久的大廳內駕馭潮汐」。這些例子展示了透過 DALL・E 生成的影像提示 Sora 可以實現哪些功能。

圖片

  • 影片提示

影片提示也可用於影片生成。最近的研究(如 Moonshot 和 Fast-Vid2Vid)表明,好的影片提示需要「具體」而「靈活」。這樣既能確保模型在特定目標(如特定物體和視覺主題的描繪)上獲得明確的指導,又能在最終輸出中允許富有想象力的變化。

例如,在影片擴充套件任務中,提示可以指定擴充套件的方向(時間向前或向後)和背景或主題。在圖 17 (a) 中,影片提示指示 Sora 向後延伸一段影片,以探索導致原始起點的事件。如圖 17(b)所示,在透過影片提示執行影片到影片的編輯時,模型需要清楚地瞭解所需的轉換,例如改變影片的風格、場景或氛圍,或改變燈光或情緒等微妙的方面。在圖 17 (c) 中,提示指示 Sora 連線影片,同時確保影片中不同場景中的物體之間平滑過渡。

圖片

雖然以前關於提示工程的研究主要集中在 LLM 和 LVM 的文字和影像提示上,但預計研究者們對影片生成模型的影片提示的興趣會越來越大。

應用

隨著以 Sora 為代表的影片擴散模型技術取得突破,其在不同研究領域和行業的應用正在迅速加速。

本文作者指出,這項技術的影響遠遠超出了單純的影片創作,為從自動內容生成到複雜決策過程的各種任務提供了變革潛力。

在論文的第四章中,全面探討了影片擴散模型的當前應用,希望為實際部署方案提供一個廣闊的視角(圖 18):

圖片

  • 提高模擬能力:對 Sora 進行大規模訓練,是因為它能夠出色地模擬物理世界的各個方面。儘管沒有明確的三維建模,但 Sora 透過動態攝像機運動和遠距離連貫性表現出三維一致性,包括物體永續性和模擬與世界的簡單互動。此外,Sora 還能模擬類似 Minecraft 的數字環境,在保持視覺保真度的同時由基本策略控制,這一點非常有趣。這些新出現的能力表明,可擴充套件影片模型可以有效地建立人工智慧模型,以模擬物理和數字世界的複雜性。

  • 提高創造力:想象一下,透過文字勾勒出一個概念,無論是一個簡單的物體還是一個完整的場景,都能在幾秒鐘內呈現出逼真或高度風格化的影片。Sora 可以加速設計過程,更快地探索和完善創意,從而大大提高藝術家、電影製作人和設計師的創造力。

  • 推動教育創新:長期以來,視覺輔助工具一直是教育領域理解重要概念不可或缺的工具。有了 Sora,教育工作者可以輕鬆地將課堂計劃從文字變成影片,吸引學生的注意力,提高學習效率。從科學模擬到歷史劇,可能性是無限的。

  • 增強可訪問性:提高視覺領域的可訪問性至關重要。Sora 透過將文字描述轉換為可視內容,提供了一種創新的解決方案。這種功能使包括視覺障礙者在內的所有人都能積極參與內容建立,並以更有效的方式與他人互動。因此,它可以創造一個更具包容性的環境,讓每個人都有機會透過影片表達自己的想法。

  • 促進新興應用:Sora 的應用領域非常廣泛。例如,營銷人員可以用它來製作針對特定受眾描述的動態廣告。遊戲開發商可以利用它根據玩家的敘述生成定製的視覺效果甚至角色動作。

具體而言,以下幾個行業將面臨變革:

影視

傳統上,創作電影是一個艱鉅而昂貴的過程,往往需要數十年的努力、尖端的裝置和大量的資金投入。先進影片生成技術的出現預示著電影製作進入了一個新時代,從簡單的文字輸入中自主生成電影的夢想正在成為現實。事實上,研究人員已經涉足電影生成領域,將影片生成模型擴充套件到電影創作中。

MovieFactory 應用擴散模型從 ChatGPT 製作的精心指令碼中生成電影風格的影片,這是一個重大飛躍。在後續研究中,MobileVidFactory 只需使用者提供簡單的文字,就能自動生成垂直移動影片。Vlogger 則讓使用者可以製作長達一分鐘的 Vlog。

Sora 能夠毫不費力地生成引人入勝的電影內容,這是這些發展的縮影,標誌著電影製作民主化的關鍵時刻。它們讓人們看到了一個人人都能成為電影製作人的未來,大大降低了電影行業的准入門檻,併為電影製作引入了一個新的維度,將傳統的故事講述方式與人工智慧驅動的創造力融為一體。這些技術的影響不僅僅是簡單化。它們有望重塑電影製作的格局,使其在面對不斷變化的觀眾喜好和發行渠道時,變得更加容易獲得,用途更加廣泛。

遊戲

遊戲產業一直在尋求突破逼真度和沉浸感界限的方法,但傳統遊戲開發往往受到預先渲染的環境和指令碼事件的限制。透過擴散模型效果實時生成動態、高保真影片內容和逼真音效,有望克服現有的限制,為開發人員提供工具來建立不斷變化的遊戲環境,對玩家的行為和遊戲事件做出有機的反應。這可能包括生成不斷變化的天氣條件、改變地貌,甚至即時建立全新的設定,從而使遊戲世界更加身臨其境、反應更加靈敏。一些方法還能從影片輸入中合成逼真的衝擊聲,增強遊戲音訊體驗。

將 Sora 整合到遊戲領域後,就能創造出無與倫比的身臨其境的體驗,吸引並吸引玩家。遊戲的開發、玩耍和體驗方式都將得到創新,併為講故事、互動和沉浸式體驗帶來新的可能性。

醫療

儘管具有生成能力,但影片擴散模型在理解和生成複雜影片序列方面表現出色,因此特別適用於識別人體內的動態異常,如早期細胞凋亡、皮膚病變進展和不規則人體運動,這對早期疾病檢測和干預策略至關重要。此外,MedSegDiffV2 等模型利用 Transformer 的強大功能,以前所未有的精度分割醫學影像,使臨床醫生能夠在各種成像模式中精確定位感興趣的區域,提高準確性。

將 Sora 整合到臨床實踐中,不僅有望完善診斷流程,還能根據精確的醫學影像分析提供量身定製的治療方案,實現患者護理的個性化。然而,這種技術整合也帶來了一系列挑戰,包括需要採取強有力的資料隱私措施和解決醫療保健中的倫理問題。

機器人

影片擴散模型目前在機器人技術中發揮著重要作用,它展示了一個新時代:機器人可以生成和解釋複雜的影片序列,以增強感知和決策。這些模型釋放了機器人的新能力,使它們能夠與環境互動,以前所未有的複雜度和精確度執行任務。將網路規模擴散模型引入機器人學,展示了利用大規模模型增強機器人視覺和理解能力的潛力。潛在擴散模型被用於語言指導的影片預測,使機器人能夠透過預測影片格式的行動結果來理解和執行任務。此外,影片擴散模型能夠建立高度逼真的影片序列,創新性地解決了機器人研究依賴模擬環境的問題。這樣就能為機器人生成多樣化的訓練場景,緩解真實世界資料匱乏所帶來的限制。

將 Sora 等技術整合到機器人領域有望取得突破性發展。透過利用 Sora 的強大功能,未來的機器人技術將取得前所未有的進步,機器人可以無縫導航並與周圍環境互動。

侷限性

最後,研究者指出了 Sora 這項新技術存在的風險問題和侷限性。

隨著 ChatGPT 、GPT4-V 和 Sora 等複雜模型的快速發展,這些模型的能力得到了顯著提高。這些發展為提高工作效率和推動技術進步做出了重大貢獻。然而,這些進步也引發了人們對這些技術可能被濫用的擔憂,包括假新聞的產生、隱私洩露和道德困境。因此,大模型的可信度問題引起了學術界和工業界的廣泛關注,成為當下研究討論的焦點。

雖然 Sora 的成就凸顯了人工智慧的重大進步,但挑戰依然存在。在描繪複雜動作或捕捉微妙面部表情方面,該模型還有待改進。此外,減少生成內容中的偏見和防止有害的視覺輸出等道德方面的考慮也強調了開發人員、研究人員和更廣泛的社群負責任使用的重要性。確保 Sora 的輸出始終安全、無偏見是一項主要挑戰。

但伴隨著影片生成領域的發展,學術界和工業界的研究團隊都取得了長足的進步。文字到影片競爭模式的出現表明,Sora 可能很快就會成為動態生態系統的一部分。這種合作與競爭的環境促進了創新,從而提高了影片質量並開發了新的應用,有助於提高工人的工作效率,使人們的生活更具娛樂性。

相關文章