Sora爆紅影片幕後：被騙了，用了成噸的後期才有這效果

机器之心發表於2024-04-29

原文網址 : https://www.jiqizhixin.com/articles/2024-04-29-5

「不怕 AI 消滅人類，就怕用 AI 的人太聰明。」

今年 2 月份，OpenAI 釋出了人工智慧文生影片大模型 Sora，並放出了第一批影片片段，掀起了 AI 生成影片浪潮。目前，Sora 仍未進行公測，只有一些視覺藝術家、設計師、電影製作人等獲得了 Sora 的訪問許可權。他們釋出了一些 Sora 生成的影片短片，其連貫、逼真的生成效果令人驚豔。

最近，被譽為「朋克搖滾皮克斯」的加拿大多媒體制作公司 Shy Kids 釋出了一段藉助 Sora 製作的影片短片《Air Head》，在社交媒體上迅速引起廣泛關注。

據悉，這部製作精美的短片主要由 3 個人完成，花費不到 2 周的時間。其中，Sidney Leeder 擔任製片人，Walter Woodman 擔任編劇和導演，而 Patrick Cederberg 負責後期製作。

本週，知名視覺特效總監 Mike Seymour 採訪了 Patrick Cederberg，就《Air Head》製作過程、技術難點等資訊展開了提問，並在 fxguide 上釋出一篇文章介紹了 Sora 在影片實際製作過程中發揮的作用和存在的問題。

^{Patrick Cederberg}

其中，Patrick 表示：「Sora 是一款非常強大的工具，我們已經在思考如何把它融入現有電影製作流程中，但目前 Sora 仍處於測試階段，在影片製作過程中也會『翻車』。例如，氣球的顏色在每次生成中都會改變、鏡頭中會出現一些瑕疵等等，要想獲得最佳表現效果，仍需大量後期製作。」

AI 生成影片並非僅僅是影像生成器的進階版。更準確地說，它們可能是我們向通用人工智慧（AGI) 邁出的重要一步。但正如 Sora 開發團隊本週接受採訪時所說的，當前的 AI 影片模型仍處於早期階段。

OpenAI 研究科學家，Sora 專案領導者 Tim Brooks 表示：我覺得現在 Sora 位置，就像是視覺模型新正規化的 GPT-1 階段。

《Air Head》是如何完成的？機器之心對 Mike Seymour 的文章進行了不改變原意的編譯、整理，以下是該文章原文：

使用者介面（UI）

Sora 的使用者介面允許使用者輸入一段文字 prompt，然後 ChatGPT 將其轉換為一個更長的字串，再觸發影片片段的生成。目前，沒有其他輸入方式 —— 還沒有實現多模態輸入。這一點很重要，因為儘管 Sora 因其生成結果中的物件一致性而受到稱讚，但目前還沒有任何方法來幫助匹配兩個鏡頭（即兩次生成）的內容。即使第二次執行相同的 prompt，生成結果也會不同。

Patrick 介紹說：「我們儘可能做到的是在我們的 prompt 中給出超級詳細的描述，例如解釋角色的服裝、氣球的型別。這是我們獲得一致性的方法。從一個鏡頭到另一個鏡頭 / 一次生成到下一次生成，還沒有完全控制一致性的方法。」

單個影片片段的確可以展現 Sora 令人驚歎的技術，但使用這些片段取決於你對隱式或顯式鏡頭生成的理解。

假設你要求 Sora 在廚房裡進行一個長鏡頭跟蹤拍攝，桌子上有一個香蕉。在這種情況下，它將依賴其對「香蕉屬性」的隱式理解來生成一個展示香蕉的影片。透過訓練，Sora 已經學習了一些香蕉屬性：比如「黃色」、「彎曲」、「有深色的末端」等等。沒有香蕉的實際記錄影像。沒有「香蕉資料庫」，而是有一個更小的、壓縮的、隱藏的「潛在空間」，描述了香蕉是什麼，每次執行都會展示對潛在空間的一種新解釋。你的 prompt 依賴於對香蕉屬性的隱式理解。

製作角色

為了製作《Air Head》，團隊根據大致的劇本生成了多個影片片段，但是沒有明確的方式來確保黃色氣球頭在每個鏡頭中都保持相同。有時，當 prompt 要一個黃色氣球時，生成結果甚至可能不是黃色的。有時，氣球上可能嵌入了一張臉，或者似乎在氣球的正面畫了一張臉。由於現實生活中許多氣球都有繩子，因此生成結果中稱為 Sonny 的氣球人經常會在衣服前襟處有一根繩子。這是因為 Sora 隱式地將繩子與氣球聯絡起來，因此在後期製作中這些需要被移除。

解析度

《Air Head》只使用了 Sora 生成的鏡頭，但其中很多鏡頭都經過了調色、處理和穩定化，所有鏡頭都被提高了解析度。團隊處理的這些片段最初是以較低解析度生成的，然後使用 Sora 或 OpenAI 之外的 AI 工具進行超分。

「你可以採用 720p 的解析度，我相信已經有 1080p 了，但它需要一段時間來渲染。為了速度，《Air Head》的所有鏡頭都是以 480p 製作的，然後使用 Topaz 來提高解析度」，Patrick 介紹道。

在關鍵幀方面，Patrick 解釋道：「在實際生成中，不同動作的發生有一點時間控制，但並不精確，甚至有點像是碰運氣 —— 目前還不確定 Sora 是否真的能完成這一點。」不過，Shy Kids 使用的是最早版本的模型，Sora 仍在不斷開發中。

除了選擇解析度，Sora 還允許使用者選擇長寬比，比如肖像模式或風景模式（或正方形）。這在從 Sonny 的牛仔褲向上搖攝到他的氣球頭的鏡頭中非常有用。遺憾的是，Sora 無法原生渲染這樣的移動，總是希望鏡頭的主要焦點 —— 氣球頭出現在鏡頭中。因此，團隊以肖像模式渲染了這個鏡頭，然後透過後期的裁剪手動建立了向上搖攝的效果。

攝像機方向

對於許多生成式 AI 工具來說，訓練資料附帶的後設資料是寶貴的資訊來源，比如攝像機後設資料。例如，如果在靜態照片上進行訓練，攝像機後設資料將提供鏡頭尺寸、光圈值以及其他許多對模型訓練至關重要的資訊。

在電影鏡頭中，「跟蹤」、「平搖」、「豎搖」、「推進」等概念都不是後設資料所能捕捉的術語或概念。

描述鏡頭對影片製作來說非常重要，Patrick 指出：「最初 Sora 中並沒有這個功能。不同的人描述電影鏡頭的方法也不同。OpenAI 的研究人員在藝術家使用這個工具之前，並沒有真正像電影製作人那樣思考。」

Shy Kids 知道他們使用的是 Sora 早期版本，但「初始版本的 Sora 在攝像機角度方面有點隨機。」Sora 是否真的能理解 prompt 還不得而知，OpenAI 的研究人員只是專注於視覺生成，或許不考慮故事講述者將如何使用它。

「Sora 正在改進，生成控制還沒有完全到位。輸入一個『攝像機搖攝』，我認為十次中有六次會得到想要的結果」，Patrick 說道。

這不是一個個例問題，幾乎所有 AI 影片生成公司都面臨著同樣的問題，Runway AI 可能是在提供描述攝像機運動方面最先進的，但 Runway 渲染片段的質量和長度都不如 Sora。

渲染時間

影片片段可以以不同長度的時間段進行渲染，如 3 秒、5 秒、10 秒、20 秒，最長可達一分鐘。渲染時間取決於一天中的時間段（例如早、中、晚）以及雲服務的需求量。

Patrick 介紹：「一般來說，每次渲染大約需要 10 到 20 分鐘。根據我的經驗，我選擇的渲染時長對渲染時間的影響很小。如果渲染時長是 3 到 20 秒，渲染時間往往不會在 10 到 20 分鐘的範圍內變化太大。」

雖然所有畫面都是 Sora 生成的，但《Air Head》仍然需要大量後期工作。例如，有時會有一張臉在氣球人 Sonny 上，就好像是用記號筆畫上去的，這些瑕疵將在後期工作中被移除。

原始素材 vs 最終成品 ——300:1

Shy Kids 的方法是像製作紀錄片一樣進行後期製作和編輯，即有很多鏡頭，你需要從這些素材中編織出一個故事，而不是嚴格按照劇本拍攝。雖然這部短片有一個劇本，但團隊需要靈活適應。

「這就像是得到一大堆鏡頭，然後嘗試以一種有趣的方式剪輯到旁白中」，Patrick 介紹道。

對於最終出現在影片中的 90 秒鏡頭，Patrick 估計他們生成了「數百個 10 到 20 秒的片段」。他補充說：「我猜原始素材和最終成品的比例大概是 300:1。」

奇怪的「慢動作」

《Air Head》的許多片段生成時就好像是以慢動作拍攝的，儘管這並沒有在 prompt 中被要求。這種情況發生的原因尚不清楚，但許多片段因此需要重新調整時間，以使其看起來像是實時拍攝的。這似乎與訓練資料有關。

值得一提的是，Shy Kids 在他們的 prompt 中使用了「35 mm film（35 毫米膠片）」這個關鍵詞，並發現這在一定程度上給了他們所追求的一致性。

版權問題

OpenAI 試圖尊重版權，不允許生成可能侵犯版權或侵犯肖像權的內容。例如，如果使用者的 prompt 類似於「35 毫米膠片，在一個未來主義的太空船中，一個男人拿著光劍向前走」，Sora 將不允許生成該片段，因為它太接近《星球大戰》了。

Patrick 回憶說，當他們最初只是想測試 Sora 時：「我不假思索地輸入了『阿羅諾夫斯基型別的鏡頭』，然後就被告知不能這樣做。」Sora 出於版權問題會拒絕這類 prompt。

值得注意的是，Sora 生成的影片都是沒有聲音的，《Air Head》中主角 Sonny 的聲音是 Patrick 本人的聲音。

Shy Kids 團隊表示已經開始為《Air Head》製作一部精彩的、人物有自我意識的、或許帶點諷刺意味的續集。但對於電影製作等實際專案來說，Sora 可能還需要一段時間才能達到創作者所需的精確度。

^{參考連結：}

^{https://www.fxguide.com/fxfeatured/actually-using-sora/}

^{https://www.youtube.com/watch?v=reMnn6bV_fI}

^{https://twitter.com/dotey/status/1783765343975960915}

“社群”生意爆紅的背後有哪些真相？
2019-07-24
全日程釋出｜Sora之後的影片生成技術與應用
2024-04-01
Sora
被吹爆的5.0上線國服之後
2019-10-23
小程式創業最後的紅利期
2019-02-27
創業
《黑神話：悟空》爆紅之後，我走進了遊戲科學
2020-09-14
遊戲
攻陷短影片後，Sora將需要72萬塊H100 GPU
2024-04-06
SoraGPU
Motion 5 for Mac(影片後期特效處理)
2020-08-26
Mac特效
Shader從入門到跑路：螢幕後處理效果
2020-03-17
被誤解的「中文版Sora」背後，位元組跳動有哪些技術？
2024-03-12
Sora
SpringBoot的幕後推手...
2018-06-01
Spring Boot
SD卡被格式化後如何找回原來的影片
2023-05-05
SD卡
欺騙的藝術——你被社工了嗎？
2022-10-08
騰訊：2019年電信網路詐騙治理研究報告 90後被騙概率高
2019-08-06
Motion 5 for Mac(影片後期特效處理軟體)
2022-08-11
Mac特效
宣佈 Epic 獨佔後，這個獨立遊戲被罵慘了
2019-08-07
遊戲
網路賭博騙局高發，90後00後為易受騙人群！
2020-04-17
我的小程式介面被刷爆了
2024-04-13
太厲害了！用了這個影片剪輯SDK，PR就可以拜拜了！
2022-05-18
幕後黑手 crontab
2020-04-18
帶貨短影片：爆款背後的底層邏輯（附下載）
2023-11-21
《動物森友會》爆紅背後，任天堂是怎麼“利用”人性的
2020-03-30
【雲中論道】揭祕短視訊爆紅背後的技術支柱
2018-04-19
躺平平臺背後，家居原創設計紅利等待爆發
2019-09-30
ZAO爆紅後致歉，AI換臉上演一出好戲
2019-09-04
AI
新火種AI|Sora爆火100小時：核心團隊被扒，賣課狂割韭菜，虛假影片氾濫
2024-02-20
AISora
影片生成SORA隨想
2024-04-25
Sora
成為爆款後，《原神》怎樣才能走得更遠？
2020-11-03
後期乾貨：影視後期調色
2018-12-07
在選擇短影片直播系統原始碼看這幾點，後期可省心省力
2021-04-19
原始碼
影片後期特效處理：Motion 5 for Mac 中文版
2024-01-28
特效Mac
在網上玩ag遊戲贏後提現系統顯示餘額不足是被騙了嗎?
2019-06-23
遊戲
三年Java程式設計師，被無良HR欺騙，3輪面試都過了，最後慘被放鴿子
2020-12-04
Java程式設計師面試
[轉載][威脅情報]繼LNMP後oneinstack也被新增了後門！
2023-10-08
LNMP
ChatGPT強勢爆紅，背後的技術原理是？一文輕鬆搞懂！
2023-02-28
ChatGPT
Intel CPU被爆2大漏洞，或為其設計的祕密“後門”
2021-03-30
Intel
用了HTTPS，沒想到還是被監控了
2022-01-15
HTTP
自走棋熱度褪去後，《金剷剷之戰》何以持續爆紅？
2022-03-02
疫情後——養生越來越被重視了
2023-03-01

Sora爆紅影片幕後：被騙了，用了成噸的後期才有這效果

相關文章