今年 2 月份,OpenAI 釋出了人工智慧文生影片大模型 Sora,並放出了第一批影片片段,掀起了 AI 生成影片浪潮。目前,Sora 仍未進行公測,只有一些視覺藝術家、設計師、電影製作人等獲得了 Sora 的訪問許可權。他們釋出了一些 Sora 生成的影片短片,其連貫、逼真的生成效果令人驚豔。 最近,被譽為「朋克搖滾皮克斯」的加拿大多媒體制作公司 Shy Kids 釋出了一段藉助 Sora 製作的影片短片《Air Head》,在社交媒體上迅速引起廣泛關注。
據悉,這部製作精美的短片主要由 3 個人完成,花費不到 2 周的時間。其中,Sidney Leeder 擔任製片人,Walter Woodman 擔任編劇和導演,而 Patrick Cederberg 負責後期製作。 本週,知名視覺特效總監 Mike Seymour 採訪了 Patrick Cederberg,就《Air Head》製作過程、技術難點等資訊展開了提問,並在 fxguide 上釋出一篇文章介紹了 Sora 在影片實際製作過程中發揮的作用和存在的問題。
Patrick Cederberg 其中,Patrick 表示:「Sora 是一款非常強大的工具,我們已經在思考如何把它融入現有電影製作流程中,但目前 Sora 仍處於測試階段,在影片製作過程中也會『翻車』。例如,氣球的顏色在每次生成中都會改變、鏡頭中會出現一些瑕疵等等,要想獲得最佳表現效果,仍需大量後期製作。」 AI 生成影片並非僅僅是影像生成器的進階版。更準確地說,它們可能是我們向通用人工智慧(AGI) 邁出的重要一步。但正如 Sora 開發團隊本週接受採訪時所說的,當前的 AI 影片模型仍處於早期階段。
OpenAI 研究科學家,Sora 專案領導者 Tim Brooks 表示:我覺得現在 Sora 位置,就像是視覺模型新正規化的 GPT-1 階段。 《Air Head》是如何完成的?機器之心對 Mike Seymour 的文章進行了不改變原意的編譯、整理,以下是該文章原文: 使用者介面(UI) Sora 的使用者介面允許使用者輸入一段文字 prompt,然後 ChatGPT 將其轉換為一個更長的字串,再觸發影片片段的生成。目前,沒有其他輸入方式 —— 還沒有實現多模態輸入。這一點很重要,因為儘管 Sora 因其生成結果中的物件一致性而受到稱讚,但目前還沒有任何方法來幫助匹配兩個鏡頭(即兩次生成)的內容。即使第二次執行相同的 prompt,生成結果也會不同。 Patrick 介紹說:「我們儘可能做到的是在我們的 prompt 中給出超級詳細的描述,例如解釋角色的服裝、氣球的型別。這是我們獲得一致性的方法。從一個鏡頭到另一個鏡頭 / 一次生成到下一次生成,還沒有完全控制一致性的方法。」單個影片片段的確可以展現 Sora 令人驚歎的技術,但使用這些片段取決於你對隱式或顯式鏡頭生成的理解。 假設你要求 Sora 在廚房裡進行一個長鏡頭跟蹤拍攝,桌子上有一個香蕉。在這種情況下,它將依賴其對「香蕉屬性」的隱式理解來生成一個展示香蕉的影片。透過訓練,Sora 已經學習了一些香蕉屬性:比如「黃色」、「彎曲」、「有深色的末端」等等。沒有香蕉的實際記錄影像。沒有「香蕉資料庫」,而是有一個更小的、壓縮的、隱藏的「潛在空間」,描述了香蕉是什麼,每次執行都會展示對潛在空間的一種新解釋。你的 prompt 依賴於對香蕉屬性的隱式理解。 製作角色 為了製作《Air Head》,團隊根據大致的劇本生成了多個影片片段,但是沒有明確的方式來確保黃色氣球頭在每個鏡頭中都保持相同。有時,當 prompt 要一個黃色氣球時,生成結果甚至可能不是黃色的。有時,氣球上可能嵌入了一張臉,或者似乎在氣球的正面畫了一張臉。由於現實生活中許多氣球都有繩子,因此生成結果中稱為 Sonny 的氣球人經常會在衣服前襟處有一根繩子。這是因為 Sora 隱式地將繩子與氣球聯絡起來,因此在後期製作中這些需要被移除。
解析度 《Air Head》只使用了 Sora 生成的鏡頭,但其中很多鏡頭都經過了調色、處理和穩定化,所有鏡頭都被提高了解析度。團隊處理的這些片段最初是以較低解析度生成的,然後使用 Sora 或 OpenAI 之外的 AI 工具進行超分。「你可以採用 720p 的解析度,我相信已經有 1080p 了,但它需要一段時間來渲染。為了速度,《Air Head》的所有鏡頭都是以 480p 製作的,然後使用 Topaz 來提高解析度」,Patrick 介紹道。 在關鍵幀方面,Patrick 解釋道:「在實際生成中,不同動作的發生有一點時間控制,但並不精確,甚至有點像是碰運氣 —— 目前還不確定 Sora 是否真的能完成這一點。」不過,Shy Kids 使用的是最早版本的模型,Sora 仍在不斷開發中。 除了選擇解析度,Sora 還允許使用者選擇長寬比,比如肖像模式或風景模式(或正方形)。這在從 Sonny 的牛仔褲向上搖攝到他的氣球頭的鏡頭中非常有用。遺憾的是,Sora 無法原生渲染這樣的移動,總是希望鏡頭的主要焦點 —— 氣球頭出現在鏡頭中。因此,團隊以肖像模式渲染了這個鏡頭,然後透過後期的裁剪手動建立了向上搖攝的效果。 攝像機方向 對於許多生成式 AI 工具來說,訓練資料附帶的後設資料是寶貴的資訊來源,比如攝像機後設資料。例如,如果在靜態照片上進行訓練,攝像機後設資料將提供鏡頭尺寸、光圈值以及其他許多對模型訓練至關重要的資訊。 在電影鏡頭中,「跟蹤」、「平搖」、「豎搖」、「推進」等概念都不是後設資料所能捕捉的術語或概念。 描述鏡頭對影片製作來說非常重要,Patrick 指出:「最初 Sora 中並沒有這個功能。不同的人描述電影鏡頭的方法也不同。OpenAI 的研究人員在藝術家使用這個工具之前,並沒有真正像電影製作人那樣思考。」 Shy Kids 知道他們使用的是 Sora 早期版本,但「初始版本的 Sora 在攝像機角度方面有點隨機。」Sora 是否真的能理解 prompt 還不得而知,OpenAI 的研究人員只是專注於視覺生成,或許不考慮故事講述者將如何使用它。 「Sora 正在改進,生成控制還沒有完全到位。輸入一個『攝像機搖攝』,我認為十次中有六次會得到想要的結果」,Patrick 說道。 這不是一個個例問題,幾乎所有 AI 影片生成公司都面臨著同樣的問題,Runway AI 可能是在提供描述攝像機運動方面最先進的,但 Runway 渲染片段的質量和長度都不如 Sora。 渲染時間 影片片段可以以不同長度的時間段進行渲染,如 3 秒、5 秒、10 秒、20 秒,最長可達一分鐘。渲染時間取決於一天中的時間段(例如早、中、晚)以及雲服務的需求量。 Patrick 介紹:「一般來說,每次渲染大約需要 10 到 20 分鐘。根據我的經驗,我選擇的渲染時長對渲染時間的影響很小。如果渲染時長是 3 到 20 秒,渲染時間往往不會在 10 到 20 分鐘的範圍內變化太大。」 雖然所有畫面都是 Sora 生成的,但《Air Head》仍然需要大量後期工作。例如,有時會有一張臉在氣球人 Sonny 上,就好像是用記號筆畫上去的,這些瑕疵將在後期工作中被移除。