一句話讓圖片動起來,蘋果發力大模型動畫生成,可直接編輯結果

机器之心發表於2024-03-04

蘋果最新的 AI 工具可以使用文字描述為影像製作動畫。


現階段,大模型驚人的創新能力持續影響著創意領域,尤其是以 Sora 為代表的影片生成技術,更是引領了新一代潮流。當大家都為 Sora 感到震撼的同時,或許蘋果的這項研究也值得大家關注一下。

在一篇名為 「Keyframer: Empowering Animation Design using Large Language Models 」的研究中,來自蘋果的研究者釋出了一個可以利用 LLM 生成動畫的框架 Keyframer,該框架允許使用者採用自然語言提示來建立靜態 2D 影像的動畫。

圖片

論文地址:https://arxiv.org/pdf/2402.06071.pdf

具體而言,該研究結合了基於語言提示設計工件的新興設計原則和 LLM 的程式碼生成能力,構建了一個新的 AI 驅動的動畫工具 Keyframer。透過 Keyframer,使用者可以透過自然語言提示,從靜態 2D 影像建立動畫插圖。藉助 GPT-4,Keyframer 可以生成 CSS 動畫程式碼,使輸入的 SVG(Scalable Vector Graphic)動畫化。

除此以外,Keyframer 支援使用者透過多種編輯器型別直接編輯生成的動畫。

使用者還可以透過連續提示和請求 LLM 生成的設計變體來迭代他們的設計,以在新的設計方向上進行構思。不過,Keyframer 尚未公開。

之所以做這項研究,蘋果表示 LLM 在動畫中的應用尚未得到充分探索,並帶來了新的挑戰,例如使用者如何有效地用自然語言描述運動。現階段雖然文生圖工具如 Dall・E 和 Midjourney 等效果出色,但動畫設計需要考慮更復雜的因素,例如時間以及協調性,這些因素很難在單個提示中全面概括。

至於這項研究的效果如何,使用者只需上傳影像,在提示框中輸入「讓星星閃爍」之類的內容,然後點選生成即可。

圖片

使用者可以在一個批次中生成多個動畫設計,並在單獨的視窗中調整顏色程式碼和動畫持續時間等屬性。無需任何編碼經驗,因為 Keyframer 會自動將這些更改轉換為 CSS,程式碼本身也是完全可編輯的。這種基於描述的方法比其他形式的人工智慧生成動畫簡單得多,後者通常需要多個不同的應用程式和一些編碼經驗。

Keyframer 介紹

Keyframer 是一款由 LLM 驅動的應用程式,旨在從靜態影像建立動畫。Keyframer 可以充分利用 LLM 的程式碼生成能力,以及靜態向量圖(SVG)的語義結構,從而根據使用者提供的自然語言提示生成動畫。

圖片

輸入:該系統提供了一個輸入區域,使用者可以在其中貼上他們想要動畫化的 SVG 影像程式碼(SVG 是一種標準且流行的影像格式,在插圖中因其可伸縮性及在多個平臺上的相容性而常用)。在 Keyframer 中,SVG 的渲染顯示在程式碼編輯器旁邊,以便使用者可以預覽影像的視覺設計,如圖 2 所示,土星插圖的 SVG 程式碼包含了如天空、光環等識別符號。

圖片

GPT 提示:該系統允許使用者輸入自然語言提示來建立動畫。使用者可以請求單個設計(讓行星旋轉)或多個設計變體(建立 3 個星星閃爍的設計),之後單擊「生成動畫」按鈕開始請求。在將使用者請求傳遞給 GPT 之前,該研究會用完整的原始 SVG XML 完善其提示,並指定 LLM 響應的格式。

GPT 輸出:一旦提示請求開始,GPT 就會傳輸響應,該響應由一個或多個 CSS 片段組成,如圖 3 所示。

圖片

渲染:渲染部分包括(1)每個動畫進行視覺化渲染以及由 LLM 生成的 1 句解釋(2)一系列用於修改設計的編輯器。

其中程式碼編輯器使用 CodeMirror 實現;屬性編輯器為編輯程式碼提供了特定於屬性的 UI,例如為了編輯顏色,該研究提供了一個顏色選擇器。圖 5 顯示了程式碼編輯器與屬性編輯器圖示。

圖片

迭代:為了支援使用者在動畫建立過程 (DG1) 中進行更深入的探索,該研究還提供了一項功能,允許使用者使用提示在生成的動畫上迭代構建。每個生成的設計下面都有一個按鈕「 + Add New Prompt 」;單擊此按鈕會在頁面底部開啟一個新表單,供使用者使用新提示擴充套件其設計。

儲存設計的側邊欄以及摘要。該系統允許使用者對設計加註星標進行收藏並將其新增到側邊欄,如圖 6 右側所示。此外,該系統還有一個摘要模式,其能隱藏所有文字編輯器並顯示動畫及其提示,使使用者能夠快速重新訪問以前的提示和設計。

圖片

實驗過程中,蘋果團隊選擇了 13 名參與者(6 名女性,7 名男性)試用 Keyframer。表 1 為參與者的一些資訊及其掌握的技能。

甚至專業動作設計師「EP13」也看到了 Keyframer 擴充套件其能力的潛力:「我有些擔心這些工具會取代我們的工作,因為它的潛力如此之大。但細細想來,這項研究只會提高我們的技能。應該是件值得高興的事情。」

圖片

總體而言,參與者對 Keyframer 的使用體驗感到滿意。參與者給出的平均分數為 3.9 ,介於滿意 (4) 和中立 (3) 之間。參與者生成了 223 種設計。平均來看,每位參與者生成 17.2 個設計。圖 8 顯示了兩個參與者的最終動畫示例。

圖片

更多技術細節請參閱原論文。

相關文章