人剛畢業,顛覆整個AI界:扒一扒Sora兩帶頭人博士論文

机器之心發表於2024-07-01

看看這個時代最偉大 AI 學者的研究脈絡。

2024 年是生成式 AI 元年,才到 2 月,OpenAI 就用 Sora 把競爭推向了影片生成的新高度。

我們都還記得初見 Sora 作品時受到的震撼,感嘆其他競爭對手想要趕上 OpenAI,至少也得需要個半年到一年的時間。

Sora 釋出後,其開發團隊自然也成為關注焦點,人們都想知道具有跨時代意義的 AI 技術是如何被開發出來的。DiT 模型作者謝賽寧曾表示:「他們每天基本不睡覺高強度工作了一年」。

隨著時間推移,答案正被慢慢揭曉。

以下是 OpenAI 技術報告中,Sora 的十三位作者:

圖片

其中的前兩位,Tim Brooks、Bill Peebles,他們被認為是「Sora 之父」,擔任 OpenAI Sora 專案研究主管,又十分年輕 —— 兩人都是 2023 年剛剛從加州大學伯克利分校(UC Berkeley)博士畢業的。

在 Sora 技術公開後,他們曾共同進行宣講,接受過很多媒體採訪。

圖片

圖片中間為 Tim Brooks,右側為 Bill Peebles。

看兩人的工作經歷,他們分別是在 2023 年 1 月和 3 月加入 OpenAI 的。

圖片

我們知道,2022 年 11 月 30 日,OpenAI 的 ChatGPT 橫空出世,由此掀起了大模型「顛覆世界」的浪潮。

他們追隨傳奇而來,如今回頭望去,自己也成為了傳奇。

作為 Sora 背後的主要推動者,Tim Brooks、Bill Peebles 兩人的博士畢業論文,也都是以 AI 影片生成為主題的。是時候從技術發展的角度,來研究一下 Sora 的來龍去脈了。

Tim Brooks

圖片

個人主頁:https://www.timothybrooks.com/about/

Tim Brooks 博士畢業於 UC Berkeley 的「伯克利人工智慧研究所」BAIR,導師為 Alyosha Efros。

在博士就讀期間,他曾提出了 InstructPix2Pix,他還曾在谷歌從事為 Pixel 手機攝像頭提供 AI 演算法的工作,並在英偉達研究過影片生成模型。博士畢業後,Tim Brooks 加入 OpenAI,參與過 GPT-4、Sora 等多項研究。

2023 年,Tim Brooks 順利畢業,博士論文接近 100 頁。論文題目為《Generative Models for Image and Long Video Synthesis 》。

圖片

論文地址:https://www2.eecs.berkeley.edu/Pubs/TechRpts/2023/EECS-2023-100.pdf

論文簡介

在這篇博士論文中,Tim Brooks 提出了將影像和影片生成模型用於一般視覺內容創作的基本要素,主要體現在三個方面:

首先,論文介紹了長影片生成相關研究,並提出一種網路架構和訓練正規化,用於從影片中學習長程時間模式,這是將影片生成從較短的剪輯推進到較長形式且連貫影片的關鍵挑戰。

接下來,論文介紹了基於人體姿態生成場景影像的研究,展示了生成模型用來表示人與周圍環境之間關係的能力,並強調了從大型且複雜的日常人類活動資料集中學習的重要性。

最後,論文介紹了一種透過結合大型語言模型和文字到影像模型的能力來建立監督訓練資料,從而指導生成模型遵循影像編輯指令的方法。這些工作共同提升了生成模型合成影像和長影片的能力。

Tim Brooks 表示,在他讀博期間(2019-2023 年),影像和影片生成模型已經從小範圍的演示發展成被廣泛採用的創意工具。他非常慶幸自己能在這個關鍵的時刻攻讀視覺生成模型的博士學位,他也對生成模型充滿了信心。

接下來我們介紹一下 Tim Brooks 博士論文每章節的主要內容。

第 2 章專注於生成具有豐富動態和新內容的長影片。圖 2.1 展示了模型能夠生成豐富的運動和場景變化。

圖片人剛畢業,顛覆整個AI界:扒一扒Sora兩帶頭人博士論文


來源:https://www.timothybrooks.com/tech/long-video-gan/

本章的主要貢獻是一個分層生成器架構,生成器概覽圖如下所示。

圖片

第 3 章介紹了從反映日常人類活動的複雜現實世界資料中學習的研究。人、物體及其周圍環境之間的相互作用提供了有關世界的豐富資訊來源。Tim Brooks 提出了一種透過條件生成模型學習這些關係的方法。早期的生成模型主要集中在特定的內容類別上,例如人臉或特定的物件類。這項工作將生成模型擴充套件到用人類建模複雜場景的領域。只要輸入一個人的骨骼姿態,該模型就能夠生成與該姿態相容的合理場景。該模型既可以生成空場景,也可以生成輸入姿態中有人類的場景。

圖片

本小節還設計了一個條件 GAN 來生成與人類姿態相容的場景,網路架構基於 StyleGAN2 ,如圖 3.3 所示。

圖片

這篇論文還強調了透過對日常人類活動的大型視覺資料集進行訓練,來理解視覺世界複雜關係的能力。

圖片

第 4 章提出了一種新技術,教生成模型遵循人類編輯指令。圖 4.1 顯示了模型執行影像編輯指令的示例,圖 4.2 顯示了在文字訊息會話中使用的模擬介面。

圖片

圖片

由於難以大規模獲取基於指令的影像編輯訓練資料,該研究提出了一種生成配對資料集的方法,該方法結合了多個在不同模態上預訓練的大型模型:大型語言模型(GPT-3 )和文字到影像模型(Stable Diffusion)。這兩個模型捕獲了關於語言和影像的互補知識,可以將它們結合起來為跨兩種模態的任務建立配對訓練資料,而這兩種模態中的任何一個都無法單獨完成。

使用生成的配對資料,Tim Brooks 訓練了一個條件擴散模型,該模型在給定輸入影像和有關如何編輯文字指令的情況下,生成編輯後的影像。該模型可以直接在前向傳播中執行影像編輯,不需要任何其他示例影像、輸入 / 輸出影像的完整描述或每個示例的微調。儘管模型完全在合成示例上進行訓練,但其實現了對任意真實影像和人類指令的零樣本泛化。該模型可以按照人類指令執行各種編輯:替換物件、更改影像樣式、更改設定、藝術媒介等。

圖片

最後,我們看一下論文中的一些結果。

圖片

圖片

與其他方法的比較結果如下:

圖片

圖片

總的來說,這篇博士論文確定了未來視覺生成模型的三個關鍵組成部分:隨著時間的推移建模長程模式,從複雜的視覺資料中學習,以及遵循視覺生成指令。這三個要素對於開發超級智慧至關重要,因為它可以執行復雜的視覺創造任務,幫助人類創造,並將人類的想象力帶入生活。

William (Bill) Peebles

圖片

個人主頁:https://www.wpeebles.com/

2023 年,William (Bill) Peebles 在伯克利人工智慧研究中心獲得了博士學位,導師是 Alyosha Efros,與 Tim Brooks 師出同門。

William (Bill) Peebles 本科畢業於麻省理工學院,曾在 FAIR、Adobe Research 和 NVIDIA 實習過。在攻讀博士學位期間,他得到了美國國家科學基金會(NSF)研究生研究獎學金計劃的支援。

William (Bill) Peebles 的博士論文以影像生成模型為主題,論文題目是《Generative Models of Images and Neural Networks》。

圖片

論文地址:https://www.proquest.com/openview/818cd87d905514d7d3706077d95d80b5/1?pq-origsite=gscholar&cbl=18750&diss=y

論文簡介

大規模生成模型推動了人工智慧的最新進展。這種正規化使得人工智慧的許多問題取得了突破,其中自然語言處理(NLP)領域是最大的受益者。

給定一個新任務,預訓練生成模型可以零樣本地解決該任務,也可以在少量特定於任務的訓練樣本上進行有效的微調。

然而,在視覺、元學習等領域,生成式模型的進展卻落後了。

William (Bill) Peebles 的博士論文研究了訓練改進的、可擴充套件的兩種模態(影像和神經網路引數)的生成式模型的方法,並研究瞭如何利用預訓練生成式模型來解決其他下游任務。

首先,該論文證明保留了擴散模型影像生成擴充套件特性的擴散 transformer(DiT),優於之前主導該領域的卷積神經網路。

圖片

圖片

值得注意的是,DiT 架構是在一篇題為《Scalable Diffusion Models with Transformers》的論文中被正式提出的,第一作者就是 William Peebles,另外一位論文作者是紐約大學的謝賽寧。

圖片

然後,William (Bill) Peebles 的博士論文提出了一種新型學習框架,旨在基於構建新資料來源(神經網路檢查點)的生成式模型進行學習。

該論文建立了包含數十萬次深度學習訓練執行的資料集,並使用它來訓練生成式模型。給定起始引數向量和目標損失、錯誤或獎勵,在此資料上訓練的損失條件擴散模型可以對實現所需指標的引數更新進行取樣。

這種方法克服了以前元學習演算法的許多困難 —— 它可以最佳化不可微目標,並省去不穩定的展開最佳化方法。與 SGD 和 Adam 等基於梯度的迭代最佳化器無法從最佳化歷史中學習不同,該論文提出的生成模型只需一次生成的引數更新即可透過隨機初始化來最佳化神經網路。

圖片

該論文證明,預訓練 GAN 生成器可用於建立無限資料流來訓練網路,以解決密集視覺相關問題,而無需任何人工註釋的監督。該論文表明,採用完全由 GAN 生成的資料進行訓練的神經網路,效能優於之前在真實資料上訓練的自監督和關鍵點監督方法。

圖片

該論文將所提框架應用於視覺和強化學習問題,並探討了如何使用預訓練影像級生成模型來處理視覺領域的下游任務,而無需特定於任務的訓練資料。

圖片

參考內容:

https://www.timothybrooks.com/about/

https://www.wpeebles.com/

相關文章