再談復現 Sora:被仰望與被遺忘的

机器之心發表於2024-03-27

2月16日,OpenAI 釋出了影片生成領域的重磅模型 —— Sora。

Sora 對 Scaling Law 的信仰及其突破性的技術創新,使它持續保持領先地位。同時,也再次證明了“大力出奇跡”依然適用於文生影片領域。

Sora 披露的技術細節,遠遠不足以窺其全貌。同時 Sora 目前也未正式對外開放。源於此,針對 Sora 的思考和討論從未停止過。圖片

OpenAI 釋出的技術報告

Sora 給整個 AI 領域帶來的最大沖擊,莫過於如何最佳化和校正現有的影片生成思路和框架。而由此也引發了持續至今的復現 Sora 的熱潮。

復現 Sora 的動力,一方面來自技術人員的技術執著與技術理想,另一方面也來自於未來可預期的商業價值。

另外,不容忽視的是,這家持續被戲稱為 CloseAI 的人工智慧技術研究機構,已然成為了行業內的標杆,幾乎每次釋出的產品都能帶來顛覆式的創新。但是 OpenAI 似乎在堅持閉源的道路上越走越遠,這更加點燃了大眾對復現 Sora 的激情。我們可以相信未來的幾個月內,多個類 Sora 模型將會陸續釋出,並將開源出來。

Sora 釋出後的這一個多月來,其相關技術創新的討論和復現的進度如何呢?下面我們一起來看看。

關於復現 Sora,本文從以下三方面展開:

  • 距離 Sora 釋出一個多月了,目前復現的進度如何?
  • 復現的可能性有多大?國內有什麼技術基礎?
  • Sora 到底是不是世界模型?能否幫助我們抵達 AGI?有沒有必要復現?

類 Sora 模型


目前已經推出且討論較多的三個模型分別是 Snap Video、Open-Sora 1.0,以及 Mora。

  • Snap Video
圖片
Snap Video 是2月29日釋出的類 Sora 模型,它使用到了可擴充套件的時空 Transformer,來自開發出 SnapChat 圖片分享軟體的 Snap 公司,以及特倫託大學等機構。
傳送門:《首批類Sora模型出現,色拉布上線Snap Video,效果優於Pika、不輸Gen-2

  • Open-Sora 1.0圖片
Open-Sora 1.0 是3月18日全面開源的首個類 Sora 模型,來自 Colossal-AI 團隊,該開源模型涵蓋了整個訓練流程,包括資料處理、所有訓練細節和模型權重
傳送門:《沒等來OpenAI,等來了Open-Sora全面開源》
  • Mora圖片

Mora 是幾天前由理海大學、微軟研究院的研究者提出的多智慧體框架,該框架整合了幾種先進的視覺 AI 智慧體,以複製 Sora 所展示的通用影片生成能力。
傳送門:《復刻Sora的通用影片生成能力,開源多智慧體框架Mora來了》

儘管目前的模型復現效果依然無法企及 Sora,但是短短一月有餘,已經有明顯的技術突破出現,不失為一個樂觀的訊號。據不完全統計,國內已有近 10 支團隊在復現 Sora,讓我們拭目以待。

先於 DiT 的技術架構創新


Sora 使用的 DiT(Diffusion Transformer) 架構目前來看是其最大的技術創新,但追溯來看,也許國內相關的進度更早一些。
  • U-ViT 架構

圖片 U-ViT 架構

2022年9月,清華團隊提交的名為《All are Worth Words: A ViT Backbone for Diffusion Models》的論文,比 DiT 還要早 2 個月。該論文提出用基於 Transformer 的網路架構 U-ViT 替代基於 CNN 的 U-Net,這與 Sora 將 Transfomer 和擴散模型融合的思路不謀而合。
傳送門:《國內公司有望做出Sora嗎?這支清華系大模型團隊給出了希望》
  • VDT

圖片
2023年5月在 arXiv 網站上公開的 Video Diffusion Transformer (VDT),是由中國人民大學研究團隊主導,並與加州大學伯克利分校、香港大學等進行合作的,基於 Transformer 的 Video 統一生成框架。對採用 Transformer 架構的原因也給出了詳細的解釋。
傳送門:《國內高校打造類Sora模型VDT,通用影片擴散Transformer被ICLR 2024接收》

也許在核心技術的創新上,國內的探索並不落後,而是走在了前面。不過,囿於資源限制以及技術路線規劃等其他原因,沒能在之前實現類似 Sora 的效果。

Sora 無疑驗證出了一條技術可行性的道路,而我們本身在技術架構上的領先探索,將更有利於我們復現出 Sora,甚至可以更加樂觀地相信,在某些領域內超越 Sora 的效果。

Sora 是世界模型嗎?


由 Sora 引發的另一個熱點討論,是關於世界模型的。
圖片
Sora 生成的影片無疑對物理世界有了一定了解,比如經典的“海盜船在咖啡杯裡糾纏”,肉眼可見能涉及到專業的流體動力學、光線等物理世界的特徵。

但是以 Yann LeCun 為代表的一部分科學家力證 Sora 的訓練方式和世界模型沒有關係。

那 Sora 是不是世界模型,到底懂不懂物理世界?關於這個討論已經蔓延至各個論壇和直播中。可見對於究竟什麼是世界模型這個話題,大家也是見仁見智的。

而我們能明確的是,如果 Sora 是世界模型,那通往通用人工智慧(AGI)的理想,可能比我們預計的還要早到達。那復現 Sora 就有了一定的必要性。

關於 Sora,我們保持著好奇,並持續探求以下問題的可能答案。

  • Sora 之前的影片生成架構/技術還能不能用?如何用?

  • Sora 之後,誰是被遺忘的?誰又是被仰望的?

  • Sora 之外,其他創業公司/團隊要如何做?做什麼?

  • Sora 會改變主流的技術架構嗎?以 DiT 為代表的架構是以後主流的架構選擇嗎?

  • 國內技術力量應不應該復現 Sora?為什麼?

  • 已知有近 10 支團隊在復現 Sora,我們可能看到的未來格局是什麼?

  • 為什麼是 OpenAI? OpenAI 的模式能否復刻?

  • Sora 之後,全球的影片生成格局是怎樣的?又將如何發展和變化?

  • 如何看待一些明星創業公司公開表示不做 Sora?

  • 多模態大模型的未來在哪裡?

  • 不同視角下,如何看待 Sora 的衝擊?(投資人、非技術人、央國企、AI 創業者、從業者等視角)

  • OpenAI 扮演著什麼樣的社會角色?你如何看待這家公司?

  • ……

Sora 帶來的衝擊是顛覆式的,因此對以上問題的求解將持續進行著。而作為聚焦於 AI 前沿技術探索和應用實踐的團隊,機器之心 AI 技術論壇再次將視線放在了影片生成領域。
圖片
4月13日,在北京六道口,我們策劃了一期技術論壇,聚焦 Sora 釋出後的技術創新、思考與應用實踐。活動現場匯聚多位重磅嘉賓,同時我們也會更加深入地探討上面提到的問題。

在可預見的未來,相信本次活動能產生一定的積極作用和啟發,以期推動我國 AI 開源社群的技術發展和傳播。

嘉賓陣容


本次論壇的嘉賓陣容強大,我們邀請到了:

  • 業內的知名技術專家張俊林老師,來一場 Sora 核心技術的深度拆解
  • 爆火的影片生成模型 PixelDance 的作者,來自位元組跳動的曾妍老師,分享 PixelDance 背後的技術創新和應用
  • 類 Sora 模型 VDT 的團隊負責人,來自中國人民大學孵化的創業公司——智子引擎的 CEO 高一釗博士,詳細拆解 VDT 的技術創新和實踐
  • 投資人是 AI 領域離不開的重要角色,陳石老師作為峰瑞資本的投資合夥人,將帶來投資人/機構視角下的獨特觀察
  • 國央企在 Sora 釋出後迅速響應,佔據了 AI 領域一席之地,來自中移動資訊科技有限公司的演算法技術負責人童同老師,將會分享他的全新思考
  • 類 Sora 模型 Open-Sora 1.0 的技術負責人,來自潞晨科技的 CTO 卞正達老師,更是會詳細拆解如何復現 Sora,以及來自他們團隊的獨特思考與實踐
  • 還有更多重磅嘉賓,陸續邀請中……
圖片

張俊林

中國中文資訊學會理事,中科院軟體所博士

目前擔任新浪微博新技術研發負責人,此前在阿里巴巴擔任資深技術專家,負責新技術團隊。技術書籍《這就是搜尋引擎:核心技術詳解》、《大資料日知錄:架構與演算法》作者。
圖片

曾妍

ByteDance Research 演算法工程師

專注於影片生成和多模態預訓練等領域的前沿研究。主導研發的模型為位元組跳動影片生成、短影片稽核、電商客服、今日頭條、教育解題等業務提供了有力服務,並以第一作者身份將相關的八篇論文發表在 TPAMI, ICML, CVPR, ACL 等國際頂級會議和期刊,同時也擔任了 TPAMI, ICML, NIPS, ICLR 等會議的審稿人。主導研發的 PixelDance 影片生成基礎模型在業界首次實現了高動態性和穩定性的結合,並首次生成了3分鐘的連續劇情動畫。
圖片

峰瑞資本 投資合夥人

專注於科技、軟體、網際網路、消費等領域的投資。加入峰瑞資本前,擁有 5 年阿里巴巴管理層經歷,曾擔任阿里巴巴移動事業群副總裁、阿里巴巴文化娛樂集團高管、優酷和 UC 國際班委,深度參與 UC、高德、優酷、土豆、神馬搜尋、UC 國際等產品線的業務決策和管理執行。

15+ 年連續創業,作為核心管理團隊成員深度參與 UC(全球最大第三方手機瀏覽器,2014 年被阿里巴巴收購)和拉卡拉(中國知名第三方支付公司,SZ:300773)的創業過程,分別擔任副總裁和 CTO;曾經是一名快樂的程式設計師,使用者增長專家,科技熱愛者。

擁有北京航空航天大學機電工程系本科和碩士學歷。2023 年獲評 EqualOcean「2023年出海全球化投資TOP30人」、甲子光年「2022-2023 年度人工智慧與大資料最佳投資人TOP20」。
圖片

高一釗

智子引擎 CEO

中國人民大學高瓴人工智慧學院博士。多模態大模型專家,發表多篇頂級期刊、會議論文,曾帶領多人團隊完成文瀾大模型訓練。全程參與智子引擎相關模型、產品的開發與推廣。
圖片

卞正達

潞晨科技 CTO

畢業於新加坡國立大學,曾在全球超算最頂尖會議 SC 上發表一作論文,擁有 7 年高效能 AI 系統經驗,Colossal-AI 系統核心開發者。
圖片

童同

中移動資訊科技有限公司 演算法技術負責人

中國科學院自動化研究所 AI 博士。目前在中移動資訊科技有限公司負責多模態大模型、數字人、智慧體等領域研發工作,實現了文生圖、文生影片、大模型動作識別與目標檢測等關鍵技術的落地應用。共發表論文 12 篇、公司專利 12 項、軟著 4 項。

更多專家正在確認中,敬請期待。

影片生成技術與應用 - Sora 時代


機器之心 AI 技術論壇時刻保持對 AI 領域技術突破的敏感追蹤,為了深入探究 Sora 對技術的衝擊和對各行各業帶來的影響,我們特別策劃了「影片生成技術與應用 — Sora 時代」AI 技術論壇。

希望助力廣大企業和從業者緊跟技術發展潮流,全面瞭解 Sora、影片生成技術、多模態大模型等前沿領域的技術突破和應用實踐。

面對撲面而來的 AI 影片生成,積極擁抱學習並敢於嘗試,才能抓住技術潮流,破局而生。

期待 2024.04.13,在北京海淀區,和你相遇。

圖片

論壇報名通道正式開啟,掃描海報中二維碼可直達活動頁面。由於嘉賓介紹釋出時間較晚,本場論壇的早鳥優惠期有所延長。

即日起至04月07日23:55,購票參會即可直減 200 元, 享受 699 元早鳥特惠門票(原價 899 元)。五人團購更有專屬優惠,詳見活動詳情頁。

機器之心 AI 技術論壇往期的參會者,請單獨新增 Alice 微信,直達專屬優惠連結。

活動亮點

  • 贈送永久觀看上一期「影片生成前沿研究與應用」論壇活動影片及課件(上期活動已購請聯絡 Alice 扣減,本期購買後記得找 Alice 兌換上一期影片)
  • 永久觀看本期「影片生成技術與應用 - Sora 時代」論壇活動會後影片及課件
  • 匯聚高校教授及產業界重磅技術專家,掌握最新技術,拓寬技術視野
  • 和技術大牛面對面交流,會後深度連線
  • 覆蓋核心技術拆解、明星產品最佳實踐、技術未來探討及展望
  • 全流程助力學習:會前會後學習資料大禮包
  • 加入影片生成高質量技術交流社群,及時跟進行業前沿技術與資訊
  • 機器之心旗下相關付費活動享購票八五折優惠

技術交流社群

為了方便技術交流,我們也特意建立了影片生成技術交流群,歡迎關心 Sora、影片生成和多模態大模型的技術從業者掃碼加入對話,深入交流技術細節和行業觀察。
圖片
關於本次活動商務合作、團購、發票、內容等相關問題,歡迎新增本場活動負責人 Alice 或透過郵件進行諮詢。

微信:15650753618
郵箱:jiayaning@jiqizhixin.com

關於發票:報名成功後,可於活動結束後,在活動行 App 上自行申請發票,發票為電子版增值稅普票,開票成功後會傳送到報名郵箱中。

成為論壇志願者:參與活動現場的具體事項執行,如簽到、引導、秩序管理等,包工作餐。在校學生優先。有意者請聯絡 Alice。

相關文章