2月16日,OpenAI 釋出了影片生成領域的重磅模型 —— Sora。
Sora 對 Scaling Law 的信仰及其突破性的技術創新,使它持續保持領先地位。同時,也再次證明了“大力出奇跡”依然適用於文生影片領域。Sora 披露的技術細節,遠遠不足以窺其全貌。同時 Sora 目前也未正式對外開放。源於此,針對 Sora 的思考和討論從未停止過。 OpenAI 釋出的技術報告
Sora 給整個 AI 領域帶來的最大沖擊,莫過於如何最佳化和校正現有的影片生成思路和框架。而由此也引發了持續至今的復現 Sora 的熱潮。復現 Sora 的動力,一方面來自技術人員的技術執著與技術理想,另一方面也來自於未來可預期的商業價值。另外,不容忽視的是,這家持續被戲稱為 CloseAI 的人工智慧技術研究機構,已然成為了行業內的標杆,幾乎每次釋出的產品都能帶來顛覆式的創新。但是 OpenAI 似乎在堅持閉源的道路上越走越遠,這更加點燃了大眾對復現 Sora 的激情。我們可以相信未來的幾個月內,多個類 Sora 模型將會陸續釋出,並將開源出來。Sora 釋出後的這一個多月來,其相關技術創新的討論和復現的進度如何呢?下面我們一起來看看。- 距離 Sora 釋出一個多月了,目前復現的進度如何?
- Sora 到底是不是世界模型?能否幫助我們抵達 AGI?有沒有必要復現?
類 Sora 模型
目前已經推出且討論較多的三個模型分別是 Snap Video、Open-Sora 1.0,以及 Mora。Snap Video 是2月29日釋出的類 Sora 模型,它使用到了可擴充套件的時空 Transformer,來自開發出 SnapChat 圖片分享軟體的 Snap 公司,以及特倫託大學等機構。傳送門:《首批類Sora模型出現,色拉布上線Snap Video,效果優於Pika、不輸Gen-2- Open-Sora 1.0
Open-Sora 1.0 是3月18日全面開源的首個類 Sora 模型,來自 Colossal-AI 團隊,該開源模型涵蓋了整個訓練流程,包括資料處理、所有訓練細節和模型權重。傳送門:《沒等來OpenAI,等來了Open-Sora全面開源》Mora
Mora 是幾天前由理海大學、微軟研究院的研究者提出的多智慧體框架,該框架整合了幾種先進的視覺 AI 智慧體,以複製 Sora 所展示的通用影片生成能力。傳送門:《復刻Sora的通用影片生成能力,開源多智慧體框架Mora來了》儘管目前的模型復現效果依然無法企及 Sora,但是短短一月有餘,已經有明顯的技術突破出現,不失為一個樂觀的訊號。據不完全統計,國內已有近 10 支團隊在復現 Sora,讓我們拭目以待。先於 DiT 的技術架構創新
Sora 使用的 DiT(Diffusion Transformer) 架構目前來看是其最大的技術創新,但追溯來看,也許國內相關的進度更早一些。 U-ViT 架構2022年9月,清華團隊提交的名為《All are Worth Words: A ViT Backbone for Diffusion Models》的論文,比 DiT 還要早 2 個月。該論文提出用基於 Transformer 的網路架構 U-ViT 替代基於 CNN 的 U-Net,這與 Sora 將 Transfomer 和擴散模型融合的思路不謀而合。傳送門:《國內公司有望做出Sora嗎?這支清華系大模型團隊給出了希望》2023年5月在 arXiv 網站上公開的 Video Diffusion Transformer (VDT),是由中國人民大學研究團隊主導,並與加州大學伯克利分校、香港大學等進行合作的,基於 Transformer 的 Video 統一生成框架。對採用 Transformer 架構的原因也給出了詳細的解釋。傳送門:《國內高校打造類Sora模型VDT,通用影片擴散Transformer被ICLR 2024接收》也許在核心技術的創新上,國內的探索並不落後,而是走在了前面。不過,囿於資源限制以及技術路線規劃等其他原因,沒能在之前實現類似 Sora 的效果。Sora 無疑驗證出了一條技術可行性的道路,而我們本身在技術架構上的領先探索,將更有利於我們復現出 Sora,甚至可以更加樂觀地相信,在某些領域內超越 Sora 的效果。Sora 是世界模型嗎?
由 Sora 引發的另一個熱點討論,是關於世界模型的。Sora 生成的影片無疑對物理世界有了一定了解,比如經典的“海盜船在咖啡杯裡糾纏”,肉眼可見能涉及到專業的流體動力學、光線等物理世界的特徵。但是以 Yann LeCun 為代表的一部分科學家力證 Sora 的訓練方式和世界模型沒有關係。那 Sora 是不是世界模型,到底懂不懂物理世界?關於這個討論已經蔓延至各個論壇和直播中。可見對於究竟什麼是世界模型這個話題,大家也是見仁見智的。而我們能明確的是,如果 Sora 是世界模型,那通往通用人工智慧(AGI)的理想,可能比我們預計的還要早到達。那復現 Sora 就有了一定的必要性。關於 Sora,我們保持著好奇,並持續探求以下問題的可能答案。Sora 之前的影片生成架構/技術還能不能用?如何用?
Sora 之後,誰是被遺忘的?誰又是被仰望的?
Sora 之外,其他創業公司/團隊要如何做?做什麼?
Sora 會改變主流的技術架構嗎?以 DiT 為代表的架構是以後主流的架構選擇嗎?
國內技術力量應不應該復現 Sora?為什麼?
已知有近 10 支團隊在復現 Sora,我們可能看到的未來格局是什麼?
為什麼是 OpenAI? OpenAI 的模式能否復刻?
Sora 之後,全球的影片生成格局是怎樣的?又將如何發展和變化?
如何看待一些明星創業公司公開表示不做 Sora?
多模態大模型的未來在哪裡?
不同視角下,如何看待 Sora 的衝擊?(投資人、非技術人、央國企、AI 創業者、從業者等視角)
OpenAI 扮演著什麼樣的社會角色?你如何看待這家公司?
……
Sora 帶來的衝擊是顛覆式的,因此對以上問題的求解將持續進行著。而作為聚焦於 AI 前沿技術探索和應用實踐的團隊,機器之心 AI 技術論壇再次將視線放在了影片生成領域。4月13日,在北京六道口,我們策劃了一期技術論壇,聚焦 Sora 釋出後的技術創新、思考與應用實踐。活動現場匯聚多位重磅嘉賓,同時我們也會更加深入地探討上面提到的問題。在可預見的未來,相信本次活動能產生一定的積極作用和啟發,以期推動我國 AI 開源社群的技術發展和傳播。嘉賓陣容
- 業內的知名技術專家張俊林老師,來一場 Sora 核心技術的深度拆解
- 爆火的影片生成模型 PixelDance 的作者,來自位元組跳動的曾妍老師,分享 PixelDance 背後的技術創新和應用
- 類 Sora 模型 VDT 的團隊負責人,來自中國人民大學孵化的創業公司——智子引擎的 CEO 高一釗博士,詳細拆解 VDT 的技術創新和實踐
- 投資人是 AI 領域離不開的重要角色,陳石老師作為峰瑞資本的投資合夥人,將帶來投資人/機構視角下的獨特觀察
- 國央企在 Sora 釋出後迅速響應,佔據了 AI 領域一席之地,來自中移動資訊科技有限公司的演算法技術負責人童同老師,將會分享他的全新思考
- 類 Sora 模型 Open-Sora 1.0 的技術負責人,來自潞晨科技的 CTO 卞正達老師,更是會詳細拆解如何復現 Sora,以及來自他們團隊的獨特思考與實踐
張俊林
目前擔任新浪微博新技術研發負責人,此前在阿里巴巴擔任資深技術專家,負責新技術團隊。技術書籍《這就是搜尋引擎:核心技術詳解》、《大資料日知錄:架構與演算法》作者。曾妍
ByteDance Research 演算法工程師專注於影片生成和多模態預訓練等領域的前沿研究。主導研發的模型為位元組跳動的影片生成、短影片稽核、電商客服、今日頭條、教育解題等業務提供了有力服務,並以第一作者身份將相關的八篇論文發表在 TPAMI, ICML, CVPR, ACL 等國際頂級會議和期刊,同時也擔任了 TPAMI, ICML, NIPS, ICLR 等會議的審稿人。主導研發的 PixelDance 影片生成基礎模型在業界首次實現了高動態性和穩定性的結合,並首次生成了3分鐘的連續劇情動畫。陳石
專注於科技、軟體、網際網路、消費等領域的投資。加入峰瑞資本前,擁有 5 年阿里巴巴管理層經歷,曾擔任阿里巴巴移動事業群副總裁、阿里巴巴文化娛樂集團高管、優酷和 UC 國際班委,深度參與 UC、高德、優酷、土豆、神馬搜尋、UC 國際等產品線的業務決策和管理執行。15+ 年連續創業,作為核心管理團隊成員深度參與 UC(全球最大第三方手機瀏覽器,2014 年被阿里巴巴收購)和拉卡拉(中國知名第三方支付公司,SZ:300773)的創業過程,分別擔任副總裁和 CTO;曾經是一名快樂的程式設計師,使用者增長專家,科技熱愛者。擁有北京航空航天大學機電工程系本科和碩士學歷。2023 年獲評 EqualOcean「2023年出海全球化投資TOP30人」、甲子光年「2022-2023 年度人工智慧與大資料最佳投資人TOP20」。高一釗
中國人民大學高瓴人工智慧學院博士。多模態大模型專家,發表多篇頂級期刊、會議論文,曾帶領多人團隊完成文瀾大模型訓練。全程參與智子引擎相關模型、產品的開發與推廣。卞正達
畢業於新加坡國立大學,曾在全球超算最頂尖會議 SC 上發表一作論文,擁有 7 年高效能 AI 系統經驗,Colossal-AI 系統核心開發者。童同
中國科學院自動化研究所 AI 博士。目前在中移動資訊科技有限公司負責多模態大模型、數字人、智慧體等領域研發工作,實現了文生圖、文生影片、大模型動作識別與目標檢測等關鍵技術的落地應用。共發表論文 12 篇、公司專利 12 項、軟著 4 項。影片生成技術與應用 - Sora 時代
機器之心 AI 技術論壇時刻保持對 AI 領域技術突破的敏感追蹤,為了深入探究 Sora 對技術的衝擊和對各行各業帶來的影響,我們特別策劃了「影片生成技術與應用 — Sora 時代」AI 技術論壇。希望助力廣大企業和從業者緊跟技術發展潮流,全面瞭解 Sora、影片生成技術、多模態大模型等前沿領域的技術突破和應用實踐。面對撲面而來的 AI 影片生成,積極擁抱學習並敢於嘗試,才能抓住技術潮流,破局而生。期待 2024.04.13,在北京海淀區,和你相遇。論壇報名通道正式開啟,掃描海報中二維碼可直達活動頁面。由於嘉賓介紹釋出時間較晚,本場論壇的早鳥優惠期有所延長。即日起至04月07日23:55,購票參會即可直減 200 元, 享受 699 元早鳥特惠門票(原價 899 元)。五人團購更有專屬優惠,詳見活動詳情頁。機器之心 AI 技術論壇往期的參會者,請單獨新增 Alice 微信,直達專屬優惠連結。活動亮點
- 贈送永久觀看上一期「影片生成前沿研究與應用」論壇活動影片及課件(上期活動已購請聯絡 Alice 扣減,本期購買後記得找 Alice 兌換上一期影片)
- 永久觀看本期「影片生成技術與應用 - Sora 時代」論壇活動會後影片及課件
- 匯聚高校教授及產業界重磅技術專家,掌握最新技術,拓寬技術視野
- 覆蓋核心技術拆解、明星產品最佳實踐、技術未來探討及展望
- 加入影片生成高質量技術交流社群,及時跟進行業前沿技術與資訊
技術交流社群
為了方便技術交流,我們也特意建立了影片生成技術交流群,歡迎關心 Sora、影片生成和多模態大模型的技術從業者掃碼加入對話,深入交流技術細節和行業觀察。關於本次活動商務合作、團購、發票、內容等相關問題,歡迎新增本場活動負責人 Alice 或透過郵件進行諮詢。郵箱:jiayaning@jiqizhixin.com關於發票:報名成功後,可於活動結束後,在活動行 App 上自行申請發票,發票為電子版增值稅普票,開票成功後會傳送到報名郵箱中。成為論壇志願者:參與活動現場的具體事項執行,如簽到、引導、秩序管理等,包工作餐。在校學生優先。有意者請聯絡 Alice。