「清華系」影片生成公司生數科技宣佈完成新一輪數億元融資

机器之心發表於2024-03-12

近日,北京生數科技有限公司(以下簡稱“生數科技”)宣佈完成新一輪數億元融資,由啟明創投領投,達泰資本、鴻福厚德、智譜AI、老股東BV百度風投和卓源亞洲繼續跟投。本輪融資將主要用於多模態基礎大模型的迭代研發、應用產品創新及市場擴充。本輪由華興資本擔任獨家財務顧問。

生數科技成立於2023年3月,是全球領先的多模態大模型公司,致力於影像、3D、影片等原生多模態大模型的研發。生數科技核心團隊來自清華大學人工智慧研究院,此外還包括來自北京大學和阿里巴巴、騰訊、位元組跳動等科技公司的多位技術人才。此前公司已完成近億元融資,過往股東還包括螞蟻集團和錦秋基金等知名機構。

在多模態視覺模型的研發上,生數科技較早地確立了Diffusion Transformer架構,與不久前引起爆炸式關注的Sora在架構思路和實驗路徑上完全一致。所謂Diffusion Transformer是在Diffusion Model(擴散模型)中,用Transformer替換常用的U-Net,將Transformer的可擴充套件性與Diffusion模型處理視覺資料的天然優勢進行融合,能在視覺任務下展現出卓越的湧現能力。

DiT架構由伯克利團隊於2022年12月發表。但其實早在2022年9月,生數科技創始成員就提出了基於Transformer的網路架構U-ViT,兩項工作在架構思路與實驗路徑上完全一致,均是將Transformer與擴散模型融合。

當時,U-ViT就在千萬至數億引數量級範圍內驗證了極強的可擴充套件性(scaling up),這項工作在CVPR 2023發表,早於DiT成為全球範圍內最早被提出的Diffusion Transformer架構。

據生數科技介紹,生數對擴散模型融合架構的前瞻創新源自於團隊多年的深耕。團隊從事生成式人工智慧和貝葉斯機器學習研究已有20餘年,在深度生成模型突破的早期就開展了深入研究。在擴散模型方面,團隊於國內率先開啟了該方向的研究,成果涉及骨幹網路、高速推理演算法、大規模訓練等全棧技術方向。

目前,團隊於ICML、NeurIPS、ICLR等人工智慧頂會發表相關論文近30篇,其中提出的免訓練推理演算法Analytic-DPM、DPM-Solver等突破性成果,獲得ICLR傑出論文獎,並被OpenAI、蘋果、Stability.ai等國外前沿機構採用,應用於DALL·E 2、Stable Diffusion等明星專案中。

2023年3月,團隊開源了全球首個基於Diffusion Transformer架構(U-ViT)的多模態擴散大模型UniDiffuser,在引數量和訓練資料規模上,與Stable Diffusion直接對齊。在架構上,UniDiffuser比最近才採用DiT架構的Stable Diffsion 3領先了一年。

此外,除了單向的文生圖以外,Unidiffuser支援更通用的圖文任務,能夠實現圖生文、圖文聯合生成、圖文改寫等多種功能。

「清華系」影片生成公司生數科技宣佈完成新一輪數億元融資圖:影像生成效果

在統一化架構的思路下,生數科技持續進行Scale up。在圖文模型的訓練中,引數量從最早開源版的1B不斷擴充套件至3B、7B、10B及以上,使得模型在美學性、多元風格、語義理解等方面實現快速穩定的提升。同時在此基礎上,透過擴充空間維度和時間維度,逐步實現3D生成和影片生成模型的訓練。

依託底層U-ViT架構的創新嘗試,截至去年9月,生數科技推出了基於統一的多模態多工框架的產業級通用基礎大模型(閉源版),全鏈路自主訓練、自主研發,在影像生成、3D生成、影片生成等多項任務中達到國際一流水平。

3D生成可實現高精度與最快10秒級的模型生成,並推出全球首個4D動畫生成、可控3D場景編輯等工作。影片生成已實現短影片的編輯與生成能力,在畫面美觀度、連貫性方面實現了突破。

「清華系」影片生成公司生數科技宣佈完成新一輪數億元融資圖:圖生3D案例

「清華系」影片生成公司生數科技宣佈完成新一輪數億元融資圖:多個圖3D模型快速拼裝搭建的3D場景

此外,生數科技也積累了完整高效的工程化經驗,擁有在大規模GPU叢集上實現高效相容、低成本的模型訓練經驗,並搭建了完整的資料管理和使用體系。從演算法原理、演算法架構,到工程實現、資料準備,生數科技打造了多維度、全方位的基礎建設,這為後續多模態大模型,尤其長影片生成的訓練奠定了重要基礎。

在商業化落地方面,依託於全面領先的MaaS(模型即服務)能力,生數科技在2B、2C端同時發力,一方面以API的形式向B端機構直接提供模型能力,另一方面打造垂類應用產品,按照訂閱等形式收費。

目前公司已與多家遊戲公司、個人終端廠商、網際網路平臺等B端機構開展合作,開放模型服務,提供AIGC個性化體驗、定製化內容生產等方面的能力。

同時也於去年上線兩款工具產品:視覺創意設計平臺PixWeaver、3D資產建立工具VoxCraft,面向藝術設計、遊戲製作、影視動畫、社交娛樂等創意領域提供賦能,提升創作效率,同時為創作者提供源源不斷的靈感和想象力。

對於未來的規劃,生數科技始終堅持“原生多模態”方向,基礎模型層面會持續最佳化,不斷提升語義理解、可控性、美觀度方面的生成效果,近期則將重點突破長影片生成能力。在產品端,現有產品將持續迭代,不斷滿足使用者需求,實現使用者量的持續增長,同時公司也正在探索工具以外的全新產品形態,致力於提升每個人的創造力和生產力。

投資人評價

1、啟明創投合夥人周志峰

如今的大模型已經從原來的純語言模態,逐步走向多模態的探索。生數科技從去年成立之初就選擇多模態賽道,是國內這個領域起步最早、積累最深的團隊,大量工作被OpenAI、Stable Diffusion團隊引用。生數科技推出的U-ViT架構作為全球Diffusion Transformer架構的首創,不僅具有前瞻的技術視野,更是經過了大規模訓練的驗證,展現出強大的技術可行性。這種兼具開拓性和成熟度的核心工作,讓我們對生數科技在多模態大模型方向的長期發展充滿信心。

今年過年期間,Sora的亮相不僅展示出影片生成技術的巨大潛力,而且增強了人們對於多模態生成未來發展的信心。隨著Scaling Law在影片生成領域的進一步加強,我們預期多模態技術將引領一系列令人矚目的創新和令人驚歎的成果。在這一過程中,生數科技無疑將扮演一個關鍵的推動角色!

2、達泰資本合夥人姚承

在當下大模型賽道的競爭中,生數科技在多方面都脫穎而出。不僅敏銳洞察到多模態的前沿趨勢,而且作為國內最早投身多模態賽道的公司,生數科技在過去短短一年的時間內就取得了令人矚目的成績單,從基礎設施、模型演算法、資料資源到場景化應用積累了獨特的競爭優勢。同時生數科技也是國內極少擁有“從零開始、自主訓練”大模型能力的公司,具備深厚理論基礎和實踐經驗,擁有突破主流框架技術難點和瓶頸的技術實力,因此我們堅持在人工智慧領域的佈局,並對生數科技未來發展充滿期待。

3、智譜AI CEO 張鵬

智譜AI CEO 張鵬表示:作為清華系的創業團隊,生數科技是國內最早開展深度生成式AI研究的組織之一。從對抗生成網路到擴散模型,生數科技敏銳洞察到融合架構的重要性,將其作為原生多模態的技術核心和重要支撐。智譜AI很高興同生數科技展開深入合作,助力生數科技多模態核心技術研發與商業化探索,一同推動多模態大模型技術落地應用,更好惠及千行百業。

4、華興資本董事總經理、華興資本集團聯席總裁 王力行

我們身為生數科技的親密戰友,見證了公司的厚積薄發和無限潛力。作為全球頂尖的研發團隊,生數科技在基礎理論架構和工程實現等層面展現出了超群的創新力和前瞻性,率先提出U-ViT架構並一以貫之,引領了多模態行業的發展;同時團隊以極強的執行力和落地速度,陸續在影像、3D、影片生成等領域貢獻了藝術級的作品。作為未來數字世界的天才建築師,生數將率先攻克多模態生成瓶頸,把人類的創造力和藝術構想一一落為現實,始於科學、忠於創新、邁向未來。

相關文章