2024年12月28日,智象未來科技有限公司在安徽省人工智慧產業先導區啟動儀式中,宣佈智象多模態生成大模型3.0與智象多模態理解大模型1.0同時釋出。上海電影集團、中國移動咪咕音樂、科大訊飛等企業參加。加拿大工程院外籍院士、智象未來創始人兼CEO梅濤進行現場演講。
梅濤指出2024年是人工智慧技術持續發展的一年,在這一年中有多個人工智慧技術的標誌性事件。
2024年人工智慧技術發展的五個標誌性事件
Sora的出現標誌著視覺生成領域取得了重大突破;GPT-4o體現了大模型從單一語言模態向多模態(如影像和影片理解)的跨越。GPT-o1的推出讓我們將關注點從大規模預訓練轉向了推理最佳化,進一步提升了大模型的邏輯推理能力。透過GPT-o1機器能夠像人類一樣進行反覆思考、推敲,展現出更加接近人類的思維方式。
此外,藉助於這些先進的大模型技術,我們還可以極大地促進具身智慧的發展,使得機器人不僅能夠執行任務,還能在複雜環境中做出靈活判斷並採取行動,真正實現“思考”與“行動”相結合。最後,但同樣重要的是AI正在成為推動科學發展的重要力量。例如,今年的諾貝爾物理學獎及化學獎均頒給了人工智慧專家,這充分證明了“AI for Science”的巨大潛力及其對未來科技發展的重要意義。
人工智慧的本質是建立連線
為什麼現階段能夠出現所謂的“智慧湧現”?今年的“大腦獎”獲獎者們揭示了計算科學與神經科學融合的巨大潛力,這種跨學科的合作為人工智慧的發展鋪平了一條道路。
大模型的神經網路與人類大腦在運作機制和構造上展現出了高度的相似性。深度神經網路實際上是對人類大腦皮層認知過程的一種簡化模擬。這表明,大模型可能與人類大腦的構造有著本質上的一致。人類認知的核心在於構建大腦神經元的“連線”,而人工智慧的本質也是構建人工神經元之間的“連線”。
正是由於構造和機制的相似性,我們今天能夠一起見證“智慧湧現”。隨著技術的進步,人工智慧大模型有望展現出超乎想象的能力,不僅在模仿人類思維方面取得進展,還將在解決複雜問題和創新領域中發揮重要作用。
大模型通往AGI的兩條路徑
在當前工業界,通往通用人工智慧(AGI)有兩大主流技術路徑。其一是以GPT為代表的透過next token prediction方式,將人類數千年來積累的龐大文字知識庫進行高度濃縮,例如,GPT-4等萬億級引數規模的大語言模型。然而,隨著資料資源的日益消耗,這一路徑也面臨著增長極限的挑戰。
另一條路徑則是以Sora為代表的擴散模型(diffusion model),該模型致力於將複雜的視覺資訊及物理互動過程納入學習範疇,旨在構建能夠理解並模擬人類與真實世界互動的多模態模型。智象未來也是在這條曲線上參與全球競爭,擴充技術邊界,探索更加全面和深入的物理世界的理解和生成能力。雖然兩條路徑各有側重,但隨著研究的深入和技術的融合,一個統一的大模型架構出現也很有可能。
直面Scaling Law的四點思考
假設Scaling Law一直有效的情況下, 5年後大模型研發資源預判:能源需求增加200倍、預訓練費用增加250倍、模型計算量和算力規模增加10000倍、高質量資料增加至1000倍。那麼作為一家創業公司,應該如何持續增長?
思考一:多模態大模型一定是通往AGI的必經之路
多模態大模型是通往AGI的路線,是從單一的文字模態過渡到多模態,多模態理解再到多模態生成,最後多模態生成和理解實現統一。這也是商業化落地最快的一條通路,更是各大廠商的必爭之地。
思考二:大模型研發正在從預訓練過渡到推理最佳化的階段
人類有兩種思考模式,一種是快思考、一種是慢思考。GPT-4o代表快思考,GPT-o1代表慢思考。在GPT-o1之前,大模型企業多投入在預訓練上,o1之後我們把推理最佳化賦能到大模型上面,使得我們自己的大模型能力能夠提升一個臺階。
思考三:AI仍在探尋產品的市場契合點
當前,人工智慧技術仍處於快速發展的初級階段。在邁向市場化應用的過程中,我們需要跨域兩個鴻溝。一個鴻溝是,實現從強大模型到專業使用者有效應用的躍遷。儘管現有的AI模型規模龐大、功能強大,但仍存在機率性的“幻覺”現象,即輸出結果可能不完全符合實際情況。另一個鴻溝是,如何將服務於專業使用者的能力普及至普通使用者群體,降低大模型的使用門檻。梅濤指出,解決以上兩個鴻溝的方案是,基礎模型的研發與建設仍需大量投入,從而提升模型的準確性與可靠性,這是支撐大型AI企業持續發展的根基所在,並且透過不斷產品與運營最佳化,提升使用者體驗,彌合AI產品的“最後一公里”問題,這樣才能讓每一位使用者都能輕鬆享受到人工智慧帶來的便利。
思考四:高質量的版權資料資產,將成為人工智慧企業核心競爭力之一
“高質量的版權資料資產,將成為人工智慧企業核心競爭力之一。”這是梅濤分享的第四個思考,他進一步闡述至2028年,大模型訓練將消耗掉人類歷史中積累的大量資料。“面對未來可能出現的資料匱乏狀況,我們應當提前佈局,思考應對策略。”因此構建和積累高質量的版權資料資產顯得尤為重要。這不僅關乎於企業的競爭力,更是推動人工智慧技術持續發展的重要基石。因此,如何有效利用現有資料、探索新的資料來源以及資料使用創新方式,將是擺在所有人工智慧企業面前思考的首要問題。
智象未來的業務支撐
梅濤表示,基於以上的思考,智象未來從2023年3月成立之初,就明確了“1+3+N”的商業化佈局。即以1個大模型為基礎,透過3條產品線形成市場觸點,深度瞭解使用者需求,滿足使用場景,服務商業環境。
智象多模態大模型是我們企業發展的關鍵引擎,在模型能力達成後,就是我們的應用產品,這可以確保技術成果迅速轉化為商業應用。今天我榮幸地宣佈,智象未來已攜手合作夥伴,共同構建了版權資料業務。自此,智象未來可以向使用者提供擁有版權保護的應用資料。模型、資料、應用,這三者構成了我們通往通用人工智慧的穩固三角支撐。
截至目前,智象多模態大模型已經擁有國內最全的多模態版權語料庫,擁有數十萬小時版權影片素材,上萬個授權IP,涵蓋超過70%華語影視資料,已形成上億條AIGC二創素材,在影視、文旅、通訊、營銷、教育等場景得到廣泛應用。在商業化方面,已累計服務了全球100多個國家和地區的1000多萬使用者和4萬多家企業客戶。目前智象未來已經在北京、上海、深圳、香港等地區設有常駐機構,並作為安徽省人工智慧先導區的零號入駐企業落地合肥。
活動現場,智象未來與人民網、上海電影集團、彩訊科技、捷成華視網聚、安徽聯通、中國移動咪咕音樂等12家生態夥伴企業代表簽約,形成集技術研發、產業化應用、市場推廣於一體的生態體系。
智象多模態大模型全面升級
本次釋出的智象多模態生成大模型3.0帶來了影像和影片生成能力的全面升級。具體包含了畫面質量與相關性提升、鏡頭運動和畫面運動更可控,以及多場景驅動的最佳化。同時,智象未來還推出了智象多模態理解大模型1.0版,透過對物體級別的畫面建模以及事件級別的時空建模,實現了更精細、準確的影像與影片內容理解。
梅濤介紹說:大模型3.0版,相較於1.0與2.0版本,實現了顯著的技術飛躍與創新突破,是全球首創的擴散自迴歸模型,這一架構巧妙地將自迴歸模型與擴散模型融為一體,不僅繼承了DiT模型在影像生成上的優勢,還透過結合自迴歸模型的方式,有效降低了模型規模與計算成本,實現了效能與效率的雙重最佳化。
此外,3.0版在控制能力上也取得了關鍵進展,實現了對鏡頭運動和區域性運動的精準操控,進一步提升了生成內容的畫質與動態表現力。並且,引入的混合成像模型MOE架構,確保了在保持高生成質量的同時,顯著加快了推理速度,為實時或近實時的應用提供了可能。
這些技術創新使得智象未來的多模態生成大模型3.0版能夠廣泛應用於運動鏡頭捕捉、影視特效製作、自然風光模擬以及物理世界的數字重現等多個領域,展現了人工智慧在創意產業與視覺藝術中的巨大潛力與應用價值。這不僅是對既有技術框架的超越,更是向通用人工智慧邁進的堅實一步。
智象多模態理解大模型1.0為現場嘉賓帶來了生動的案例展示。
智象多模態理解大模型1.0不僅對這一場景可以進行詳盡的描述,捕捉畫面中物體間的複雜關係、邏輯鏈條、空間佈局和鏡頭運動,使之栩栩如生。
“一站式影片平臺”展示了一部反映安徽文化旅遊特色的影片。在展示中:左側部分,展示了使用者透過上傳個人照片,在平臺創造出全新的互動式體驗。右側部分,展示了安徽文物IP,在平臺創造出個性化的互動展示。這一創新實踐不僅增強了內容的吸引力,也為宣傳提供了獨特的辨識度。
智象未來不僅在產品體驗上追求卓越,更致力於構建開放的技術生態。智象多模態大模型目前擁有超過20個高效能API介面,服務於100多家頭部企業,並已實現了超過1000萬次的呼叫,且這一數字還在持續增長。智象未來與科大訊飛、聯想、谷歌、微軟等行業頭部企業合作,拓寬了多模態大模型的服務範圍和融合深度,推動了生成式人工智慧技術在各領域的廣泛應用和創新發展。
梅濤表示,作為一家創新企業,我們擁有強烈的社會責任感,尤其在教育領域。AIGC技術不僅是創新引擎,更是人才培養的重要工具,我們正在積極推動技術與教育的融合。
智象未來在去年成功舉辦了10餘場設計大賽,吸引了超過30所院校的3000多名選手參與,創作出近10000部作品,展現了年輕人的創造力和創新精神。今年,我們不僅與院校合作,還將技術能力延伸至了60多所中小學,激發學生們對人工智慧的興趣。目前我們還計劃將這一教育倡議擴充套件至200餘所中小學,打造成為人工智慧研學的標杆專案。
智象未來將透過教育融合專案為青少年提供一個接觸和實踐人工智慧的平臺,將他們培養成未來科技創新的中堅力量。