又一屆「AI春晚」拉開序幕!智源大模型集體爆發了

机器之心發表於2024-06-16
每一年的智源大會不僅是分享前沿 AI 科技成果的平臺,更為國內外業內人士提供了一個交流的舞臺。果然,2024 智源大會又為我們帶來了諸多驚喜。

一年一度的國內「AI 春晚」—— 智源大會又一次拉開了序幕。

圖片

20+ 個不同主題的論壇、百場精彩報告讓現場和線上的觀眾目不暇接,切實感受到了當下 AI 尤其是大模型對內容創作、生產辦公、機器人、生物醫療等千行百業的深度賦能。

在這場「AI 內行頂級盛會」上,不僅有 Llama、Sora 等大模型及 DiT 架構的作者參與交流,詳解他們的研究成果;還有百度、零一萬物、百川智慧、智譜 AI、月之暗面、面壁智慧等耳熟能詳的國內大模型公司的 CEO 與 CTO 展開對話,探討人工智慧關鍵技術路徑以及通往 AGI 之路。

同時,在 AI 安全這個愈加受到全球關注的課題上,包括圖靈獎得主姚期智、加州大學伯克利分校教授 Stuart Russell、谷歌 DeepMind 前沿安全與治理主任 Allan Dafoe 等一眾國內外大咖嘉賓分享洞見,為人工智慧接下來的健康、可持續發展建言獻策。

自 2019 年 10 月舉辦首屆以來,智源大會已經來到第六個年頭。每一年,智源研究院都會在大會上釋出諸多重磅進展。

在今天的智源大會上,我們又一次看到了多項「全球首個」研究進展:

智源研究院帶來了持續迭代後覆蓋面更全、效能更強大、影響更深遠的大模型全家桶,包括語言大模型、多模態大模型、具身大模型、生物計算大模型。新技術的亮相預示著智源始終走在大模型發展前列,引領大模型研究方向。

圖片

智源研究院院長王仲遠博士。

訓練萬億級大模型僅需四個月和 112 臺 A800

在過去一年,Scaling Law 被研究者們反覆提及和議論。這個定律揭示了一點:隨著模型引數、訓練資料量和計算量的持續增加,模型的效能通常會持續提升。正因此,大模型的引數每年都在指數級提升。

科學家們普遍認為人類大腦引數在萬億到 1000 萬億之間,而大模型引數與人類大腦引數的差距在不斷縮小,從過去幾年的相差 100 萬倍到 1000 倍再到最近的僅差 100 倍。按照這個速度發展,未來幾年,大模型引數很可能就會趕上或者超過人類大腦的引數,AGI 也會更快到來。

但人們同時意識到,算力的短缺將成為一大挑戰。

為此,智源研究院與中國電信人工智慧研究院(TeleAI)基於模型生長和損失預測等技術聯合研發了全球首個低碳單體稠密萬億語言模型「Tele-FLM-1T」。該模型與百億級的 52B 版本、千億級的 102B 版本共同構成 Tele-FLM 系列,團隊用 4 個月完成了 3 個模型總計 2.3T tokens 的訓練,訓練全程做到了零調整零重試,算力能效高且模型收斂性和穩定性好。

作為一個萬億級引數的模型,Tele-FLM-1T 僅需業界普通訓練方案 9% 的算力資源和 112 臺 A800 伺服器。

Tele-FLM 系列模型在基礎效能方面取得多項突破:BPB 顯示,英文能力上,Tele-FLM-52B 接近 Llama3-70B,優於 Llama2-70B 和 Llama3-8B;中文能力上,Tele-FLM-52B 為開源最強,優於 Llama3-70B 和 Qwen1.5-72B。在對話模型效能方面:AlignBench 評測顯示,Tele-FLM-Chat(52B)已經達到 GPT-4 中文語言能力的 96%,總體能力達到 GPT-4 的 80%。

大會上,智源研究院院長王仲遠博士宣佈,TeleFLM 系列中,52B 版本已經全面開源,包括所有的核心技術(生長技術、最優超參預測)、訓練細節(loss 曲線、最優超參、資料配比和 Grad Norm 等),Tele-FLM-1T 版本也即將開源。

  • Tele-FLM-52B 版本開源地址:https://huggingface.co/CofeAI/Tele-FLM
  • Tele-FLM-Chat 試用(純模型單輪對話版)地址:https://modelscope.cn/studios/FLM/ChatFLM

對於 AI 研究者們來說,同樣關心的還有模型的幻覺問題。針對這個問題,智源研究院推出了通用語義向量模型 BGE(BAAI General Embedding)

自 2023 年 8 月釋出以來,智源團隊陸續釋出了中英文模型 BGE v1.0、v1.5 以及多語言模型 BGE-M3。截至目前,BGE 系列模型全球下載量超過 1500 萬,位居國內開源 AI 模型首位。BGE-M3 模型一度躍居 Hugging Face 熱門模型前三,其所屬程式碼倉庫 FlagEmbedding 位居 Github 熱門專案前 10;BGE-M3 所帶來的全新的通用檢索模式也相繼被 Milvus、Vespa 等主流向量資料庫整合。

同時,智源再度推出新一代檢索排序模型 BGE Re-Ranker v2.0,同時擴充套件了向量模型 BGE 的「文字 + 圖片」混合檢索能力。

模型地址:https://github.com/FlagOpen/FlagEmbedding

打造原生多模態世界模型
8B 小模型可達 GPT-4o 87% 效能

如今,行業主流多模態大模型多為針對不同任務而訓練的專用模型,例如文生圖的 Stable Diffusion,文生影片的 Sora,圖生文的 GPT-4V,每類模型都有對應的架構和方法。

這就導致現有模型的能力多為單一分散的能力組合,而非原生的統一能力,比如 Sora 目前就做不到對影像和影片的理解。此次,智源研究院推出了 Emu3 原生多模態世界模型,讓我們看到了不一樣的選擇

值得關注的是,在技術路線上,智源研究院沒有像行業其他玩家一樣選擇因 Sora 而爆火的 DiT 路線。Emu3 採用了智源自研的多模態自迴歸技術路徑,在影像、影片、文字上聯合訓練,使模型具備真正原生的多模態能力,實現了影像、影片、文字的統一輸入和輸出。

簡單來說,Emu3 從訓練開始就是為實現統一的多模態生成和理解而設計的。這兩種能力的融合使模型不僅能夠生成高質量的圖片和影片,還可以續寫影片、理解物理世界。

圖片

影像、影片、文字等多模態以及生成、理解能力的多方面統一,讓我們見識到了下一代更強大多模態大模型的雛形。

圖片

影片生成能力演示。

圖片

影像及影片理解能力演示。

目前,Emu3 正在持續訓練中,並將延續以往的開源策略,在經過安全評估之後會逐步開源。我們可以期待一波了。

當然了,多模態領域也少不了算力需求更少、部署更方便的「小」模型。此次為了適應模型在端側的應用,智源研究院推出了輕量級圖文多模態模型 Bunny 系列,包括 3B、4B、8B 版本

該模型系列採用靈活架構,支援多種視覺編碼器和語言基座模型。多個榜單的綜合結果表明,Bunny-8B 的多模態能力可以達到 GPT-4o 效能的 87%。更難得可貴的是,Bunny 模型系列做到了真正的開源,模型、資料和程式碼全部開放給大家。

開源地址:https://github.com/BAAI-DCAI/Bunny

大模型具象化
用具身智慧解決物理世界更多樣任務

當前,賦予大模型「身體」,使其更具象地感知、理解並執行物理世界多樣性任務成為了 AI 領域重要的發展趨勢之一。這也是具身智慧大模型興起並引領 AI 下一個浪潮的重要原因。

過去一年,智源研究院在具身智慧大模型領域取得了多項世界級突破性成果,涉及到了通用泛化抓取技術、具身操作 VLA(視覺 - 語言 - 動作)大模型、具身導航 VLA 大模型和自研機器人硬體等方向

圖片

首先在具身智慧通用抓取能力方面,智源研究院提出的通用抓取技術 ASGrasp 率先突破了 95% 的真機實驗成功率,實現全球領先的商業級動作執行水平。其中使用到的大規模高質量模擬資料覆蓋了千萬級場景,執行了十億次抓取動作。相關論文也被機器人領域頂會 ICRA 2024 收錄。

如下圖所示, 採用 ASGrasp 技術的機器人能夠輕鬆應對複雜光線透射、反射的情況,並準確感知透明、高反光物體的形狀和姿態,預測出高成功率的抓取位姿,輕鬆完成抓取任務。

圖片

其次在分級具身大模型系統方面,智源研究院研發布了兩個「專模專用,各司其職」的分級大模型系統

第一個是能夠從失敗中重思考、再嘗試的鉸接物體操作大模型系統 SAGE。據介紹,該系統有效結合了三維視覺小模型對空間幾何的精確感知能力和通用圖文大模型的通用物體操作知識,使大模型驅動的機器人能夠在任務執行失敗時能夠重新思考並再次嘗試新的互動方式,實現了傳統機器人技術無法企及的智慧性和魯棒性。

第二個是全球首個開放指令六自由度拿取放置的大模型系統 Open6DOR。該系統不僅像谷歌 RT 系列大模型(只能實現三自由度)一樣按照自然語言指令中的要求將物體放到指定位置,還能夠進一步對物體的位置和姿態進行精細化控制。該項技術極大地提高了具身操作大模型的商業應用範圍和價值。

除了簡單的抓取任務之外,具身機器人有時還需要行走起來。在面向技術終局的端到端具身大模型層面,智源研究院釋出了全球首個端到端基於影片的多模態具身導航大模型 NaVid。該模型可以直接將機器人視角的影片和使用者的自然語言指令作為輸入,端到端地輸出機器人的移動控制訊號。

NaVid 與以往機器人導航技術的區別在於:既無需建圖,也不依賴於深度資訊和里程計資訊等其它感測器訊號,而是完全依靠機器人攝像頭採集的單視角 RGB 影片流。

不僅如此,NaVid 在只利用合成導航資料進行訓練的情況下,透過 Sim2Real 的方式,實現在真實世界室內場景甚至是室外場景的 zero-shot 真機泛化。

圖片

在具身智慧落地的另一個重要的醫療場景,智源研究院聯合領視智遠研發了全球首個智慧心臟超聲機器人,實現了全球首例真人身上的自主心臟超聲掃查,對於解決心臟 B 超醫生緊缺、診斷準確率不高、標準化欠缺、效率低等難題具有積極作用。

據介紹,基於超聲影像和機械臂的受力資訊,智慧心臟超聲機器人可在高速動態環境下快速計算,提取心臟特徵,實現了相當於自動駕駛 L2、 L3 級的智慧化水平。

臨床驗證結果顯示,準確性上,智慧心臟超聲機器人能和高年資醫生保持一致;穩定性上,智慧心臟超聲機器人更高;舒適性上,智慧超聲機器人的力度可以控制在 4 牛以內,舒適度更高;效率上,智慧超聲機器人實驗機可與人類醫生持平。

而為了讓具身智慧機器人能夠透過通用計算機控制,智源研究院提出了通用計算機控制框架 Cradle,讓智慧體像人一樣看螢幕,透過滑鼠、鍵盤完成計算機上的所有任務

Cradle 由資訊收集、自我反思、任務推斷、技能管理、行動計劃以及記憶模組等 6 個模組組成,可進行「反思過去,總結現在,規劃未來」的強大決策推理。不同於業界其他方法,Cradle 不依賴任何內部 API 實現了通用性。

圖片

未來,智源研究院將依託多模態大模型技術優勢資源,投入更多人力,並聯合北大、清華、中科院等高校院所,銀河通用、加速進化等產業鏈上下游企業,建設具身智慧創新平臺,重點開展資料、模型、場景驗證等研究,打造具身智慧創新生態。

大模型如何變革生物計算?

伴隨著大模型能力的持續提升,人工智慧開始在更多科學領域顯現出價值。

全世界的生物計算科學家們都希望藉助大模型實現「微觀世界」的研究突破。以藥物研發為例,從新藥研發到上市,通常要耗費 10 年以上的時間以及 10 億美金以上的投入,業內稱之為「雙十定律」。其中 30% 到 40% 的投入是花在藥物設計環節的,而 AI 有助於加速化合物的篩選、大分子結構的建模及預測等工作。

有了大模型,我們能否更好地解決生命分子的理解與生成問題呢?

在本次大會上,智源研究院重磅釋出了全原子生物分子模型 OpenComplex 2,能有效預測蛋白質、RNA、DNA、糖類、小分子等複合物。它不僅可以預測大分子的穩定結構,還初步具備預測分子多構型以及摺疊過程的能力。

在生物分子結構預測領域國際競賽 CAMEO(Continous Automated Model EvaluatiOn)中,OpenComplex 已連續兩年穩居第一,並獲得了 CASP(Critical Assessment of Techniques for Protein Structure Prediction)15 的 RNA 自動化賽道預測冠軍。OpenComplex 在精度和宏觀結構方面的表現都優於同類競品,比如 AlphaFold,結果相似且沒有噪音

OpenComplex 平臺建立了將「蛋白質結構預測」「RNA 結構預測」和「蛋白質 - RNA 複合物結構預測」三類任務統一的端到端生物大分子三維結構預測深度學習框架。上述三類任務的推斷和訓練在該統一的「編碼器 - 解碼器」框架中完成,其中編碼器支援多重序列比對(MSA)和語言模型(LM)兩種編碼策略。

專案地址:https://github.com/baaihealth/OpenComplex

此外,智源研究院還構建了全球首個實時孿生心臟計算模型,可實現高精度的前提下生物時間 / 模擬時間比小於 1,位於國際領先水平。

基於這一模型,智源將創新性地採用物理 - 資料雙驅動模型,融合第一性原理和人工智慧方法,從亞細胞級、細胞級、器官級、軀幹級模擬出一個「透明心臟」,且能根據患者的臨床資料,構建出反映患者的個性化生理病理的孿生心臟,從而進行藥物篩選、治療方案最佳化、術前規劃等臨床應用。

與此同時,智源研究院已與北大第一醫院、安貞醫院、長征醫院、朝陽醫院進行合作,將相關技術應用在臨床實踐之中。

五大版圖佈局升級
FlagOpen 大模型開源技術基座 2.0 來了

所有的研究成果,都要依賴於一個非常強大的基座。

去年,為幫助全球開發者一站式啟動大模型開發和研究工作,智源研究院推出了面向異構晶片、支援多種框架的大模型全棧開源技術基座 FlagOpen 1.0。

今年,在 1.0 的基礎上,智源研究院推出了 FlagOpen 2.0,進一步完善模型、資料、演算法、評測、系統五大版圖佈局,旨在打造大模型時代的 Linux

圖片

開源地址:https://github.com/FlagOpen

FlagOpen 2.0 可支援多種晶片和多種深度學習框架。目前,開源模型全球總下載量超 4755 萬次,累計開源資料集 57 個,下載量近 9 萬次,開源專案程式碼下載量超 51 萬次。

資料層面,智源研究院釋出了首個千萬級高質量開源指令微調資料集開源專案 InfinityInstruct,首期釋出經過驗證的 300 萬條中英文指令資料,近期將完成千萬條指令資料的開源。當前開源的 300 萬條指令資料集已經顯示出超越 Mistral、Openhermes 等的 SFT 資料能力。在提升到千萬級資料量級後,基座模型基於該指令微調資料集進行訓練,對話模型能力有望達到 GPT-4 水平。

此外,智源研究院還構建並開源了 IndustryCorpus 中英文多行業資料集,包含總計 3.4TB 預訓練資料集,其中中文 1TB,英文 2.4TB,覆蓋 18 類行業,分類準確率達到 80%,未來計劃增加到 30 類。

行業預訓練資料集:https://data.baai.ac.cn/details/BAAI-IndustryCorpus

評測層面,FlagEval 大模型評估自 2023 年釋出以來,已從主要面向語言模型擴充套件到影片、語音、多模態模型,實現多領域全覆蓋,採用主觀客觀結合以及開卷閉卷綜合的考察方式,首次聯合權威教育部門開展大模型 K12 學科測驗,與中國傳媒大學合作共建文生影片模型主觀評價體系。

在系統軟體層面,本次智源大會也宣佈了幾項重要進展:

FlagScale 首次在異構叢集上實現不同廠商跨節點 RDMA 直連和多種並行策略的高效混合訓練,成為業界首個在多元異構 AI 晶片上同時支援縱向和橫向擴充套件兩階段增長模式的訓練框架。

智源研究院推出了面向大模型的開源 Triton 運算元庫,包括首個通用運算元庫 FlagGems 和大模型專用運算元庫 FlagAttention,可基於統一開源程式語言,大幅提升運算元開發效率,同時,面向多元晶片共享運算元庫。

為滿足不斷攀升的大模型訓練和推理計算需求,應對大規模 AI 系統和平臺面臨的叢集內或叢集間異構計算、高速互聯、彈性穩定的技術挑戰,智源研究院推出了面向大模型、支援多種異構算力的智算叢集軟體棧 FlagOS。

FlagOS 融合了智源長期深耕的面向多元 AI 晶片的關鍵技術,包括異構算力智慧排程管理平臺九鼎、支援多元 AI 異構算力的並行訓推框架 FlagScale、支援多種 AI 晶片架構的高效能運算元庫 FlagAttention 和 FlagGems,叢集診斷工具 FlagDiagnose 和 AI 晶片評測工具 FlagPerf,目前已支援了超過 50 個團隊的大模型研發,支援 8 種晶片,管理超過 4600 個 AI 加速卡,穩定執行 20 個月,SLA 超過 99.5%,幫助使用者實現高效穩定的叢集管理、資源最佳化、大模型研發。

圖片

寫在最後

作為一家不以營利為目標的科研機構,智源研究院以往已經做的、現在正在做的以及未來要做的始終是技術突破、探索和創新。這也是智源研究院與其他大模型玩家的本質區別。

從 2020 年開始,智源研究院就投身於大模型技術研發,迄今已經形成了涵蓋語言、多模態、具身、生物計算大模型在內的體系。

圖片

如果將 2023 年之前稱為「弱人工智慧」時代,那麼 2023 年之後,我們將逐漸走進「通用人工智慧」時代。在未來很長一段時間,大模型能力的強弱很大程度上將左右這一程序推進的速度。

在王仲遠看來,現階段語言大模型的發展已經具備了通用人工智慧非常核心的理解和推理能力,並且形成了一條以語言大模型為核心對齊和對映其他模態的技術路線,從而讓模型具備了初步的多模態理解和生成能力。但這並不是讓人工智慧感知、理解物理世界的終極技術路線,而應該採取統一模型的正規化,實現多模態的輸入和輸出,讓模型具備原生的多模態擴充套件能力,向世界模型演進。

此次,Emu3 原生多模態世界模型正是智源研究院在原生統一大模型技術路線上的牛刀初試。此外,透過在具身機器人、生物醫療等更多應用場景的落地,加之學術生態、產業生態的不斷深化,大模型的能力會持續得到擴充與增強。

同時,智源研究院憑藉對前沿 AI 和大模型技術的探索受到了廣泛的業界認可。月之暗面 CEO 楊植麟表示,智源研究院至少是亞洲地區最早且真正投入去做大模型的機構,這是非常難得、非常領先的想法。

百川智慧 CEO 王小川提到,大模型的思潮和很多技術都是從智源研究院發展而來的。如今智源擁有非常好的定位,既有技術高度,又承擔了智庫的角色,在生態層面能夠幫助大家更加快速健康地發展。

智譜 AI CEO 張鵬稱讚智源研究院真的是國內甚至國際人工智慧領域的一面旗幟,並非常希望雙方能在學術研究、落地應用、公共政策等多方面繼續保持合作。

面壁智慧 CEO 李大海則希望大家在智源研究院的撮合和帶領下,搭建一個更好的平臺,攜手把需要做好的事情一起做好。

未來,智源研究院將繼續堅持原始技術創新,做前沿方向的路線探索,廣泛連結學術生態,賦能產業發展。可以預見,在通用人工智慧最終到來之前,智源研究院將扮演無可替代的重要角色。

相關文章