誰說撞牆了?展望2025 Scaling law新敘事加速AI變革

机器之心發表於2025-01-20
今日,達摩院首席科學家趙德麗發表文章《2025 AI展望:Scaling Law新敘事加速AI變革》,對當前 AI 的發展邏輯進行梳理,同時也展望了 2025 年的 AI 趨勢。本文是對趙德麗老師文章的全文刊載。

我們正身處一場技術革命的歷史開端,以 ChatGPT 為標誌的這輪 AI 科技浪潮是演算法和軟體誕生以來人類科技最重要的技術變革,由此開啟了以智慧為核心的第四次工業革命。這次 AI 變革是由以 Scaling law 為底層邏輯的基礎模型驅動,其整體的發展脈絡由基礎模型的技術邏輯主導。

進入 2025 年,我們清晰地看到,Scaling law 本身仍然成立,但以堆算力以及一味追求擴大模型尺寸的迭代路徑已經被打破。同時,基礎模型本身的迭代趨於階段性收斂,Transformer-like 逐漸成為統一的底層架構。此外,生成模型的潛力遠遠還沒有得到釋放,其將快速深入科學研究在內的多個領域,或大放異彩…

本文以 “DAMO 開發者矩陣” 2025 開篇為契機,對當前 AI 的發展邏輯進行梳理,展望 2025 年的 AI 趨勢,初探未來的景象。限於篇幅,僅對於部分方向加以討論闡述。

1. 通用人工智慧 (AGI) 的四種路徑

目視遠方,才能更好理解我們身處的當下。實現通用人工智慧 (AGI,這裡也包含常說的超級人工智慧)是 AI 的發展目標,利用 AI 演算法達到甚至超過人類的智慧水平。在進入具體的討論之前,我們先從宏觀邏輯分析 AGI 的可能實現路徑。

第一條路徑是大模型。

目前 AI 演算法還是圍繞著人類智慧的逼近和模仿來開展。大模型就是利用複雜的深度神經網路對知識的壓縮來逼近人類智慧的隱函式,進而利用思維推理來挖掘智慧本身,所以接下來基於基礎模型的自學習演算法和模型自迭代進化將是透過大模型實現 AGI 路徑的核心。從這個角度來說,大模型的 AGI 迭代在 2024 年剛入正題,但是發展很快。

第二條路徑是智慧機器人。

人類和動物等生物智慧體是在開放式環境中與周遭事物以及環境中的智慧體互動反饋來學習智慧。最接近這種智慧學習的模式是在開放式環境中活動的智慧機器人,特別是和人互動的機器人。所以消費級機器人的落地將是這種 AGI 模式的開啟,機器人的自我學習和迭代演算法也將是核心。

第三條路徑是腦機。

根據第一性原理,直接獲取人類思維模式的方式是讀取大腦訊號,人類目前的科技水平透過腦機介面來實現。目前腦機還處在非常早期,但是腦機介面將是人機協同非常重要的路徑。

第四條路徑是數字生命。

透過演算法實現從微觀尺度到宏觀尺度生命過程機理的模擬,就可以直接解鎖智慧的奧秘,從而能創造出真正的超級智慧。目前這個方向還在萌芽階段。

2.2024 的 4 個關鍵進展

讓我們先回望 2024,從年初的 Sora 開始,幾乎每個月都有 AI 熱點新聞出現,長文字、多模態、具身智慧、程式設計助手、思維推理、Agentic System、大模型訓練最佳化等,讓人目不暇接。相比 2023 年 AI 進展集中在大語言模型上,2024 年可謂是百花齊放,無論是深度和廣度都出現了飛躍。顯然,即使沒有 GPT-5 的釋出,這仍然是 AI 技術大爆發的一年。而在這麼多進展裡,有四項進展值得重點關注。

2.1 影片生成

Sora 的出現意義重大,是影片生成領域的一個重要轉折點。在 Sora 之前,行業對影片生成已多有研究,但只停留在學術研究層面,效果差強人意,沒法達到商業化服務的水準。Sora 展示了利用 DiT 可擴充套件架構的有效性,吸引了全球同行們快速跟進,推動影片生成從學術研究到工業級應用的重大跨越,國內也出現了可靈、海螺、通義萬相、混元、豆包等優秀的影片生成模型。

影片生成模型的突破意義不僅在於推動內容生產方式的變革,也在於展現了可擴充套件架構的生成模型在視覺方向的巨大潛力。自然語言資料是人類知識以文字形式的數字化記錄,所以自然語言大模型是知識的壓縮,可以透過大語言模型來逼近從而超越人類的智慧。同樣,影像 / 影片是對環境和物體的數字化,也包含知識本身的展現。例如,球體的下落是物理規律的呈現、投籃是人類操作技能的展現等。所以不僅僅大語言模型,影片大模型也是通往 AGI 的重要組成要素。隨著影像 / 影片基礎模型的效能提升,特別是 SOTA 級別開源模型的豐富,常見視覺任務大都會圍繞生成式基礎模型重新構建,大一統的視覺任務架構也會出現。另外,傳統視覺相關的模擬也逐步會和影片生成模型深入融合,從而重塑新一代的模擬鏈路,例如世界模型可以看做是其中一個方向。而基於模擬和模擬的技術方向,例如機器人,也會因為影片生成模型的成熟發展速度大大加快。在一些垂直領域,例如醫療和微觀組織研究等,資料缺乏的問題也會因為影片生成模型找到新的解決途徑,從而加快相關領域的突破。

影片生成技術的快速迭代促進各類內容工具的湧現,例如達摩院推出尋光 AI 影片創作平臺,用 AI 重塑影片工作流,釋放行業創造力。

2.2 智慧體 (Agent) 和系統

在 2023 年 AutoGPT 出現時,行業從業者就意識到基於大模型構建 Agent 應用的巨大潛力。進入 2024 年,Agent 相關的落地應用初步展現,如 Anthropic 釋出了 Computer use 讓 AI 可以控制電腦操作,智譜釋出了 AutoGLM 來重塑手機應用的使用方式。“一句話下單 2000 杯咖啡”,依託思維推理和自我改進機制,Agent 得以執行實現類似的自動化任務。為此,Anthropic 釋出了 MCP 協議 (Model Context Protocol),方便大模型連線資料和應用等區域性和線上資源,從而可以構建起以大模型為核心、Agent 為應用的生態系統,人工智慧作業系統的雛形也已經顯現。阿里巴巴通義大模型也在此深耕,通義完整的基礎模型系列、一站式大模型服務平臺百鍊、模型開源平臺 ModelScope 和互連協議等構成新一代人工智慧系統架構的基礎設施。

Agent 的重要性在於,它依託基礎模型和軟硬體互聯協議,會給人機互動方式和系統架構帶來根本性的變革。歷史上每一次人機互動的變化都帶來了系統級的變革,就像鍵盤滑鼠之於 PC 網際網路、手機觸屏之於移動網際網路。

目前我們的系統設計還是基於滑鼠點選或者手指觸控互動的巢狀式圖形介面系統。這一次 AI 的突破帶來語言 / 語音 / 視覺等多模態資訊為互動媒介的人機互動變革。Agent 不僅會大大豐富系統和應用的廣度,也將會在多模態互動邏輯下大大縮短應用使用的鏈路和構造邏輯,從而引發系統在 AI 時代的重構。這將是個人電腦和智慧手機視窗系統誕生以來最大的一次實質性變革。傳統作業系統將在人工智慧作業系統的牽引下和 AI 深度融合,從而誕生在 AI 時代更加扁平、更加連線開放、更加自動化的新型作業系統和應用正規化。

2.3 程式設計助手

從人機互動的角度去看,AI 大模型帶來了基於語言輸入的全新互動方式。例如,可以透過語言提示輸入到大模型,呼叫大模型的功能來得到結果,包括回答語言相關的問題、生成程式碼、生成網站、生成影像影片等。

語言不僅僅是人類日常交流的媒介,也成了大模型時代的程式語言本身,這對於軟體來說是個突破性的進步。從機器語言、組合語言、C/C++、Java、Python 等到現在自然語言,計算機語言經歷著由繁到簡的發展過程。但是在大模型以前,計算機程式設計都是需要專業學習、長期練習才能掌握。自從自然語言成為計算機程式語言本身,軟體從專業技能就變成了大眾化的工具,人人都可以成為高階程式設計師,這對於使用軟體是巨大的飛躍。人類利用軟體工具來提升社會生產力和效率從來都沒有像今天這麼便捷。所以基於大語言模型的程式設計助手的價值顯著,將成為大模型時代不可或缺的基礎工具。

過去一年程式設計助手發展迅速,國外像 Github Copilot、Cursor、Windsurf、Bolt,國內如阿里巴巴的通義靈碼以及位元組的豆包 MarsCode 等相繼湧現。可以預料程式設計助手在新的一年裡將會取得實質性進展,併成為最快成功商業化的 AI 產品之一。

2.4 具身智慧

我們可以粗略將研究機器人智慧的 AI 技術稱之為具身智慧。多模態大模型可以視為是機器人的知識技能,具身智慧大模型 (目前還沒有共識的範圍定義) 可以看作是機器人的操作和移動技能。

AI 驅動的機器人是物理智慧體,既可以決定人類利用工具的生產力水平,又可以直接決定社會生產效率和國民生產總值,所以至關重要。特別是人形機器人,可以看作是人的物理化,他可以超越工具屬性本身,作為人類社會智慧體的一員發揮作用,所以人形機器人可以擴充社會的運作模式和維度。

在具身演算法上,谷歌、UC Berkeley、清華、位元組等機構都發表了不同架構的具身智慧大模型,初步驗證了 Scaling law 在機器人方向上的有效性。併為其引入多模態融合等新維度,讓業界看到了機器人技術突破的希望。模擬上,英偉達正在推動機器人模擬系統的工業化落地應用,開源模擬系統也在快速迭代,為機器人的模擬和批次資料生產打下基礎。資料上,行業內的資料生產標準和基礎設施也在發展中,智元開源的真機資料集也已經達到百萬級別的體量。計算晶片上,英偉達也會在 2025 年量產針對人形機器人的端側晶片和開發板,使 AI 在機器人的端側開發更加便利和高效。硬體上,特斯拉正在推動人形機器人的量產,這將促使機器人本體供應鏈走向成熟,從而也會使硬體本體成本大幅下降。所以綜合這幾個維度來看,具身智慧已站在新一輪爆發週期的起點上。但是機器人商業化的路徑存在較大不確定性,和機器人形態以及對應的技術成熟度都有直接關係。

除了作為工具屬性,智慧機器人以下特點值得突出:

  • 一是資料採集埠。資料是模型的基礎,機器人將會是增量資料採集的埠。誰有消費級機器人資料,誰有條件做出最好的 AI。
  • 二是應用服務新入口。和人互動場景的消費級機器人,會是繼個人電腦、手機之後的第三智慧硬體形態,是各類應用服務的入口。
  • 三是 AGI 路徑。如開篇所述,在開放式環境中自我學習和進化的智慧機器人是實現 AGI 的路徑,將會使智慧演算法得到質的飛躍。由於機器人本身是可程式設計物理智慧體,所以自我進化也將會帶來人類對於智慧本身理解的昇華,會大大擴充人類本身智慧的邊界。所以從 AI 的視角去觀察,用在固定工業產線和不與人互動場景的機器人和與人互動的消費級機器人是完全兩種機器人。消費級人形機器人是 AI 時代最重要的智慧體,人類可以藉助人形機器人進入一個全新的人機協作的智慧時代,從而開啟人類使用工具的新紀元。

3. AI 突破的三個底層邏輯

回顧了 2024 年 AI 幾個方面的進展,我們再討論下 AI 發展的三個基本邏輯,即 Scaling law、Transformer 架構 (泛指 Transformer-like 的架構) 和生成模型。這三個方面相互交織,我們逐項討論下內在的原理和邏輯,便於把握 AI 發展的底層規律。

3.1 Scaling law 邁向縱深

Scaling law 是 GPT 等大語言模型快速發展的底層邏輯,更多的資料、更多的算力、更大的模型,得到更好的效果。Scaling law 也是 2024 年推動了 Sora 等影片生成模型的技術突破的邏輯遵循,利用更有利於規模化擴充套件的演算法架構。雖然 Sora 並未開源或公開演算法細節,但其技術報告公開了演算法架構和技術路線,這使得領域內可以快速跟進,例如可靈。他們甚至實現比 Sora 更好的效果、更快的線上服務,再次在影片生成上驗證了 Scaling law 的有效性。Scaling law 也在具身智慧大模型上面初步得到驗證,讓大家看到了具身智慧 GPT 時刻出現的希望。在醫療方向,Nature 剛剛發表了三篇和醫療基礎模型相關的論文,標誌著醫療 AI 在快速邁向基礎模型驅動的 2.0 時代,也是 Scaling law 規律的體現。所以,Scaling law 不僅是大模型發展的底層規律,也是通向 AGI 的可靠路徑之一。

過去一年關於 Scaling law 是否遇到天花板的討論比較多,但其實,目前能夠有足夠多的資源和資料去觸控 Scaling law 天花板的公司,全世界沒幾家。因為首先需要足夠強大的基礎設施和計算資源,其次還需要足夠多的訓練資料。關於資料,一方面是現有的網際網路相關資料,另一方面是合成資料 —— 合成資料非常重要,但是合成資料的質量能否用於有效訓練,取決於基礎模型的生成能力和合成資料的方法,截止到 2024 年,可能只有 GPT-4 等極少數模型能達到這個水平。所以,目前還不能給 Scaling law 下個遇到天花板的結論。

3.2 Scaling law 固定路徑被打破

隨著 Scaling law 的縱深發展,其發展的固定路徑已經被打破!進入了新的 Scaling law 2.0 階段。

DeepSeek-V3 的釋出在領域內引起廣泛討論,他們用正常十分之一的算力達到目前大語言模型的 SOTA 效能。個人認為這個工作的出現標誌著 GPT-1 以來基於 Scaling law 的固定迭代路徑已經被打破了,是個模型架構和工程最佳化結合的突破性成果。由此也讓領域內看到模型工程最佳化的高度,所以模型架構在晶片計算層的最佳化將會是大模型訓練和推理的研發重點方向。由此路徑深入迭代,將會把模型工程引向模型架構和晶片架構深度融合的類腦晶片方向,從而突破 Scaling law 的限制,把模型訓練和推理帶入下一個階段。當然,這個方向需要時間探索。國內剛剛釋出的 MiniMax-01 模型也是這類不錯的工作。

除此之外,OpenAI o1 開啟 Test/inference-time scaling law 的階段。語言大模型可以看成是知識的壓縮,那怎麼利用知識產生更好的智慧就是基於基礎模型的思維推理必然發展的方向。思維推理的發展也從一維單鏈路 CoT 模式到基於像蒙特卡洛樹搜尋 MCTS 的系統化多維推理演化,從而構建更智慧更體系化的思維模型。推理演算法的發展也反過來影響基礎模型的 Scaling law 路徑,例如微軟 rStar-Math 演算法無需從大模型蒸餾也能用 60 塊 A100 訓練的 7B 模型在數學推理上媲美達到 OpenAI o1 效能。上海 AI 實驗室的書生・浦語 3.0 的 InternLM3-8B-Instruct 模型透過提升資料質量和資料工程,只用 15% 的算力達到 SOTA 效能。過去半年這類工作有不少,就不一一列舉。

總結來說,無論資料維度、模型尺寸維度、還是算力維度,Scaling law 在模型上的體現已經過了粗狂式的發展階段,進入追求更有效的資料使用方式、更合理的架構設計、更極致的工程最佳化、更體系化的思維推理的 2.0 階段。

3.3 底層架構趨向統一

這裡所說的架構可以分為兩個層面,一個是指生成架構,例如自迴歸模型、擴散模型、流模型、生成對抗網路等;另外一個層面就是逼近函式通用的網路結構,例如卷積神經網路、LSTM、U-Net、Transformer 等。Transformer 架構因其對 Scaling law 的優良適配性,正在成為多種演算法統一的底層架構。自然語言處理領域的自迴歸模型、擅長視覺任務的擴散模型和常用於 AI for Science 方向的圖神經網路模型,都呈現了逐步收斂到 Transformer 架構之上的發展趨勢。

在過去的一年,Sora 的出現不僅僅是影片生成的突破,也改變了視覺方向的底層架構設計,DiT (Diffusion Transformer) 迅速成為視覺方向業界公認的基礎架構,演算法的設計都往這種架構收斂,這就是演算法發展的不可預料性和強大活力。Transformer 問世於 2017 年,當時在 NLP 領域只用了兩三年時間迅速替代當時的主流框架 LSTM。在 Transformer 沒有誕生之前,LSTM 在 NLP 領域佔有絕對的主導地位,無人能預料到這麼快會被邊緣化 —— 但就是這麼發生了,這種不可預料性也是演算法研究的樂趣所在。

在多模態方向上,理解、生成、理解和生成的統一等任務和模態的統一架構研究也非常活躍。業內期待能有一個大一統的架構可以把不同模態和任務統一,有代表性的例如智源研究院基於自迴歸架構的 Emu3 和 Meta 的 MetaMorph 模型。

架構趨於統一對於 AI 發展來說很有意義。首先,統一的架構可以顯著地增強 AI 系統的互操作性,深度探索不同模態、不同語義、不同尺度資料的深層次關聯性,這對人類透過 AI 認知和理解世界有決定性意義。達摩院在這個方向有跨領域跨學科的專案在開展中。另外,統一的架構也將大幅提升研發和部署效率,不僅使 AI 底層基礎設施的模型系統架構更加簡潔,也使推理的軟硬體架構可以在不同領域快速泛化使用,這將大大加速 AI 研發效率、產品的落地速度、和普惠化程度。

自迴歸模型會是生成模型的最終答案嗎?目前只能說,可能性是存在的。但是同時我們也要看到擴散模型除了在視覺方向的廣泛應用以外,在 AI for Science 方向也正在被普遍使用。Transformer 會是 AI 的終極底層架構嗎?終極答案是否定的,但在一定時間內 Transformer 還會是大多數 AI 演算法設計的最優選擇。尤其是隨著 AI 的廣泛應用,深入千行百業,會強化 Transformer 的主導地位,因為無論工程和系統方面,還是晶片等硬體層面,目前都是圍繞 Transformer 架構進行的。除非有一個突破性的新架構出現,否則 Transformer 很難在短期內被顛覆。

3.4 生成模型是 AI 演算法的第一性原理

深度學習解決了複雜函式的通用逼近問題,而生成模型解決了機率論裡的古老問題 —— 高維資料分佈 (或是非線性結構) 的擬合。我們上大學時學習機率論,核心就是估計機率密度函式、擬合資料分佈。為什麼擬合資料分佈重要?因為 AI 處理的就是資料,一旦擬合了資料分佈,尋找到資料結構的機理,就能透過直接取樣生成新的資料。因此,絕大多數 AI 要解決的任務,本質上都可以簡化成對資料分佈的擬合和對資料分佈的修正這兩個很基礎的問題。所以生成模型是非常本質的,它成為 AI 的基礎模型是符合第一性原理的。

生成模型一定程度上可以突破網際網路資料階段性見頂和各個領域內資料缺乏的困境,對推動 AI 發展的作用遠超作為演算法應用本身。例如基礎模型效能發展最成熟的 NLP 領域,生成資料用於訓練模型已經是常態,是解決 NLP 資料困境的有效途徑。除了影片方向的 Sora,自動駕駛領域也在用生成資料來解決 corner case 的問題。Tripo 和 Rodin 三維生成模型也展現了令人鼓舞的前景。科學方向基於擴散模型的 RFDiffusion 和 Chroma 演算法可以用於蛋白質設計。微軟釋出了可以快速生成不同型別無機材料的基礎模型 MatterGen。醫療方向也在用生成模型解決醫療資料稀缺的問題。隨著各個模態生成基礎模型效能的成熟,其它方向也會如此。

更重要的是,基於生成模型的思維推理是構建智慧的關鍵。目前生成模型的發展和使用還在初期階段。基於生成模型對於知識的建模、結構的擬合、智慧的構建才剛剛開始,新的思維正規化也將會在未來幾年裡出現。從點線的低維度推理模式到高維度體系化思維能力的演化,不僅會促使模型能力的極大提升,也會讓研究員重新審視模型架構的設計本身,從而加速 AGI 時代的到來。

4. AI 產業進入百花齊放階段

前面重點討論了技術方向,接下來,讓我們展望 AI 的產業影響。人類有幾個基本的特點:血肉之軀的能力限制,所以物理工具是必需品,而最極致的工具是物理化的人 —— 機器人;知識無法遺傳,所以教育不可或缺;肉體衰老死亡,所以醫療是人類社會的剛需服務;活動受到物理環境的限制,所以數字模擬必將成為 AI 的基礎設施。我們就聚焦在硬體、教育、醫療、和數字模擬這幾個題目進行簡要討論。

4.1 智慧硬體具備爆發條件

2024 年像谷歌的 Gemini、OpenAI 的 GPT 系列、阿里巴巴的通義 Qwen-VL、智譜的 GLM-Realtimes、和麵壁智慧的 “小鋼炮” MiniCPM-o 2.6 端側模型都在多模態和視覺理解能力上取得了顯著進步。人類本來就是利用視覺、語言、聽覺、觸覺等不同模態的資訊來進行和環境感知和互動的,所以多模態是人機互動的關鍵。多模態基礎模型能力的成熟會促使兩個方向的進步:一個就是數字智慧體,也就是現在說的 Agent;一個是物理智慧體,也就是包括機器人在內的智慧硬體。所以按照技術演化的邏輯,2025 年智慧硬體會迎來高速發展期。

在人機互動的資訊媒介中,語言和語音是其中兩個最重要的兩個基礎模態。對於語音,除了智慧手機之外,智慧耳機會是自然的人機互動的指令入口,所以會在 AI 驅動的智慧硬體中佔有核心的地位。國內位元組和訊飛都在消費級智慧耳機方向上率先發力。另外,輕量級的腦機介面裝置也在 CES 2025 上出現,例如美國初創公司釋出的 Omi 的 AI 可穿戴裝置。這種類似的智慧硬體雖然輕量,但是都是不同模態人機互動入口級別的智慧硬體,值得關注。

另外一個大的方向就是機器人,剛才在具身智慧章節中從技術的角度闡述了關於機器人的看法。但是從產業落地的角度去觀察,是不同的路徑。目前業內認為率先落地的是工業場景,如汽車總裝線,這個場景下機器人的目標是替換高階技工並帶來產能的提升。另外一個就是家庭智慧玩具,它基於輕機器人本體路線,但帶來多模態的人機互動。

和主流看法有點差異,我們認為對於未來機會的把握這兩個都不是當下落地的理想路徑。而二者的結合:一個低自由度,結構簡單穩定,能夠帶來 “輕、靜、快” 的物理互動,又能結合 AI 提供多模態感知互動的機器人,很可能會更早地形成可以持續的商業生態。在 2025 年,除了大家都熟知的人形機器人,我們更期待一款可落地的消費級機器人新品類出現。

4.2 醫療 2.0 時代開啟

在 AlphaFold 榮獲 2024 年諾貝爾獎後,幾乎所有人都意識到了 AI 解決基礎科學問題的巨大力量,AI for Science 已成為毋庸置疑的重要趨勢。其中,生命科學和醫療是關乎人類福祉的方向。AlphaFold 發明人之一、DeepMind CEO Demis Hassabis 也預測人類有可能在未來十年內治癒大部分疾病。這一預測如果成為現實,那將是醫藥誕生以來的歷史性進步。

在過去幾個月裡,Nature 正刊上接連發表了病理學基礎模型 CHIEF、精準腫瘤學多模態基礎模型 MUSK、人類細胞型別的轉錄基礎模型 GET,還有 Nature Medicine 上解決醫療影像合成的生成基礎模型 MINIM,多模態醫療基礎模型 BioMedGPT 等。這些基礎模型工作的接連出現,標誌著醫療技術 2.0 時代的到來。醫療方向正在從針對單病種單型別的技術時代快速向基於基礎模型加具體任務微調的大模型正規化轉換。另外,完整週期的大佇列資料對於疾病治療至關重要,但是獲取完整佇列資料非常困難而且週期很長。藉助生成模型,有望解決醫療週期資料缺失的問題,這對醫療領域取得實質性進步意義重大。

達摩院在醫療 AI 方向成果顯著,在 Nature Medicine 上發表了基於平掃 CT 影像的胰腺癌檢測演算法 DAMO PANDA,是業內首次藉助平掃 CT 進行胰腺癌篩查的方法,為大規模低代價進行胰腺癌篩查開闢了新的路徑。這項工作被史丹佛大學釋出的 2024 年 AI 指數報告列為 “年度亮點研究”,是國內唯一入選的工作。目前達摩院正在進行中的多病種統一演算法架構、醫療多模態基礎模型和腫瘤動力學等相關研究,也有望在今年取得重要進展。

4.3 AI 驅動的教育

無論孔子時代的問答式教學、還是柏拉圖時代開啟的思辯,教育至今都延續老師和學生物理互動的模式。學生學業的高度很大程度上取決於老師水平的高低和資源的多少,因此,受限於不同地域和文明發達程度的不一,人類離教育普惠一直遙不可及。令人欣喜的是,這種狀況要在 AI 時代終結了。

在谷歌的 Gemini 多模態模型和 OpenAI 的多模態模型釋出會上,都不約而同地展示了多模態大模型在教育場景的應用示例,這足以說明 AI 公司對於利用 AI 技術解決教育問題的期待和重視程度。AI 將人類沉澱的知識壓縮到模型中,從而利用記憶和組合生成可以創造出比人類更加智慧聰明的數字智慧體。所以在不遠的將來,利用多模態大模型的能力,虛擬老師的水平將會超過幾乎所有的真實老師的水平,從而使教育提高到一個全新的高度。只要有可以執行 AI 軟體的硬體終端,人人都可以獲取最好的教育。這會在未來五年內發生,將是人類教育事業全新的開始。

但是教育本身也包含物理互動的過程,而且這是數字智慧體沒法完全取代的,所以教育方向將有適應 AI 時代的各種智慧硬體出現。

4.4 數字模擬 2.0

2024 年對於 AI 發生的其中有一個轉折就是演算法到物理世界的轉場。AI 為了更好地適配物理世界並實現落地,各類數字化模擬將會成為不可或缺的基礎設施。世界模型就是其中一個備受關注的方向,還有現象級討論的 Genesis 物理模擬平臺等。但是這裡談到的數字模擬遠不止現在學術界研究的世界模型覆蓋的範疇,這是一個涵蓋從微觀尺度到宏觀尺度的數字技術和物理世界對映的正規化變化。

英偉達在數字模擬領域上進行了系統化的深入佈局。NVIDIA Isaac、Omniverse 和 Cosmos 等平臺正構建一個完整的模擬生態系統,重塑工業研發鏈路和正規化。在 CES 2025 上,英偉達演示了在自動駕駛模擬、飛機制造、機器人研發以及工業場景的數字孿生等方面的應用,展現了廣闊的前景。

不僅在工業場景,數字模擬在生命科學上也展現了巨大的潛力。2024 年 DeepMind 和哈佛大學在 Nature 上發表了由 AI 生成的數字生命體 —— 虛擬老鼠,使用命名為 MIMIC 的演算法能夠模擬齧齒動物的大腦活動和行為表現,在生物動力學方向取得重要突破。國內智源研究院提出了 BAAIWorm 天寶,實現了秀麗隱杆線蟲的神經系統、身體 和環境的互動模擬。基於真實物理世界機理的生物動力學模擬,將會開啟一個全新的生命科學研究正規化,有著深遠的意義。

在數字化時代,原則上幾乎每個物理世界的場景都可以進行模擬。從核聚變研究到細胞活動模擬,從機器人研發到數字生命體建模,從機械動力學到生物動力學,從微觀到宏觀的自然界都將會在模擬系統中被重建。

5. 結語

這輪 AI 浪潮會把人類社會帶入全新的智慧時代,人類認知世界、改造世界的能力將得到空前的提高。可以預料到的是,三十年後我們將身處一個與現在完全不同的嶄新世界。作為 AI 從業人員,我們非常榮幸可以參與這一歷史程序,也希望本文能夠為 AI 同仁探索未來提供一些啟發。未盡之處,歡迎關注 “DAMO 開發者矩陣”,我們將在後續文章中持續探討 AI 的前沿趨勢與應用展望。

相關文章