三是 AGI 路徑。如開篇所述,在開放式環境中自我學習和進化的智慧機器人是實現 AGI 的路徑,將會使智慧演算法得到質的飛躍。由於機器人本身是可程式設計物理智慧體,所以自我進化也將會帶來人類對於智慧本身理解的昇華,會大大擴充人類本身智慧的邊界。所以從 AI 的視角去觀察,用在固定工業產線和不與人互動場景的機器人和與人互動的消費級機器人是完全兩種機器人。消費級人形機器人是 AI 時代最重要的智慧體,人類可以藉助人形機器人進入一個全新的人機協作的智慧時代,從而開啟人類使用工具的新紀元。
3. AI 突破的三個底層邏輯 回顧了 2024 年 AI 幾個方面的進展,我們再討論下 AI 發展的三個基本邏輯,即 Scaling law、Transformer 架構 (泛指 Transformer-like 的架構) 和生成模型。這三個方面相互交織,我們逐項討論下內在的原理和邏輯,便於把握 AI 發展的底層規律。 3.1 Scaling law 邁向縱深 Scaling law 是 GPT 等大語言模型快速發展的底層邏輯,更多的資料、更多的算力、更大的模型,得到更好的效果。Scaling law 也是 2024 年推動了 Sora 等影片生成模型的技術突破的邏輯遵循,利用更有利於規模化擴充套件的演算法架構。雖然 Sora 並未開源或公開演算法細節,但其技術報告公開了演算法架構和技術路線,這使得領域內可以快速跟進,例如可靈。他們甚至實現比 Sora 更好的效果、更快的線上服務,再次在影片生成上驗證了 Scaling law 的有效性。Scaling law 也在具身智慧大模型上面初步得到驗證,讓大家看到了具身智慧 GPT 時刻出現的希望。在醫療方向,Nature 剛剛發表了三篇和醫療基礎模型相關的論文,標誌著醫療 AI 在快速邁向基礎模型驅動的 2.0 時代,也是 Scaling law 規律的體現。所以,Scaling law 不僅是大模型發展的底層規律,也是通向 AGI 的可靠路徑之一。 過去一年關於 Scaling law 是否遇到天花板的討論比較多,但其實,目前能夠有足夠多的資源和資料去觸控 Scaling law 天花板的公司,全世界沒幾家。因為首先需要足夠強大的基礎設施和計算資源,其次還需要足夠多的訓練資料。關於資料,一方面是現有的網際網路相關資料,另一方面是合成資料 —— 合成資料非常重要,但是合成資料的質量能否用於有效訓練,取決於基礎模型的生成能力和合成資料的方法,截止到 2024 年,可能只有 GPT-4 等極少數模型能達到這個水平。所以,目前還不能給 Scaling law 下個遇到天花板的結論。 3.2 Scaling law 固定路徑被打破 隨著 Scaling law 的縱深發展,其發展的固定路徑已經被打破!進入了新的 Scaling law 2.0 階段。 DeepSeek-V3 的釋出在領域內引起廣泛討論,他們用正常十分之一的算力達到目前大語言模型的 SOTA 效能。個人認為這個工作的出現標誌著 GPT-1 以來基於 Scaling law 的固定迭代路徑已經被打破了,是個模型架構和工程最佳化結合的突破性成果。由此也讓領域內看到模型工程最佳化的高度,所以模型架構在晶片計算層的最佳化將會是大模型訓練和推理的研發重點方向。由此路徑深入迭代,將會把模型工程引向模型架構和晶片架構深度融合的類腦晶片方向,從而突破 Scaling law 的限制,把模型訓練和推理帶入下一個階段。當然,這個方向需要時間探索。國內剛剛釋出的 MiniMax-01 模型也是這類不錯的工作。 除此之外,OpenAI o1 開啟 Test/inference-time scaling law 的階段。語言大模型可以看成是知識的壓縮,那怎麼利用知識產生更好的智慧就是基於基礎模型的思維推理必然發展的方向。思維推理的發展也從一維單鏈路 CoT 模式到基於像蒙特卡洛樹搜尋 MCTS 的系統化多維推理演化,從而構建更智慧更體系化的思維模型。推理演算法的發展也反過來影響基礎模型的 Scaling law 路徑,例如微軟 rStar-Math 演算法無需從大模型蒸餾也能用 60 塊 A100 訓練的 7B 模型在數學推理上媲美達到 OpenAI o1 效能。上海 AI 實驗室的書生・浦語 3.0 的 InternLM3-8B-Instruct 模型透過提升資料質量和資料工程,只用 15% 的算力達到 SOTA 效能。過去半年這類工作有不少,就不一一列舉。 總結來說,無論資料維度、模型尺寸維度、還是算力維度,Scaling law 在模型上的體現已經過了粗狂式的發展階段,進入追求更有效的資料使用方式、更合理的架構設計、更極致的工程最佳化、更體系化的思維推理的 2.0 階段。 3.3 底層架構趨向統一 這裡所說的架構可以分為兩個層面,一個是指生成架構,例如自迴歸模型、擴散模型、流模型、生成對抗網路等;另外一個層面就是逼近函式通用的網路結構,例如卷積神經網路、LSTM、U-Net、Transformer 等。Transformer 架構因其對 Scaling law 的優良適配性,正在成為多種演算法統一的底層架構。自然語言處理領域的自迴歸模型、擅長視覺任務的擴散模型和常用於 AI for Science 方向的圖神經網路模型,都呈現了逐步收斂到 Transformer 架構之上的發展趨勢。 在過去的一年,Sora 的出現不僅僅是影片生成的突破,也改變了視覺方向的底層架構設計,DiT (Diffusion Transformer) 迅速成為視覺方向業界公認的基礎架構,演算法的設計都往這種架構收斂,這就是演算法發展的不可預料性和強大活力。Transformer 問世於 2017 年,當時在 NLP 領域只用了兩三年時間迅速替代當時的主流框架 LSTM。在 Transformer 沒有誕生之前,LSTM 在 NLP 領域佔有絕對的主導地位,無人能預料到這麼快會被邊緣化 —— 但就是這麼發生了,這種不可預料性也是演算法研究的樂趣所在。 在多模態方向上,理解、生成、理解和生成的統一等任務和模態的統一架構研究也非常活躍。業內期待能有一個大一統的架構可以把不同模態和任務統一,有代表性的例如智源研究院基於自迴歸架構的 Emu3 和 Meta 的 MetaMorph 模型。 架構趨於統一對於 AI 發展來說很有意義。首先,統一的架構可以顯著地增強 AI 系統的互操作性,深度探索不同模態、不同語義、不同尺度資料的深層次關聯性,這對人類透過 AI 認知和理解世界有決定性意義。達摩院在這個方向有跨領域跨學科的專案在開展中。另外,統一的架構也將大幅提升研發和部署效率,不僅使 AI 底層基礎設施的模型系統架構更加簡潔,也使推理的軟硬體架構可以在不同領域快速泛化使用,這將大大加速 AI 研發效率、產品的落地速度、和普惠化程度。 自迴歸模型會是生成模型的最終答案嗎?目前只能說,可能性是存在的。但是同時我們也要看到擴散模型除了在視覺方向的廣泛應用以外,在 AI for Science 方向也正在被普遍使用。Transformer 會是 AI 的終極底層架構嗎?終極答案是否定的,但在一定時間內 Transformer 還會是大多數 AI 演算法設計的最優選擇。尤其是隨著 AI 的廣泛應用,深入千行百業,會強化 Transformer 的主導地位,因為無論工程和系統方面,還是晶片等硬體層面,目前都是圍繞 Transformer 架構進行的。除非有一個突破性的新架構出現,否則 Transformer 很難在短期內被顛覆。 3.4 生成模型是 AI 演算法的第一性原理 深度學習解決了複雜函式的通用逼近問題,而生成模型解決了機率論裡的古老問題 —— 高維資料分佈 (或是非線性結構) 的擬合。我們上大學時學習機率論,核心就是估計機率密度函式、擬合資料分佈。為什麼擬合資料分佈重要?因為 AI 處理的就是資料,一旦擬合了資料分佈,尋找到資料結構的機理,就能透過直接取樣生成新的資料。因此,絕大多數 AI 要解決的任務,本質上都可以簡化成對資料分佈的擬合和對資料分佈的修正這兩個很基礎的問題。所以生成模型是非常本質的,它成為 AI 的基礎模型是符合第一性原理的。 生成模型一定程度上可以突破網際網路資料階段性見頂和各個領域內資料缺乏的困境,對推動 AI 發展的作用遠超作為演算法應用本身。例如基礎模型效能發展最成熟的 NLP 領域,生成資料用於訓練模型已經是常態,是解決 NLP 資料困境的有效途徑。除了影片方向的 Sora,自動駕駛領域也在用生成資料來解決 corner case 的問題。Tripo 和 Rodin 三維生成模型也展現了令人鼓舞的前景。科學方向基於擴散模型的 RFDiffusion 和 Chroma 演算法可以用於蛋白質設計。微軟釋出了可以快速生成不同型別無機材料的基礎模型 MatterGen。醫療方向也在用生成模型解決醫療資料稀缺的問題。隨著各個模態生成基礎模型效能的成熟,其它方向也會如此。 更重要的是,基於生成模型的思維推理是構建智慧的關鍵。目前生成模型的發展和使用還在初期階段。基於生成模型對於知識的建模、結構的擬合、智慧的構建才剛剛開始,新的思維正規化也將會在未來幾年裡出現。從點線的低維度推理模式到高維度體系化思維能力的演化,不僅會促使模型能力的極大提升,也會讓研究員重新審視模型架構的設計本身,從而加速 AGI 時代的到來。 4. AI 產業進入百花齊放階段 前面重點討論了技術方向,接下來,讓我們展望 AI 的產業影響。人類有幾個基本的特點:血肉之軀的能力限制,所以物理工具是必需品,而最極致的工具是物理化的人 —— 機器人;知識無法遺傳,所以教育不可或缺;肉體衰老死亡,所以醫療是人類社會的剛需服務;活動受到物理環境的限制,所以數字模擬必將成為 AI 的基礎設施。我們就聚焦在硬體、教育、醫療、和數字模擬這幾個題目進行簡要討論。 4.1 智慧硬體具備爆發條件 2024 年像谷歌的 Gemini、OpenAI 的 GPT 系列、阿里巴巴的通義 Qwen-VL、智譜的 GLM-Realtimes、和麵壁智慧的 “小鋼炮” MiniCPM-o 2.6 端側模型都在多模態和視覺理解能力上取得了顯著進步。人類本來就是利用視覺、語言、聽覺、觸覺等不同模態的資訊來進行和環境感知和互動的,所以多模態是人機互動的關鍵。多模態基礎模型能力的成熟會促使兩個方向的進步:一個就是數字智慧體,也就是現在說的 Agent;一個是物理智慧體,也就是包括機器人在內的智慧硬體。所以按照技術演化的邏輯,2025 年智慧硬體會迎來高速發展期。 在人機互動的資訊媒介中,語言和語音是其中兩個最重要的兩個基礎模態。對於語音,除了智慧手機之外,智慧耳機會是自然的人機互動的指令入口,所以會在 AI 驅動的智慧硬體中佔有核心的地位。國內位元組和訊飛都在消費級智慧耳機方向上率先發力。另外,輕量級的腦機介面裝置也在 CES 2025 上出現,例如美國初創公司釋出的 Omi 的 AI 可穿戴裝置。這種類似的智慧硬體雖然輕量,但是都是不同模態人機互動入口級別的智慧硬體,值得關注。 另外一個大的方向就是機器人,剛才在具身智慧章節中從技術的角度闡述了關於機器人的看法。但是從產業落地的角度去觀察,是不同的路徑。目前業內認為率先落地的是工業場景,如汽車總裝線,這個場景下機器人的目標是替換高階技工並帶來產能的提升。另外一個就是家庭智慧玩具,它基於輕機器人本體路線,但帶來多模態的人機互動。 和主流看法有點差異,我們認為對於未來機會的把握這兩個都不是當下落地的理想路徑。而二者的結合:一個低自由度,結構簡單穩定,能夠帶來 “輕、靜、快” 的物理互動,又能結合 AI 提供多模態感知互動的機器人,很可能會更早地形成可以持續的商業生態。在 2025 年,除了大家都熟知的人形機器人,我們更期待一款可落地的消費級機器人新品類出現。 4.2 醫療 2.0 時代開啟 在 AlphaFold 榮獲 2024 年諾貝爾獎後,幾乎所有人都意識到了 AI 解決基礎科學問題的巨大力量,AI for Science 已成為毋庸置疑的重要趨勢。其中,生命科學和醫療是關乎人類福祉的方向。AlphaFold 發明人之一、DeepMind CEO Demis Hassabis 也預測人類有可能在未來十年內治癒大部分疾病。這一預測如果成為現實,那將是醫藥誕生以來的歷史性進步。 在過去幾個月裡,Nature 正刊上接連發表了病理學基礎模型 CHIEF、精準腫瘤學多模態基礎模型 MUSK、人類細胞型別的轉錄基礎模型 GET,還有 Nature Medicine 上解決醫療影像合成的生成基礎模型 MINIM,多模態醫療基礎模型 BioMedGPT 等。這些基礎模型工作的接連出現,標誌著醫療技術 2.0 時代的到來。醫療方向正在從針對單病種單型別的技術時代快速向基於基礎模型加具體任務微調的大模型正規化轉換。另外,完整週期的大佇列資料對於疾病治療至關重要,但是獲取完整佇列資料非常困難而且週期很長。藉助生成模型,有望解決醫療週期資料缺失的問題,這對醫療領域取得實質性進步意義重大。 達摩院在醫療 AI 方向成果顯著,在 Nature Medicine 上發表了基於平掃 CT 影像的胰腺癌檢測演算法 DAMO PANDA,是業內首次藉助平掃 CT 進行胰腺癌篩查的方法,為大規模低代價進行胰腺癌篩查開闢了新的路徑。這項工作被史丹佛大學釋出的 2024 年 AI 指數報告列為 “年度亮點研究”,是國內唯一入選的工作。目前達摩院正在進行中的多病種統一演算法架構、醫療多模態基礎模型和腫瘤動力學等相關研究,也有望在今年取得重要進展。 4.3 AI 驅動的教育 無論孔子時代的問答式教學、還是柏拉圖時代開啟的思辯,教育至今都延續老師和學生物理互動的模式。學生學業的高度很大程度上取決於老師水平的高低和資源的多少,因此,受限於不同地域和文明發達程度的不一,人類離教育普惠一直遙不可及。令人欣喜的是,這種狀況要在 AI 時代終結了。 在谷歌的 Gemini 多模態模型和 OpenAI 的多模態模型釋出會上,都不約而同地展示了多模態大模型在教育場景的應用示例,這足以說明 AI 公司對於利用 AI 技術解決教育問題的期待和重視程度。AI 將人類沉澱的知識壓縮到模型中,從而利用記憶和組合生成可以創造出比人類更加智慧聰明的數字智慧體。所以在不遠的將來,利用多模態大模型的能力,虛擬老師的水平將會超過幾乎所有的真實老師的水平,從而使教育提高到一個全新的高度。只要有可以執行 AI 軟體的硬體終端,人人都可以獲取最好的教育。這會在未來五年內發生,將是人類教育事業全新的開始。 但是教育本身也包含物理互動的過程,而且這是數字智慧體沒法完全取代的,所以教育方向將有適應 AI 時代的各種智慧硬體出現。 4.4 數字模擬 2.0 2024 年對於 AI 發生的其中有一個轉折就是演算法到物理世界的轉場。AI 為了更好地適配物理世界並實現落地,各類數字化模擬將會成為不可或缺的基礎設施。世界模型就是其中一個備受關注的方向,還有現象級討論的 Genesis 物理模擬平臺等。但是這裡談到的數字模擬遠不止現在學術界研究的世界模型覆蓋的範疇,這是一個涵蓋從微觀尺度到宏觀尺度的數字技術和物理世界對映的正規化變化。 英偉達在數字模擬領域上進行了系統化的深入佈局。NVIDIA Isaac、Omniverse 和 Cosmos 等平臺正構建一個完整的模擬生態系統,重塑工業研發鏈路和正規化。在 CES 2025 上,英偉達演示了在自動駕駛模擬、飛機制造、機器人研發以及工業場景的數字孿生等方面的應用,展現了廣闊的前景。 不僅在工業場景,數字模擬在生命科學上也展現了巨大的潛力。2024 年 DeepMind 和哈佛大學在 Nature 上發表了由 AI 生成的數字生命體 —— 虛擬老鼠,使用命名為 MIMIC 的演算法能夠模擬齧齒動物的大腦活動和行為表現,在生物動力學方向取得重要突破。國內智源研究院提出了 BAAIWorm 天寶,實現了秀麗隱杆線蟲的神經系統、身體 和環境的互動模擬。基於真實物理世界機理的生物動力學模擬,將會開啟一個全新的生命科學研究正規化,有著深遠的意義。 在數字化時代,原則上幾乎每個物理世界的場景都可以進行模擬。從核聚變研究到細胞活動模擬,從機器人研發到數字生命體建模,從機械動力學到生物動力學,從微觀到宏觀的自然界都將會在模擬系統中被重建。 5. 結語 這輪 AI 浪潮會把人類社會帶入全新的智慧時代,人類認知世界、改造世界的能力將得到空前的提高。可以預料到的是,三十年後我們將身處一個與現在完全不同的嶄新世界。作為 AI 從業人員,我們非常榮幸可以參與這一歷史程序,也希望本文能夠為 AI 同仁探索未來提供一些啟發。未盡之處,歡迎關注 “DAMO 開發者矩陣”,我們將在後續文章中持續探討 AI 的前沿趨勢與應用展望。