DeepSeek推出後,移動端AI風向要變

机器之心發表於2025-03-03
或許下一波 AI 創新,不是比誰的模型更大,而是比誰的模型離你更近。

DeepSeek R1 正在對整個科技領域產生巨大影響,顛覆人們有關 AI 的認知。在移動端,革新正在快速發生。

2 月 20 日,高通釋出了最新 AI 白皮書《AI 變革正在推動終端側推理創新》,介紹了端側高質量小語言模型和多模態推理模型的前景。
圖片
在 AI 逐步大規模落地的過程中,我們已經逐漸意識到端側的大模型推理可以為人們帶來更高的可靠性,同時也可以提升資料安全性。而隨著技術的快速發展,其還有更多的優勢正在顯現。

高通指出,四大趨勢正在推動端側 AI 變革:
  • 當前先進的 AI 小模型已具有卓越效能。模型蒸餾和新型 AI 網路架構等新技術能夠在不影響質量的情況下簡化開發流程,讓新模型的表現快速提升,接近雲端大模型;

  • 模型引數規模正在快速縮小。先進的量化和剪枝技術使開發者能夠在不對準確性產生實質影響的情況下,縮小模型引數規模;

  • 開發者能夠在邊緣側打造更豐富的應用。高質量 AI 模型快速激增,這意味著文字摘要、程式設計助手和實時翻譯等特性在智慧手機等終端上的普及,讓 AI 能夠支援跨邊緣側規模化部署的商用應用;

  • AI 正在成為新的 UI。個性化多模態 AI 智慧體將簡化互動,高效地跨越各種應用完成任務。

在前沿大模型技術不斷取得突破的同時,科技行業也已經開始將精力投入到邊緣側的高效部署當中去。在訓練成本下降、快速推理部署以及針對邊緣環境的創新推動下,業內已經催生了大量更智慧、更小型、更高效的模型。

這些技術進步正在逐漸傳導到晶片廠商、開發者和消費者身邊,形成新的趨勢。

模型向小已成為發展必然

縱觀最近幾年的大語言模型發展,我們可以清楚地看到一些顯著的趨勢,包括從拼引數規模到拼應用、從單一模態到多模態、輕量化模型的崛起以及向終端側部署的傾斜,等等。

尤其是最近 DeepSeek V3、R1 的推出,更體現了 AI 行業的這些發展趨勢,由此帶來的訓練成本下降、快速推理部署和針對邊緣環境的創新正在推動高質量小模型的激增。深究其原因,如今向小模型的轉變是幾個方面綜合作用的結果。

一是模型網路架構不斷創新,從最開始主流的 Transformer 到後來的混合專家模型(MoE)和狀態空間模型(SSM)並存,大模型開發過程中的計算開銷和功耗不斷降低。因此,越來越多的模型開始採用新架構。

二是知識蒸餾技術的使用,這成為了開發高效「基礎和特定任務」小模型的關鍵。透過將複雜的教師模型的知識遷移到更小的學生模型中,一方面顯著減少了模型的引數量和計算量,簡化了訓練過程,佔用的儲存空間也更少,適合部署在資源受限的裝置上;另一方面,學生模型同樣可以獲得豐富的知識,並保證模型準確性和泛化能力。
圖片
Meta Llama 700 億引數模型和 DeepSeek 對應蒸餾模型的 LiveBench AI 基準測試平均結果對比。來源:LiveBench.ai

三是量化、壓縮和剪枝等大模型最佳化和部署技術持續改進,進一步促進了模型規模向小。這些技術同樣可以顯著降低模型的計算和儲存需求,同時保持較高的效能。

有了以上底層架構和技術層面的創新進步,小模型的能力正在趨近、甚至可以超越體量大得多的前沿大模型。比如在 GPQA 基準測試中,基於通義千問模型和 Llama 模型的 DeepSeek 蒸餾版本取得了與 GPT-4o、Claude 3.5 Sonnet 和 GPT-o1 mini 等類似或更高的表現。
圖片
來源:DeepSeek,2025 年 1 月。

從整個行業的角度看,技術的進步推動了高質量生成式 AI 模型的激增。根據 Epoch AI 統計,在 2024 年釋出的 AI 模型中,千億規模以下的模型超過了 75%,成為主流。
圖片
圖源:Epoch AI,2025 年 1 月。

因此,在成本與算力需求、效能權衡等多方面的驅使下,小模型正取代大模型成為眾多企業和開發者的首選。當前,包括 DeepSeek R1、Meta Llama 等在內的主流模型都推出了小模型版本,並在主流基準測試和領域特定任務測試中表現出色。

特別地,小模型表現出的更快推理速度、更少記憶體佔用和更低功耗,使得這類模型成為手機、PC 等終端側部署的首選。

在 AI 領域裡,終端側模型引數通常在 10 億到 100 億之間,而最近釋出的一些新模型引數規模已經下降到 20 億以下。隨著模型引數規模的不斷下降、小模型質量的提升,引數已不再是衡量模型質量的重要指標。

相對的,現在的旗艦智慧手機執行記憶體配置在 12GB 以上,理論上已經足夠支撐很多模型的執行。同時,針對主流配置手機的小模型也在不斷出現。

而隨著高質量小模型加快在手機、PC 等終端側大規模部署的步伐,又進一步推動了 AI 推理功能以及多模態生成式 AI 應用(比如文件摘要、AI 影像生成、實時語言翻譯等)在終端側的廣泛落地,為 AI 技術向更廣泛端側普通使用者的普及提供了重要支援。

在推動端側 AI 落地的過程中,高通一直在為行業鋪路。

AI 推理時代,高通將引領行業變革

高通憑藉高能效的晶片設計、超前部署的 AI 軟體棧及面向邊緣應用的全面開發支援等技術專長,正在引領這一變革並從中受益。

高通技術公司高階副總裁兼技術規劃和邊緣解決方案業務總經理馬德嘉(Durga Malladi)表示,如今的小模型效能已經超越了一年前推出的雲端大模型,「我們關注的焦點已不再是模型本身,而是演進到終端上的應用發展。隨著終端側可以執行越來越多高質量的 AI 模型,AI 應用開始湧現。AI 正在重新定義所有終端的使用者介面,這也意味著 AI 正在成為終端側新的 UI。」
圖片
高通認為,在 AI 定義的新時代,從包括語音、文字、影像的多種感測器資料,將會首先經由 AI 智慧體進行處理 —— 而不是直接應用於某個 App。智慧體獲取資訊後會將任務分配給不同的後臺應用,這個過程對於使用者來說是無感的。

在常規的手機系統裡,開發者可用的終端側模型數量正在激增,AI 智慧體需要從終端側能夠獲取的大量 AI 模型中選擇所需的模型完成任務。這個過程將會大幅降低互動的複雜性,實現高度個性化的多模態能力,並可以跨越各種應用完成任務。

對於終端使用者來講,AI 智慧體就是唯一在前端與他們互動的 UI,而所有實際應用的處理都是在後臺完成的。

利用高質量小模型的能力,智慧手機這樣的終端可以實現互動的創新。高通在 AI 從訓練向大規模推理轉型,以及從雲端到端的擴充套件方面,具有一定戰略優勢:
  • 高效能、高能效晶片設計:高通提供了整合定製 CPU、NPU、GPU 和低功耗子系統的行業領先系統級晶片,能夠在終端側提供高效能、高能效 AI 推理,在保持電池續航和整體能效表現的同時處理複雜 AI 任務;

  • 覆蓋所有關鍵邊緣細分領域的可擴充套件性:高通的可擴充套件硬體、軟體解決方案已賦能數十億智慧手機、汽車、XR 頭顯和眼鏡、PC 以及工業物聯網等終端,為廣泛的變革性 AI 體驗提供了基礎;

  • 活躍的生態系統:透過高通 AI 軟體棧、高通 AI Hub 和戰略性的開發者協作,高通面向跨不同邊緣終端領域的模型部署提供工具、框架和 SDK,賦能開發者在邊緣側加速採用 AI 智慧體和應用。

高通既預判了終端側模型的爆發,同時也推動了邊緣 AI 推理在跨終端裝置上的落地。

高通公司總裁兼 CEO 安蒙(Cristiano Amon)在近期的一季度財報電話會議中分享了他對當前 AI 行業趨勢的看法:「近期的 DeepSeek R1 及其他類似模型展示了 AI 模型的發展速度越來越快,它們變得更小、更強大、更高效,並且可以直接在終端側執行。事實上,DeepSeek R1 的蒸餾模型在釋出僅幾天內就能在搭載驍龍平臺的智慧手機和 PC 上執行。」

隨著進入 AI 推理時代,模型訓練仍將在雲端進行,但推理將越來越多地在終端側執行,使 AI 變得更便捷、可定製且高效。這將促進更多有針對性的專用模型和應用的開發及採用,並因此推動各類終端對計算平臺的需求。

DeepSeek R1 的爆火恰如其分地驗證了此前高通對終端側 AI 的判斷。高通憑藉其先進的連線、計算和邊緣 AI 技術以及獨特的產品組合,不僅在終端側 AI 領域保持了高度的差異化優勢,還為其實現混合 AI 願景提供了強有力的支援。

未來,端側 AI 將會在各個行業中發揮越來越重要的作用。

相關文章