做最有挑戰的事:把生成式 AI 送到每個人手上。
沒想到,生成式 AI 爆發後,產業格局的變化居然這麼快。
一個月前,微軟向全世界介紹了專為 AI 設計的「Copilot + PC」,AI PC 這個新品類突然有了標準款。
這是迄今為止速度最快、最智慧化的 Windows 個人電腦。憑藉搭載的新型晶片,它能夠實現超過 40 TOPS(每秒萬億次操作)AI 算力、電池續航時間長達一整天,而且無縫接入了世界最先進的人工智慧模型。其釋出之時,只有驍龍 X 系列的 45TOPS 能夠滿足這樣的 Windows 11 AI PC 新品類。
目前基於驍龍 X 系列平臺的各品牌 Windows 11 AI PC 已經開始在國內陸續開賣,擁有很多獨特的 AI 能力,例如透過回顧功能對瀏覽過的內部儲存資料進行 AI 搜尋,裝置端的 AI 影像生成與最佳化,給影片和線上會議加實時翻譯字幕、背景濾鏡等等。
結合終端側最先進的大模型技術,人們可以在新型裝置上與 AI 輕鬆地進行互動。AI 大模型可以實時看到、聽到系統內外的資訊,並給與有效回應,大幅提升你的工作效率。
還記得 OpenAI CEO 山姆・奧特曼釋出 GPT-4o 的時候曾經說過「與電腦互動從來都不是很自然的事情」,似乎話音未落,變革已經來到了。
在興奮於人機互動方式的顛覆之後,人們發現,這些新形態裝置的內在也有些許不同之處:常年由 X86 架構主導的 Windows 筆記本,到了 AI PC 時代卻是一水的高通驍龍 X 系列晶片。
而且,這還不是簡單的替換。微軟官方後續進行了說明:Windows 11 中的部分生成式 AI 能力,只有在搭載驍龍晶片上才能正常執行。
為什麼到了生成式 AI 時代,計算機內部的「C 位」忽然換了人?
7 月 4 日,世界人工智慧大會暨人工智慧全球治理高階別會議 WAIC 2024 正式召開,在這次大會上,高通展示的一系列終端側生成式 AI 能力給了我們答案。
晶片 AI 能力,帶動裝置形態變革
自 ChatGPT 問世以來,人們就一直在期待大模型等新技術帶來的變革。
不過這條道路異常艱難,在技術進步的過程中,人們面臨著資料、演算法和算力的三重挑戰。生成式 AI 極度消耗算力,用於計算大模型的 GPU 都成了稀缺品。面向 AI 計算的晶片迅速成為各家硬體公司的探索方向。
在終端側算力上,動作最快的就是高通。
去年 10 月,高通在驍龍峰會上推出了第三代驍龍 8 移動平臺(驍龍 8Gen3),這塊 SoC 在多核跑分中跑贏了蘋果 A17 Pro,由於 CPU 和 GPU 效能的大幅提升,NPU 效能直接翻倍,它成為了旗艦 AI 手機晶片的首選。
如今,搭載新一代晶片的 AI 手機已經大賣,AI 手機很大程度上已經是「現在式」,與此同時還有一個「未來式」—— 同在驍龍大會上,我們看到高通花費大量篇幅,介紹了全新設計的高效能 PC 晶片驍龍 X 系列平臺。
它的旗艦產品就是「驍龍 X Elite」,大幅提升了移動 PC 能力的上限。
這款晶片採用 4nm 製程打造,搭載了 12 大核的 Oryon CPU,。與英特爾 Ultra 7 155H 相比,Oryon CPU 的單核同功耗效能領先 54%,同效能水平的能耗可以降低 65%。在蘋果 M3 晶片推出以後,驍龍 X Elite CPU 在 Geekbench 多執行緒中的測試結果要比蘋果新品好上 28%。
GPU 方面,驍龍 X Elite 採用的 Adreno GPU 與 Ultra 7 155H 相比同功耗效能高出 36%,達到相同效能時,功耗只有競品的一半。
這款晶片最突出的亮點是其面向下一代裝置形態的 AI 算力。驍龍 X Elite 僅依靠 NPU 就可以實現 45TOPS 算力,結合 CPU、GPU、NPU 的異構計算可以輸出更高算力。
根據測算,在驍龍 X Elite 的支援下,新一代 AI PC 可以在終端側執行超過 130 億引數的生成式 AI 模型。
這就讓新一代膝上型電腦,擁有了跑大模型的底氣。
驍龍峰會上,高通 CEO 克里斯蒂亞諾・安蒙與微軟 CEO 薩提亞・納德拉進行了面對面對話。兩人展望了基於新硬體和大模型演算法所能催生出的未來產品形態。
安蒙與納德拉提到,新一代的 AI PC 就是要把只有新形態系統架構才能實現的體驗統統結合在一起。在 AI 算力和大模型結合之後,我們使用 Windows 的體驗就彷彿在 Windows 初生時遇見「開始」按鈕一樣 —— 所有的應用程式、體驗都會有機地整合到一鍵之上。
幾個月後,當初的預告就落地成為了現實。現在,我們可以使用 AI PC 快速直觀地檢索想要尋找的內容,亦或是藉助實時字幕突破語言障礙,還可以使用 AI 的影像生成能力進行創作。
未來,AI PC 的能力還將覆蓋人們的學習、搜尋與創作,我們使用電腦的方式或許會被徹底改變。
在晶片突破的同時,在這幾個月裡,大模型技術的發展同樣突飛猛進。
模型最佳化,完成最後一塊拼圖
最近一段時間,不論科技大廠還是創業公司都在加速研發「輕量級」AI 模型。
去年 7 月,Meta 的開源模型 LLaMA-2 70B 模型效能已接近於 GPT-3.5,到今年 4 月,LLaMA-3 8B 做到了在 80 億引數的體量上效能與 ChatGPT 3.5 基本相當。
上個星期,谷歌開源的 Gemma 2,已經可以使用單塊 GPU 進行推理,效能還超過了體量大於自身兩倍的競品。
而在手機、電腦等常規終端裝置上,現在我們也已經可以執行起與大型雲端模型水平相當的 AI 模型了。
在世界人工智慧大會 WAIC 2024 上,高通展示了首個在 Android 智慧手機上執行的大語言和視覺助理大模型(LLaVA),擁有超過 70 億引數,可以接收文字和影像內容的輸入,並生成關於影像的多輪對話。LLaVA 在由驍龍 8 Gen 3 移動平臺支援的工程機上執行,透過全棧的 AI 最佳化,實現了極高的響應速度。
加入視覺理解能力的大模型可以為 AI 手機帶來很多新的用法。在 WAIC 人工智慧賦能新型工業化主題論壇上,高通公司中國區研發負責人徐晧分享了多模態終端側 AI 的應用前景。
高通公司中國區研發負責人徐晧在 WAIC 上。
比如你可以給冰箱裡的食材拍一張照片,然後問大語言模型「你看到了什麼?」,AI 可以很快地識別所有物體;在此基礎上還可以接著問「基於這些食材,請給我推薦一個菜譜」,讓 AI 進行菜式和做法的推薦。這比以前的 AI 助手,只能問「今天天氣怎麼樣」或者「給我講一個笑話」要有用的多。
在搭載驍龍 X Elite 的 Windows PC 上,高通此前還展示過全球首個超過 70 億引數的 LMM 裝置端推理,它可以接受文字和環境音訊輸入(如音樂、交通聲音等),然後生成關於音訊的多輪對話。
能夠終端側處理音訊內容的方法,可以幫助 AI PC 更好地回答使用者給出的指令。
為了把大模型微調的成本「打下來」,AI 學界提出的低秩自適應(LoRA)技術已經成為了先進大模型的主流方法,它能夠在保證模型輸出內容質量的前提下,大幅降低 AI 模型的可訓練引數量。高通率先在安卓手機上實現了 LoRA 模型的終端側執行,降低了大模型的訓練成本,並演示了手機端執行支援 LoRA 介面卡的影像生成模型 Stable Diffusion。
在 WAIC 現場,高通展示了驍龍生態的更多可能性。抖音集團在驍龍 X Elite 平臺的 AI PC 上跑起了自家的機器學習框架 ByteNN,對剪映客戶端進行 AI 適配最佳化。透過 NPU 加速,剪映的智慧摳像功能可以實現快速、輕鬆的一鍵移除影片背景,測試對兩分鐘時長的影片進行智慧摳像,比使用 CPU 耗時降低 92%,完成摳像任務所消耗電量減少 85%。
另外,在剪映的美顏美體勻膚功能中,我們同樣可以在本地 NPU 的加速下實現快速祛斑祛痘能力。
高通還展示了高度智慧的 AI 服務機器人。告訴機器人「我想喝水」或是「我口渴」,機器人會提供不同的飲料選擇。使用者選擇之後,機器人可以走到房間另一側,識別飲料然後拿給使用者。這樣由人工智慧驅動的機器人,已經可以在日常生活中提供幫助了。
有了多模態、LoRA 和能夠支撐第三方應用的軟體棧,高通可謂已經完成了終端側生成式 AI 的全部拼圖。
用「小模型」撬動大生態
上述這些研究、實踐的共同目的,是為了讓 AI 大模型更加輕量化,讓終端側裝置承擔起更多的計算任務。大模型雖然可以在雲端執行,但在終端側裝置上執行生成式 AI 的推理可以帶來很多好處。
從技術角度來看,終端側處理 AI 任務具有保護隱私、個性化、降低成本、可靠性和快速響應的優勢,每個方面對於大規模、常態化的部署都至關重要。
從實用角度來看,作為「通用化」的人工智慧技術,在擁有更完善的能力後,終端側大模型可以讓手機等裝置更全面地瞭解世界,AI 助理實現真正的智慧化,把我們從很多繁雜的任務中解放出來。
不過,能做到從軟到硬,佈局完整體系,又有大規模生態的玩家並不多。
在國內,除了各家大廠打造的旗艦 AI 手機,部分玩家在 AI PC 上的角力才剛剛展開。把視線往遠看,生成式 AI 的應用還要擴充套件到汽車、XR 裝置和物聯網上。
這其中,很多應用落地的背後都可以看見高通的身影。
WAIC 大會上,高通中國區董事長孟樸在產業發展主論壇上介紹了高通為推動終終端側 AI 發展所做的努力。
高通中國區董事長孟樸在 WAIC 大會現場。
高通擁有超過 15 年的 AI 技術研發經驗,憑藉長期不懈的技術探索與實踐,已經打造出了端雲結合的混合 AI 能力。在生成式 AI 時代,高通充分發揮技術優勢,為終端裝置提供了效能領先的硬體,其可擴充套件的軟硬體技術架構可以對多種 AI 演算法實現效能、能效的極致最佳化,並快速部署到不同終端上。
在去年驍龍峰會上,高通便表示全球搭載驍龍晶片的裝置已經超過了 30 億臺。背靠龐大的裝置基數,先進的軟硬體全棧最佳化體系,以及全球協作的生態系統,高通在生成式 AI 技術爆發的過程中,進一步擴充套件了對於前沿技術方向的探索,站在了引領潮流的高度。
現在,高通的生成式 AI 能力已經覆蓋了開發的全流程:高通提供面向生成式 AI 設計的全新計算架構,可以實現 CPU、NPU、GPU 結合的異構計算;高通 AI 引擎能夠橫跨不同裝置型別,幫助人們把業界領先的 AI 模型快速落地;最後,使用這套軟體和硬體,大模型應用對接的還是使用者面積最大、品類最為繁多的生態。
高通的終端側生成式 AI 佈局,已經在收穫成果:
智慧手機是生成式 AI 發展最快的領域之一,已有超過 20 款搭載第三代驍龍 8 的旗艦手機產品釋出。這些 AI 手機支援的應用針對人們的需求進行了大量最佳化,大幅提升了實用性,讓生成式 AI 越來越貼近我們的生活。
個人電腦方面,高通的驍龍 X Elite 和驍龍 X Plus 平臺憑藉專用的 AI 算力實現了一系列獨有功能。聯手微軟等生態夥伴,已有超過 20 款基於驍龍 X 系列的 Windows 11 AI PC 上市。新形態的硬體為人們帶來了更多可能性。
在汽車領域,「AI 上車」正在成為現實。包括理想、小鵬、極越等多家汽車廠商,已經在搭載第四代至尊級驍龍座艙平臺(驍龍8295)的汽車上部署了車端大模型;隨著多模態技術的發展,生成式 AI 有望為智慧座艙、自動駕駛等領域開啟全新的應用空間。
有高通這樣提供完整技術棧的存在,生成式 AI 的大規模落地已經按下了加速鍵。由此帶動,變革正逐漸顯現,這不由得讓人想起 NPU 剛剛誕生時,上一波 AI 技術爆發的前夜。
很快,終端側生成式 AI 帶來的智慧化將會無處不在。