AI現場發了2萬紅包，開啟了大模型Act時代

机器之心發表於2024-11-29

原文網址 : https://www.jiqizhixin.com/articles/2024-11-29-8

我們需要的是「真正解放雙手的智慧體」。

最近一段時間，大模型領域正在經歷智慧體（AI Agent）引發的革命。Anthropic 推出的升級版 Claude 3.5 Sonnet，一經推出即引爆了 AI 圈。

作為新一代 AI 智慧體，它跨過了大模型的次元壁，能夠像人一樣直接操縱電子裝置，根據你給出的自然語音指令移動游標、點選相應位置以及透過虛擬鍵盤輸入資訊，模仿人類與計算機的互動方式。大家都在自發探索智慧體的使用方法，比如有人已經在用智慧體自動代肝崩鐵每日任務了。

除了打遊戲，在工作環境中智慧體還可以接管很多日常事務，比如撰寫郵件、安排會議、整理檔案等等，據說從科研到寫程式碼樣樣都行。

有人表示，智慧體工具的出現標誌著全新人機互動正規化踏出了新的一步。

沒過多久，國內公司就拿出了對標的產品，而且還更進一步，一次性實現了手機、PC、AI 原生硬體的覆蓋。

今天上午，智譜 Agent 宣佈升級，開放「百萬內測」申請，翻開了人機互動體驗的新一頁。

這是智譜第一個產品化的智慧體 Agent，可以做到讓 AI 透過語音直接操縱硬體裝置，還能跨不同 App 全域性操作。

在釋出會現場，智譜 CEO 張鵬展示了一番智慧體的能力。讓 Agent 與現場觀眾建面對面群聊。

發一個總計兩萬塊錢的紅包。

AI 發的紅包瞬間就搶空了。不得不說謝謝張總，謝謝 AI Agent。

深入手機、PC，能自己做主

智譜智慧體的手機版 AutoGLM 與電腦版 GLM-PC，內測階段覆蓋部分常用的 App 及應用。AutoGLM 支援包括微信、抖音、小紅書、微博等社交平臺、美團、餓了麼、等美食平臺、淘寶、京東、拼多多等購物平臺、高德和百度地圖等出行平臺、以及 12306、去哪兒、攜程等旅遊訂票平臺。

使用者開啟 AutoGLM 後，只需要動動嘴（當然也支援文字輸入），就能讓智慧體接管自己的手機，並在上面這些 App 上自動執行任何指令任務，比如在微信上對某個公眾號的文章進行摘要總結、在高德地圖上為你規劃出行路線，等等。

此次，智譜給 AutoGLM 進行了一系列能力升級。基於這些新能力，我們看到了一些新玩法。

一是「更長」，即 AutoGLM 可以理解、遵循並自主完成超長、複雜的指令，支援超過 50 步的無打斷連貫操作。在長任務上執行的速度比人類實操還要快。

二是「跨 App」，即 AutoGLM 在更強大泛化能力和思維鏈的加持下，支援複雜任務的跨 App 操作。有了這個智慧體，使用者與應用之間多了一個可以自動執行的排程層，省去了在不同 App 之間來回切換的麻煩，實現了這些 App 之間的協同操作。

我們以不同 App 之間的資訊分享為例，命令 AutoGLM「在小紅書上種草幾款單反相機，然後分享到微信的『編輯部之插科打諢』群」，操作很絲滑。

再比如跨不同 App 購物，AutoGLM 也能一氣呵成。

更多新玩法進一步擴充了 AutoGLM 的功能，包括「短口令」，類似於手機上的快捷指令。在這種模式下，AutoGLM 可以一鍵儲存使用者自定義的快捷短口令，在觸發該指令後自動發起並執行關聯長任務。

更有意思的還有「開盲盒」，AutoGLM 會預設跳過對話步驟，對於使用者發出的模糊指令，讓 AI 主動幫你完成選擇。過程中只有在涉及重要操作（比如支付）時才會進行二次確認。

AutoGLM 的自主執行能力還擴充套件到了網頁端。智譜在瀏覽器（Google Chrome 和 Microsoft Edge）的智譜清言外掛上提供了 AutoGLM-Web 功能。該功能適配了知乎、微博、X 和豆瓣等社媒網站，百度、谷歌和必應等搜尋引擎，百度學術、谷歌學術和 arXiv 等學術網站，以及 GitHub 程式碼託管網站和資訊類網站。

在這些網站上，智慧體遵循使用者指令，可以自動執行站內搜尋、內容總結、生成 arXiv 日報、搭建 GitHub 倉庫、在微博超話簽到等個性化功能，可玩性不錯。如下所示，我們可以讓它自動幫我們在微博分享新鮮事。

在桌面端，智譜同樣推出了像人一樣操作計算機軟體的應用 GLM-PC，它基於通用視覺大模型 CogAgent 的理解與任務規劃能力，讓使用者透過簡單的一句話指令執行復雜任務。

比如查詢並總結網頁上的資訊，並透過微信傳送給別人：

在淘寶上買 XL 碼的羽絨服併購買：

即將上線的隱形螢幕功能更加科幻。AI 可以在不打擾你的情況下提供幫助，解放螢幕使用權給人，自己在另外一個隱形螢幕上完成工作。

從實現原理來講，GLM-PC 在充分理解使用者指令後對任務進行規劃，然後識別電腦介面中的視窗、圖形、文字等資訊，然後自動操作電腦。另外，這個 AI 助手在使用過程中可以根據頁面資訊更改計劃並自我糾錯，從而更好地完成任務。

據介紹，GLM-PC 尤為擅長處理辦公場景，可以在微信、飛書、釘釘、騰訊會議等平臺執行多樣性任務，比如傳送資訊、預定和參與會議。同時支援瀏覽器網頁搜尋以及網頁內容的閱讀總結、翻譯，還能進行多種文件處理，包括下載、傳送和總結。

^{開啟並加入飛書會議。}^{郵件傳送會議紀要。}

不僅如此，智譜還實現了 GLM-PC 與手機端的聯動。使用者現在可以在手機上遠端向 GLM-PC 發訊息，讓它自動進行電腦端操作。

最後，智譜在釋出會現場表示，要對十個億級 App 進行免費 Auto 升級。榮耀、華碩、小鵬汽車等大廠，高通、英特爾等硬體、晶片廠商也紛紛站臺，介紹了與智譜的合作。

隨著端到端、多模態、影片等新能力的大模型出現，大模型已經初步具備了和物理世界互動的能力。

我們能夠逐漸想象出山姆·奧特曼口中「前所未有的自然互動」的樣子，但眼前能夠接觸到的很多落地產品，卻似乎總是差點意思。這可能是因為想要構建顛覆性的產品，需要的不止是大模型能力，還有對於技術方向的提前預判，以及完整系統的最佳化。

其實在發展大模型基礎技術之外，智譜最近還一直在推進另一件事：構建體系。

我們能夠逐漸想象出山姆・奧特曼口中「前所未有的自然互動」的樣子，但眼前能夠接觸到的很多落地產品，卻似乎總是差點意思。這可能是因為想要構建顛覆性的產品，需要的不止是大模型能力，還有對於技術方向的提前預判，以及完整系統的最佳化。

智譜在大模型 Agent 方向上的研究由來已久。自 2023 年 4 月，智譜就陸續提出了 AgentTuning、AgentBench、CogAgent 等大模型智慧體工作，今年智譜又連續釋出了AutoWebGLM、AutoGLM 等成果。智譜針對 AutoGLM、GLM-PC 的研發工作也經歷了一年半以上的時間。

在探索大模型智慧體能力邊界的過程中，智譜逐漸獲得了兩個重要的觀察。

首先，智慧體和推理本質上服從著同大模型訓練類似的 Scaling Law。智慧體透過和環境互動，模型獲得來自環境的反饋監督訊號，具有類似的規模擴充套件效應。這說明，透過擴充套件計算規模，我們可以持續地提升大模型智慧體的表現水平。

在新的 Scaling Law 背後，智譜設計了 WebRL，一個自進化線上課程強化學習演算法框架。透過引入大模型特有的自進化演化策略，並利用課程學習實現智慧體由易到難進行泛化，並最終藉助線上 off-policy 強化學習，AutoGLM 實現了在線上環境中的智慧體擴充套件規律。

其次，智譜進一步的探索發現了 Agent 存在 Emergent Ability，即能力湧現。

10 月釋出之初，AutoGLM 尚只能在單個應用、短距離任務上展現能力。然而，隨著工程師們進一步訓練和規模的擴充套件，最新版本的 AutoGLM 已初步具備跨應用、長距離任務的勝任水平，甚至能夠能遵從複雜指令在從未見過的 App 應用中操作。

其實在發展大模型基礎技術之外，智譜最近還一直在推進另一件事：構建體系。

由於多模態大模型的出現，現在的 AI 已經具備了語義理解、螢幕內容解析和行為語義理解等能力。接下來要做的似乎就是找到一種機制，讓大模型能夠一步一步地解題。

智慧體（AI Agent）就是用來執行這樣複雜的任務的。它既具有自主性，又能進行環境互動，可以分解複雜任務進行規劃，使用專業的模型或外部工具來提升自身能力，還擁有遠超大模型本身的記憶能力。

這意味著加入智慧體之後，手機這樣的裝置可以利用相對輕量級的模型，承載起更加複雜的自動化任務。

此前在業內，一些科技大廠、創業公司和手機廠商已在 PC、AI 手機上構建了智慧體能力，並獲得了不錯的效果。但從技術發展的角度來看，這往往是各自產品路線的延伸。智譜提供的解決方案在此基礎上還會覆蓋汽車、智慧眼鏡、智慧音響，甚至具身智慧的機器人等 AI 原生硬體，體現出了另一種思路。

智譜認為，將來不同的硬體裝置都可能由統一體系的 AI 智慧體來操作，這樣才能實現人機互動的提升。為此，他們也在晶片、應用 App、作業系統 OS 和模型側進行了提前佈局。

包括與晶片、終端廠商持續合作，從硬體底層進行最佳化，持續最佳化端側大模型的能力。在 10 月高通驍龍 8 至尊版釋出時，智譜就宣佈已聯合高通對最新一代端側視覺大模型 GLM-4V 進行了深度適配和推理最佳化。在端側部署後，今年的新一代旗艦手機已經可以支援豐富的多模態互動方式，讓人們獲得更加情境化、個性化的終端側智慧體驗。

智譜也和眾多手機、電腦廠商合作，在 AI PC、手機端智慧助手領域給大模型進行落地。率先亮出 AI 智慧體操作手機的榮耀，就在九月份與智譜達成了 AI 大模型技術的戰略合作。

本週，智譜還與英特爾、機械革命聯合釋出了專為程式設計師設計的 CODE AI 程式設計師筆記本，預裝了基於端側的智慧程式設計助手。

透過端側晶片效能最佳化和端雲一體架構，智譜的大模型智慧體技術，不久後將出現在越來越多的裝置上。

Agent 的盡頭是什麼？

儘管目前的技術還在初期，但 AI 智慧體已經展現出了前景。

再往更深的層次想，過去鍵盤滑鼠、觸控螢幕這樣物理互動的形式，從 DOS、Windows 再到 iOS、安卓等作業系統，都是為了讓人更好地與機器溝通。

大模型正在走一條相反的路，讓我們無需花費大量時間去理解各種應用的複雜介面，減少機械的勞動，反過來讓機器適應人類。

智譜 CEO 張鵬在釋出會上表示：「目前的 Agent 能力更像是在使用者和應用、裝置之間增加一個智慧的排程層。可以看做是大模型通用作業系統 LLM-OS 的一種雛形。這已經對人機互動形式產生極大的影響。更重要的是，我們看到了一種大模型作業系統 LLM-OS 的可能，基於大模型智慧能力，有機會實現原生的人機互動。」

AI大模型時代，人才的需求已經變了
2024-12-17
AI大模型
AI時代：大模型開發framework之langchain和huggingface
2024-03-06
大模型FrameworkLangChain
大模型時代的AI之變與開發之根
2021-09-28
大模型AI
【Android Adapter】是時候開啟Adapter新時代了
2019-04-15
AndroidAPT
手遊的“大宣發”時代來了？
2020-04-29
大模型開啟人工智慧的新時代
2023-11-01
大模型人工智慧
用大模型開啟AI新時代，悠絡客UMind新品重磅釋出
2023-10-31
大模型AI
AI時代，連相親都開始用RPA了？
2019-08-26
AI
谷歌內部專案：大模型AI智慧體發現了程式碼漏洞
2024-11-02
谷歌大模型AI智慧體
位元組釦子AI：開啟全民AI Bot開發新時代
2024-04-06
AI
指標管理+AI大模型深度融合，開啟智慧資料分析管理新時代
2024-12-25
指標AI大模型
為了啟用5G+AI的時代紅利，華為智慧安防建起了線上商城
2019-10-30
AI
又一屆「AI春晚」拉開序幕！智源大模型集體爆發了
2024-06-16
AI大模型
AlphaFold3開源了，諾獎AI工具人人可用，開啟生物分子設計新時代
2024-11-12
AI
AI大模型時代: 還需要百度嗎？
2024-06-03
AI大模型
馬雲收購大潤發創始人揮淚離場：贏了沃爾瑪卻輸給了時代
2018-04-08
AI大模型時代下運維開發探索第二篇：基於大模型(LLM)的資料倉儲
2023-12-29
AI大模型運維
AI for Science，開啟智慧科學時代！
2024-02-01
AI
大模型時代進入尾聲：場景式模型接棒
2023-04-20
大模型
海底撈、京東的無人餐廳來了，AI替代人類的時代開始了？
2018-11-26
AI
揭秘Dreamforce 2024十大亮點：AI+資料新時代來了！
2024-09-26
AI
AI表情包生成器來了！給AI餵了96萬個表情包文案
2020-05-24
AI
開啟智慧座艙AI時代，蔚來NOMI GPT端雲多模態大模型正式上線
2024-04-12
AIGPT大模型
Runway CEO：AI公司的時代已經結束了
2024-10-30
AI
今年的谷歌I/O大會超「硬」，還展示了下一代AI模型
2022-05-12
谷歌AI模型
OpenAI停服，國產大模型免費用！開發者Token自由實現了
2024-06-25
OpenAI大模型
業績反轉，閱文拉開了IP時代的大幕
2021-03-25
【重磅乾貨】大模型時代，開發者雲上成長指南
2024-03-29
大模型
首發端到端自動駕駛大模型，目標2025年L4：小鵬開啟AI智駕時代
2024-05-21
自動駕駛大模型AI
大資料時代，再不學習就OUT了
2019-01-05
大資料
小紅書這場大模型論文分享會，集齊了四大國際頂會的作者
2024-06-21
大模型
MiniMax、商湯科技、面壁智慧、西湖心辰、聲網都來了！RTE 大會「實時互動和大模型」專場開啟報名
2024-09-26
大模型
7 年了，終於領了大禮包
2025-01-10
跨越AI天塹時：行動代號“盤古大模型”
2021-08-31
AI大模型
渠道大人，時代變了
2020-09-07
AI偏科的毛病「治」得咋樣了？我們實測了6款大模型
2024-12-02
AI大模型
Llama成大模型頂流，祖克伯掀論戰：玩開源，時代變了
2024-07-24
大模型
大人，時代變了：敏捷DevOps、低程式碼、微服務的正確開啟姿勢都在這兒了
2020-11-18
敏捷dev微服務

AI現場發了2萬紅包，開啟了大模型Act時代

相關文章