最近一段時間,大模型領域正在經歷智慧體(AI Agent)引發的革命。Anthropic 推出的升級版 Claude 3.5 Sonnet,一經推出即引爆了 AI 圈。作為新一代 AI 智慧體,它跨過了大模型的次元壁,能夠像人一樣直接操縱電子裝置,根據你給出的自然語音指令移動游標、點選相應位置以及透過虛擬鍵盤輸入資訊,模仿人類與計算機的互動方式。大家都在自發探索智慧體的使用方法,比如有人已經在用智慧體自動代肝崩鐵每日任務了。除了打遊戲,在工作環境中智慧體還可以接管很多日常事務,比如撰寫郵件、安排會議、整理檔案等等,據說從科研到寫程式碼樣樣都行。有人表示,智慧體工具的出現標誌著全新人機互動正規化踏出了新的一步。沒過多久,國內公司就拿出了對標的產品,而且還更進一步,一次性實現了手機、PC、AI 原生硬體的覆蓋。今天上午,智譜 Agent 宣佈升級,開放「百萬內測」申請,翻開了人機互動體驗的新一頁。這是智譜第一個產品化的智慧體 Agent,可以做到讓 AI 透過語音直接操縱硬體裝置,還能跨不同 App 全域性操作。在釋出會現場,智譜 CEO 張鵬展示了一番智慧體的能力。讓 Agent 與現場觀眾建面對面群聊。AI 發的紅包瞬間就搶空了。不得不說謝謝張總,謝謝 AI Agent。智譜智慧體的手機版 AutoGLM 與電腦版 GLM-PC,內測階段覆蓋部分常用的 App 及應用。AutoGLM 支援包括微信、抖音、小紅書、微博等社交平臺、美團、餓了麼、等美食平臺、淘寶、京東、拼多多等購物平臺、高德和百度地圖等出行平臺、以及 12306、去哪兒、攜程等旅遊訂票平臺。
使用者開啟 AutoGLM 後,只需要動動嘴(當然也支援文字輸入),就能讓智慧體接管自己的手機,並在上面這些 App 上自動執行任何指令任務,比如在微信上對某個公眾號的文章進行摘要總結、在高德地圖上為你規劃出行路線,等等。
此次,智譜給 AutoGLM 進行了一系列能力升級。基於這些新能力,我們看到了一些新玩法。
一是「更長」,即 AutoGLM 可以理解、遵循並自主完成超長、複雜的指令,支援超過 50 步的無打斷連貫操作。在長任務上執行的速度比人類實操還要快。
二是「跨 App」,即 AutoGLM 在更強大泛化能力和思維鏈的加持下,支援複雜任務的跨 App 操作。有了這個智慧體,使用者與應用之間多了一個可以自動執行的排程層,省去了在不同 App 之間來回切換的麻煩,實現了這些 App 之間的協同操作。我們以不同 App 之間的資訊分享為例,命令 AutoGLM「在小紅書上種草幾款單反相機,然後分享到微信的『編輯部之插科打諢』群」,操作很絲滑。再比如跨不同 App 購物,AutoGLM 也能一氣呵成。更多新玩法進一步擴充了 AutoGLM 的功能,包括「短口令」,類似於手機上的快捷指令。在這種模式下,AutoGLM 可以一鍵儲存使用者自定義的快捷短口令,在觸發該指令後自動發起並執行關聯長任務。更有意思的還有「開盲盒」,AutoGLM 會預設跳過對話步驟,對於使用者發出的模糊指令,讓 AI 主動幫你完成選擇。過程中只有在涉及重要操作(比如支付)時才會進行二次確認。AutoGLM 的自主執行能力還擴充套件到了網頁端。智譜在瀏覽器(Google Chrome 和 Microsoft Edge)的智譜清言外掛上提供了 AutoGLM-Web 功能。該功能適配了知乎、微博、X 和豆瓣等社媒網站,百度、谷歌和必應等搜尋引擎,百度學術、谷歌學術和 arXiv 等學術網站,以及 GitHub 程式碼託管網站和資訊類網站。在這些網站上,智慧體遵循使用者指令,可以自動執行站內搜尋、內容總結、生成 arXiv 日報、搭建 GitHub 倉庫、在微博超話簽到等個性化功能,可玩性不錯。如下所示,我們可以讓它自動幫我們在微博分享新鮮事。在桌面端,智譜同樣推出了像人一樣操作計算機軟體的應用 GLM-PC,它基於通用視覺大模型 CogAgent 的理解與任務規劃能力,讓使用者透過簡單的一句話指令執行復雜任務。比如查詢並總結網頁上的資訊,並透過微信傳送給別人:在淘寶上買 XL 碼的羽絨服併購買:即將上線的隱形螢幕功能更加科幻。AI 可以在不打擾你的情況下提供幫助,解放螢幕使用權給人,自己在另外一個隱形螢幕上完成工作。從實現原理來講,GLM-PC 在充分理解使用者指令後對任務進行規劃,然後識別電腦介面中的視窗、圖形、文字等資訊,然後自動操作電腦。另外,這個 AI 助手在使用過程中可以根據頁面資訊更改計劃並自我糾錯,從而更好地完成任務。據介紹,GLM-PC 尤為擅長處理辦公場景,可以在微信、飛書、釘釘、騰訊會議等平臺執行多樣性任務,比如傳送資訊、預定和參與會議。同時支援瀏覽器網頁搜尋以及網頁內容的閱讀總結、翻譯,還能進行多種文件處理,包括下載、傳送和總結。 開啟並加入飛書會議。 郵件傳送會議紀要。不僅如此,智譜還實現了 GLM-PC 與手機端的聯動。使用者現在可以在手機上遠端向 GLM-PC 發訊息,讓它自動進行電腦端操作。最後,智譜在釋出會現場表示,要對十個億級 App 進行免費 Auto 升級。榮耀、華碩、小鵬汽車等大廠,高通、英特爾等硬體、晶片廠商也紛紛站臺,介紹了與智譜的合作。隨著端到端、多模態、影片等新能力的大模型出現,大模型已經初步具備了和物理世界互動的能力。我們能夠逐漸想象出山姆·奧特曼口中「前所未有的自然互動」的樣子,但眼前能夠接觸到的很多落地產品,卻似乎總是差點意思。這可能是因為想要構建顛覆性的產品,需要的不止是大模型能力,還有對於技術方向的提前預判,以及完整系統的最佳化。其實在發展大模型基礎技術之外,智譜最近還一直在推進另一件事:構建體系。我們能夠逐漸想象出山姆・奧特曼口中「前所未有的自然互動」的樣子,但眼前能夠接觸到的很多落地產品,卻似乎總是差點意思。這可能是因為想要構建顛覆性的產品,需要的不止是大模型能力,還有對於技術方向的提前預判,以及完整系統的最佳化。智譜在大模型 Agent 方向上的研究由來已久。自 2023 年 4 月,智譜就陸續提出了 AgentTuning、AgentBench、CogAgent 等大模型智慧體工作,今年智譜又連續釋出了AutoWebGLM、AutoGLM 等成果。智譜針對 AutoGLM、GLM-PC 的研發工作也經歷了一年半以上的時間。在探索大模型智慧體能力邊界的過程中,智譜逐漸獲得了兩個重要的觀察。
首先,智慧體和推理本質上服從著同大模型訓練類似的 Scaling Law。智慧體透過和環境互動,模型獲得來自環境的反饋監督訊號,具有類似的規模擴充套件效應。這說明,透過擴充套件計算規模,我們可以持續地提升大模型智慧體的表現水平。
在新的 Scaling Law 背後,智譜設計了 WebRL,一個自進化線上課程強化學習演算法框架。透過引入大模型特有的自進化演化策略,並利用課程學習實現智慧體由易到難進行泛化,並最終藉助線上 off-policy 強化學習,AutoGLM 實現了在線上環境中的智慧體擴充套件規律。
其次,智譜進一步的探索發現了 Agent 存在 Emergent Ability,即能力湧現。
10 月釋出之初,AutoGLM 尚只能在單個應用、短距離任務上展現能力。然而,隨著工程師們進一步訓練和規模的擴充套件,最新版本的 AutoGLM 已初步具備跨應用、長距離任務的勝任水平,甚至能夠能遵從複雜指令在從未見過的 App 應用中操作。其實在發展大模型基礎技術之外,智譜最近還一直在推進另一件事:構建體系。由於多模態大模型的出現,現在的 AI 已經具備了語義理解、螢幕內容解析和行為語義理解等能力。接下來要做的似乎就是找到一種機制,讓大模型能夠一步一步地解題。智慧體(AI Agent)就是用來執行這樣複雜的任務的。它既具有自主性,又能進行環境互動,可以分解複雜任務進行規劃,使用專業的模型或外部工具來提升自身能力,還擁有遠超大模型本身的記憶能力。這意味著加入智慧體之後,手機這樣的裝置可以利用相對輕量級的模型,承載起更加複雜的自動化任務。此前在業內,一些科技大廠、創業公司和手機廠商已在 PC、AI 手機上構建了智慧體能力,並獲得了不錯的效果。但從技術發展的角度來看,這往往是各自產品路線的延伸。智譜提供的解決方案在此基礎上還會覆蓋汽車、智慧眼鏡、智慧音響,甚至具身智慧的機器人等 AI 原生硬體,體現出了另一種思路。智譜認為,將來不同的硬體裝置都可能由統一體系的 AI 智慧體來操作,這樣才能實現人機互動的提升。為此,他們也在晶片、應用 App、作業系統 OS 和模型側進行了提前佈局。
包括與晶片、終端廠商持續合作,從硬體底層進行最佳化,持續最佳化端側大模型的能力。在 10 月高通驍龍 8 至尊版釋出時,智譜就宣佈已聯合高通對最新一代端側視覺大模型 GLM-4V 進行了深度適配和推理最佳化。在端側部署後,今年的新一代旗艦手機已經可以支援豐富的多模態互動方式,讓人們獲得更加情境化、個性化的終端側智慧體驗。
智譜也和眾多手機、電腦廠商合作,在 AI PC、手機端智慧助手領域給大模型進行落地。率先亮出 AI 智慧體操作手機的榮耀,就在九月份與智譜達成了 AI 大模型技術的戰略合作。
本週,智譜還與英特爾、機械革命聯合釋出了專為程式設計師設計的 CODE AI 程式設計師筆記本,預裝了基於端側的智慧程式設計助手。
透過端側晶片效能最佳化和端雲一體架構,智譜的大模型智慧體技術,不久後將出現在越來越多的裝置上。
儘管目前的技術還在初期,但 AI 智慧體已經展現出了前景。再往更深的層次想,過去鍵盤滑鼠、觸控螢幕這樣物理互動的形式,從 DOS、Windows 再到 iOS、安卓等作業系統,都是為了讓人更好地與機器溝通。大模型正在走一條相反的路,讓我們無需花費大量時間去理解各種應用的複雜介面,減少機械的勞動,反過來讓機器適應人類。智譜 CEO 張鵬在釋出會上表示:「目前的 Agent 能力更像是在使用者和應用、裝置之間增加一個智慧的排程層。可以看做是大模型通用作業系統 LLM-OS 的一種雛形。這已經對人機互動形式產生極大的影響。更重要的是,我們看到了一種大模型作業系統 LLM-OS 的可能,基於大模型智慧能力,有機會實現原生的人機互動。」