一手實測結果出爐！智譜「超大杯」模型全家桶亮相KDD，部分任務超越GPT-4o

机器之心發表於2024-08-30

原文網址 : https://www.jiqizhixin.com/articles/2024-08-30-8

在與 GPT-4o 的全面較量中，GLM-4-Plus 已經可以在大多數任務上做到逼近甚至在某些任務上實現了超越。還有 One More Thing：清言上線了視訊通話功能，首批面向部分使用者開放。

中國的大模型，正在世界舞臺上站穩腳跟。

近日，資料探勘頂會 KDD 2024 在西班牙巴塞羅那正式召開，來自中國的研究團隊和科技企業紛紛亮相。其中，在 8 月 29 日舉辦的大語言模型日（Large Language Model Day）上，智譜 AI 顧曉韜博士介紹了智譜 AI 支援中英雙語的對話機器人 ChatGLM，成為中國科技力量的鮮明代表。

與此同時，他還介紹了智譜基礎模型的重大升級，即新一代基座大模型 GLM-4-Plus。這是智譜全自研 GLM 大模型的最新版本，在語言理解、指令遵循、長文字處理等方面效能得到全面提升，保持了國際領先水平。

此外，他們還發布了文生圖模型 CogView-3-Plus 和影像 / 影片理解模型 GLM-4V-Plus。前者具備與當前最優的 MJ-V6 和 FLUX 等模型接近的效能，後者具備卓越的影像理解能力和基於時間感知的影片理解能力，上線開放平臺後將成為國內首個通用影片理解模型 API。

在影片生成方面，比 CogVideoX 2B 更大的 5B 版本也正式開源，其效能進一步增強，是當前開源影片生成模型中的最佳選擇。

這些模型共同構成了智譜自主原創的全棧大模型譜系，推動智譜全面對標國際先進水平，鞏固中國在全球大模型領域的領先地位。

第一手實測

通用知識、視覺理解、影像生成體驗升級

我們首先對剛剛釋出的 GLM-4-Plus 的通用知識掌握程度、邏輯推理等相關能力來了一波測驗。

先看官方給出的指標。從結果來看，在與 OpenAI 最強旗艦模型 GPT-4o 的全面較量中，GLM-4-Plus 已經可以在大多數任務上做到逼近甚至在某些任務上實現了超越。

對於邏輯推理任務，先讓它嘗試解答最近一段時間讓大模型犯糊塗的「數字比較」問題。從結果看，GLM-4-Plus 很懂小數位比較的邏輯思路。

給 GLM-4-Plus 上上難度，看它能不能搞定經典的「瓶子裝水」問題。顯然它可以一步步釐清破解思路，並給出準確答案。

GLM-4-Plus 對 AI 圈名人 Ilya Sutskever 的最新近況也瞭如指掌，說明背後的搜尋功能做得也不錯。

接下來，我們測試了 GLM-4V-Plus 的影像理解能力。

給出一張有關英偉達的漫畫，GLM-4V-Plus 能 get 到這是用淘金熱比喻當下的 AI 熱，指出英偉達是鏟子賣家，其他 AI 公司是鏟子買家，和漫畫寓意相符。

接下來，我們又給了它一張包含多個人物的梗圖。結果發現，GLM-4V-Plus 不僅能夠描述出人物的穿搭、表情以及照片裡模糊的背景，還能看出幾個人之間的關係以及表情的成因，效果出乎意料。

GLM-4V-Plus 在「實戰」中不僅可以理解網頁內容，將它們轉換為 html 程式碼，而且能夠對複雜的影片內容進行透徹的理解與分析，並做到與人類之間類似的溝通。

我們也讓 GLM-4V-Plus 生成了機器之心官網截圖的 html 程式碼。它基本對設計稿進行了分割槽規劃，排版方式用了比較現代的 flex，支援一定的響應式，具有一定的基於當前程式碼繼續補充細節的可行性。

從程式碼功能來看，它能夠正確識別模組的內容大概是什麼（比如是 Logo、是 Banner 還是新聞），並且語義化給出 class 命名（如新聞板塊命名為.news）。

眼見為實，GLM-4V-Plus 強不強，下面這個影片示例也會給我們答案。我們餵給模型一段 11 秒時長的籃球比賽現場影片：一手實測結果出爐！智譜「超大杯」模型全家桶亮相KDD，部分任務超越GPT-4o

然後分別從影片總結、推理、時間問答等幾個角度考驗 GLM-4V-Plus。

Q1: 這個穿綠色衣服的球員在整個影片都做了什麼？
A1: 在整個影片中，穿綠色衣服的球員在場上運球，然後跳起將球投入籃筐。
Q2: 這個影片的精彩時刻是什麼？發生在第幾秒？
A2: 這個影片的精彩時刻發生在第 4 秒，當時穿綠色衣服的球員跳起並將球投入籃筐。

可以看到，GLM-4V-Plus 顯然準確地 get 到了影片傳達的內容，並進行了全面的總結。不僅如此，它還能根據「看到」的某些顯著特徵（如球員的服裝）來展開進一步合理的推理判斷；並針對具體時間節點的內容進行概括總結，在某種程度上可以說具備了時間感知能力。

我們測試了當前大火的《黑神話・悟空》片段，GLM-4V-Plus 也能按照時間順序描述清楚，而且描述語言文學性高，與影片片段高度適配。

一個穿著傳統中國盔甲的動畫孫悟空，站在多雲的天空下，散發出決心和戰鬥的準備。隨著時間的推移，他的裝束被詳細展示，包括金色的盔甲、紅色的流蘇和類似羽毛的頭飾，背景是霧濛濛的。他的表情從嚴肅的決心變為沉思，暗示著內省。場景轉換到一個霧濛濛的山區地形，在那裡，一個穿著華麗盔甲的戰士面對著一個巨大的、有鱗片的生物，預示著一場史詩般的對抗。隨著戰士和生物之間的緊張關係升級，最終在多雲的天空下，一場戲劇性的對峙達到高潮。

最後，從 CogView-3-Plus 生成的一系列影像示例中，我們體驗到了文生圖能力的顯著提升。

比如在下面這張圖中，我們看到 CogView-3-Plus 可以非常準確地生成單詞，這在很多文生圖應用中都是高頻翻車區。

在下面這張圖中，CogView-3-Plus 不僅準確還原了馬斯克的面部特徵，還創意性地給馬加上了類似電路的紋理，非常富有想象力。

CogView-3-Plus 對於古詩詞的理解有些出乎意料，不僅畫出了所有的元素，還還原了詩詞中的意境。

人物的生成則非常逼真，而且細節豐富、氛圍感強。

可以說，智譜「超大杯」模型系列的實際體驗效果，「兌現了」效能指標上的全面提升。

One More Thing

智譜版「Her」正式上線

除了以上基礎模型的進展，智譜旗下 C 端產品 —— 生成式 AI 助手智譜清言也迎來了重磅升級。

我們知道，在 GPT-4o 出現後，大家都在猜測，下一個 Killer APP 的互動方式會是什麼樣子。很多人看好語音，但毋庸置疑，語音 + 影片會更加方便，所以頂級大模型廠商都在想方設法給自己的大模型安上「眼睛」，讓大模型不僅會寫、會聽、會說，還會看。

在國內，智譜是首個把這項綜合功能做成 C 端產品並開放給部分使用者的公司。這部分使用者只要下載最新版本的智譜清言，然後開啟視訊通話視窗，就可以和它視訊通話。

這個視訊通話跨越了文字、音訊和影片模態，並具備實時推理的能力。隨著該功能的加入，清言 APP 成為首個可以透過文字、音訊、影片和影像來進行多模態互動的 AI 助手。

從官方 demo 來看，這個功能可以用在陪伴、教學、辦公、生活等多種場景。一手實測結果出爐！智譜「超大杯」模型全家桶亮相KDD，部分任務超越GPT-4o

為了驗證效果，機器之心在第一時間進行了嘗試。

首先，我們嘗試了一道小學數學題。在看到題目後，清言似乎自動代入了一個小學老師的角色，語速放慢且富有耐心。而且，它不是直接給出結果，而是用蘇格拉底啟發式教學法，引導提問者一步一步算出答案。這不就是家長想要的「作業輔導」搭子嗎？一手實測結果出爐！智譜「超大杯」模型全家桶亮相KDD，部分任務超越GPT-4o

接下來，我們嘗試了一下工作場景 —— 讓清言幫忙解讀一篇英文報導。可以看出，它不僅能把新聞概括出來，還能自行擴充套件新聞背後的資訊，可以考慮拿來當工作搭子了。一手實測結果出爐！智譜「超大杯」模型全家桶亮相KDD，部分任務超越GPT-4o

目前，該功能也開放了外部申請。現在到智譜清言 APP 或登入 PC 端，就能站內申請內測。智譜表示會持續迭代並逐步放開規模，儘快讓全員都可以使用。

此外，智譜還透露，這其實只是一個 beta 版本，清言的視訊通話功能近期還會迎來大的版本迭代。看來，智譜有意將 C 端大模型捲到會寫、會聽、會說還會看的 Next Level，在行業內掀起新一輪競賽。

密集的迭代背後

智譜有著充足的技術彈藥

在眾多大模型公司中，智譜是非常有辨識度的一家。這一方面是因為，智譜的模型早早就做到了接近 GPT-4 的水平；另一方面則是因為，沒有哪家國產大模型公司像智譜的技術動作這樣密集。

比如 2024 開年以來，智譜這家公司就一直「沒消停過」。

比如，在模型方面，智譜在 1 月份就迭代出了新一代基座大模型 GLM-4。該模型整體效能成為當時最接近 GPT-4 的國產大模型。如今，GLM-4 再度進化，時間間隔也不過半年多。

在戰火紛飛的小模型戰場，智譜也沒閒著，推出了 GLM-4-9B、GLM-4V-9B 等小模型。其中，GLM-4V-9B 還是多模態的，透過加入 Vision Transformer，該模型僅以 9B 的引數量就實現了比肩 GPT-4V 的能力。但和後者不同的是，這個模型是開源的。

而在產品方面，智譜也是在 1 月份就推出了對標 GPT-4 All Tools 和 GPTs 的 GLM-4-All Tools 和 GLMs。其中，GLM-4-All Tools 實現了根據使用者意圖自動理解、規劃複雜指令，自由呼叫文生圖、程式碼直譯器、網頁瀏覽、Function Call 等多項工具來完成複雜任務，這意味著 GLM 系列模型的全家桶能力實現工業化。GLMs 則實現了個性化智慧體定製，幫助沒有程式設計基礎的使用者實現大模型的便捷開發。

在清言這款 C 端產品上，智譜也是更新不斷，其中動靜最大的要數最近釋出的影片生成功能「清影」。只要你有好的創意（幾個字到幾百個字），再加上一點點耐心（30 秒），「清影」就能生成 1440x960 清晰度的高精度影片。而且，和 OpenAI 遲遲沒有上線的 Sora 不同，清影同源的影片生成模型 ——CogVideoX 也是開源的，而且一路從 2B 開源到 5B（未來可能更大），這在國內外開發者群體中都引發了不小的轟動。

今天 HuggingFace 熱榜，CogVideoX-5b 排名第三，超過 Llama 了。

據悉，智譜開源模型累計下載量已突破 2000 萬次。

可以看到，從基礎大模型到小模型，從語言到多模態，從技術到產品，智譜在各個方向全面發展，且全方位對標 OpenAI。這在國內大模型廠商中並不常見。這是一種技術儲備充足的表現。

在競爭激烈的全球大模型市場中，智譜正透過頻繁的技術迭代和開源舉措，不斷推動行業和生圖的發展，贏得了越來越多的關注與認可。

Java之定時任務全家桶
2020-11-22
Java
全球140+大模型全方位評測結果出爐，智源評測體系釋出
2024-05-18
大模型
實戰：React全家桶仿PC端《快看漫畫》(部分)
2018-08-30
React
vue全家桶仿某魚部分佈局以及功能實現
2018-08-13
Vue
智源釋出FlagEval「百模」評測結果，丈量模型生態變局
2024-12-20
模型
蘋果智慧炸裂登場：直接GPT-4o加持，全家桶都上生成式AI，Siri脫胎換骨
2024-06-11
蘋果GPTAI
Day10 鴻蒙，Ability全家桶（二）如何後臺執行任務
2021-02-01
鴻蒙
SwnoRabbit全家桶
2020-09-02
vue全家桶
2021-09-09
Vue
Jetbrains 全家桶啟用工具（親測好用）
2020-03-10
AI
應用上雲新模式，Aliware 全家桶亮相杭州雲棲大會
2019-10-12
模式
中文任務全面超越 BERT：百度正式釋出NLP預訓練模型ERNIE
2019-03-16
模型
react技術棧全家桶（總結及感悟）
2018-04-20
React
22個任務超越SOTA，43個任務媲美SOTA，Google推出醫學治療通用大模型
2024-06-12
Go大模型
React全家桶專案
2019-03-04
React
Spring全家桶一覽
2018-08-09
Spring
Flutter 圖片全家桶
2020-04-13
Flutter
多項式全家桶
2024-10-17
DP全家桶（長期）
2024-07-27
Vue-Mall Vue全家桶+Node後端服務實現的商城
2019-02-16
Vue後端
獲取任務的執行結果
2019-01-22
vue2.0全家桶實現vivo商城 shop
2018-05-26
Vue
Flutter輕鬆實現Adobe全家桶Logo列表
2019-11-14
FlutterGo
Windows計劃任務出現0x1錯誤結果
2024-10-06
Windows
Vue全家桶學習（二）
2018-06-19
Vue
Jetbrains全家桶啟用方法
2024-11-07
AI
Adobe全家桶功能介紹
2023-04-13
react全家桶都有什麼
2020-12-16
React
react全家桶實現招聘app-路由實現（二）
2018-08-22
ReactAPP路由
5個效能測試工具哪個更好用？對比結果新鮮出爐！
2020-07-14
Vue 全家桶實現網易雲音樂 WebApp
2018-05-15
VueWebAPP
Vue全家桶+Echarts資料視覺化實踐
2020-04-01
VueEcharts視覺化
office全家桶 2021版本 Mac安裝蘋果電腦版
2022-07-08
Mac蘋果
NLP生成任務超越BERT、GPT！微軟提出通用預訓練模型MASS
2019-05-10
GPT微軟模型
最全總結 | 聊聊 Python 資料處理全家桶（Redis篇）
2020-09-23
PythonRedis
最全總結 | 聊聊 Python 資料處理全家桶（Sqlite篇）
2020-09-20
PythonSQLite
最全總結 | 聊聊 Python 資料處理全家桶（Memcached篇）
2020-10-02
Python
最全總結 | 聊聊 Python 資料處理全家桶（配置篇）
2020-10-07
Python

一手實測結果出爐！智譜「超大杯」模型全家桶亮相KDD，部分任務超越GPT-4o

相關文章