一手實測結果出爐!智譜「超大杯」模型全家桶亮相KDD,部分任務超越GPT-4o

机器之心發表於2024-08-30

在與 GPT-4o 的全面較量中,GLM-4-Plus 已經可以在大多數任務上做到逼近甚至在某些任務上實現了超越。還有 One More Thing:清言上線了視訊通話功能,首批面向部分使用者開放。


中國的大模型,正在世界舞臺上站穩腳跟。

近日,資料探勘頂會 KDD 2024 在西班牙巴塞羅那正式召開,來自中國的研究團隊和科技企業紛紛亮相。其中,在 8 月 29 日舉辦的大語言模型日(Large Language Model Day)上,智譜 AI 顧曉韜博士介紹了智譜 AI 支援中英雙語的對話機器人 ChatGLM,成為中國科技力量的鮮明代表 。

圖片

與此同時,他還介紹了智譜基礎模型的重大升級,即新一代基座大模型 GLM-4-Plus。這是智譜全自研 GLM 大模型的最新版本,在語言理解、指令遵循、長文字處理等方面效能得到全面提升,保持了國際領先水平。

此外,他們還發布了文生圖模型 CogView-3-Plus 和影像 / 影片理解模型 GLM-4V-Plus。前者具備與當前最優的 MJ-V6 和 FLUX 等模型接近的效能,後者具備卓越的影像理解能力和基於時間感知的影片理解能力,上線開放平臺後將成為國內首個通用影片理解模型 API。

影片生成方面,比 CogVideoX 2B 更大的 5B 版本也正式開源,其效能進一步增強,是當前開源影片生成模型中的最佳選擇。

這些模型共同構成了智譜自主原創的全棧大模型譜系,推動智譜全面對標國際先進水平,鞏固中國在全球大模型領域的領先地位。

第一手實測
通用知識、視覺理解、影像生成體驗升級

我們首先對剛剛釋出的 GLM-4-Plus 的通用知識掌握程度、邏輯推理等相關能力來了一波測驗。

先看官方給出的指標。從結果來看,在與 OpenAI 最強旗艦模型 GPT-4o 的全面較量中,GLM-4-Plus 已經可以在大多數任務上做到逼近甚至在某些任務上實現了超越。

圖片

對於邏輯推理任務,先讓它嘗試解答最近一段時間讓大模型犯糊塗的「數字比較」問題。從結果看,GLM-4-Plus 很懂小數位比較的邏輯思路。

圖片

給 GLM-4-Plus 上上難度,看它能不能搞定經典的「瓶子裝水」問題。顯然它可以一步步釐清破解思路,並給出準確答案。

圖片

GLM-4-Plus 對 AI 圈名人 Ilya Sutskever 的最新近況也瞭如指掌,說明背後的搜尋功能做得也不錯。

圖片

接下來,我們測試了 GLM-4V-Plus 的影像理解能力。

給出一張有關英偉達的漫畫,GLM-4V-Plus 能 get 到這是用淘金熱比喻當下的 AI 熱,指出英偉達是鏟子賣家,其他 AI 公司是鏟子買家,和漫畫寓意相符。

圖片

接下來,我們又給了它一張包含多個人物的梗圖。結果發現,GLM-4V-Plus 不僅能夠描述出人物的穿搭、表情以及照片裡模糊的背景,還能看出幾個人之間的關係以及表情的成因,效果出乎意料。

圖片

GLM-4V-Plus 在「實戰」中不僅可以理解網頁內容,將它們轉換為 html 程式碼,而且能夠對複雜的影片內容進行透徹的理解與分析,並做到與人類之間類似的溝通。

我們也讓 GLM-4V-Plus 生成了機器之心官網截圖的 html 程式碼。它基本對設計稿進行了分割槽規劃,排版方式用了比較現代的 flex,支援一定的響應式,具有一定的基於當前程式碼繼續補充細節的可行性。

從程式碼功能來看,它能夠正確識別模組的內容大概是什麼(比如是 Logo、是 Banner 還是新聞),並且語義化給出 class 命名(如新聞板塊命名為.news)。

圖片

眼見為實,GLM-4V-Plus 強不強,下面這個影片示例也會給我們答案。我們餵給模型一段 11 秒時長的籃球比賽現場影片:一手實測結果出爐!智譜「超大杯」模型全家桶亮相KDD,部分任務超越GPT-4o
然後分別從影片總結、推理、時間問答等幾個角度考驗 GLM-4V-Plus。

Q1: 這個穿綠色衣服的球員在整個影片都做了什麼?
A1: 在整個影片中,穿綠色衣服的球員在場上運球,然後跳起將球投入籃筐。
Q2: 這個影片的精彩時刻是什麼?發生在第幾秒?
A2: 這個影片的精彩時刻發生在第 4 秒,當時穿綠色衣服的球員跳起並將球投入籃筐。

可以看到,GLM-4V-Plus 顯然準確地 get 到了影片傳達的內容,並進行了全面的總結。不僅如此,它還能根據「看到」的某些顯著特徵(如球員的服裝)來展開進一步合理的推理判斷;並針對具體時間節點的內容進行概括總結,在某種程度上可以說具備了時間感知能力。

我們測試了當前大火的《黑神話・悟空》片段,GLM-4V-Plus 也能按照時間順序描述清楚,而且描述語言文學性高,與影片片段高度適配。

圖片

一個穿著傳統中國盔甲的動畫孫悟空,站在多雲的天空下,散發出決心和戰鬥的準備。隨著時間的推移,他的裝束被詳細展示,包括金色的盔甲、紅色的流蘇和類似羽毛的頭飾,背景是霧濛濛的。他的表情從嚴肅的決心變為沉思,暗示著內省。場景轉換到一個霧濛濛的山區地形,在那裡,一個穿著華麗盔甲的戰士面對著一個巨大的、有鱗片的生物,預示著一場史詩般的對抗。隨著戰士和生物之間的緊張關係升級,最終在多雲的天空下,一場戲劇性的對峙達到高潮。


最後,從 CogView-3-Plus 生成的一系列影像示例中,我們體驗到了文生圖能力的顯著提升。

比如在下面這張圖中,我們看到 CogView-3-Plus 可以非常準確地生成單詞,這在很多文生圖應用中都是高頻翻車區。

圖片

在下面這張圖中,CogView-3-Plus 不僅準確還原了馬斯克的面部特徵,還創意性地給馬加上了類似電路的紋理,非常富有想象力。圖片
CogView-3-Plus 對於古詩詞的理解有些出乎意料,不僅畫出了所有的元素,還還原了詩詞中的意境。

圖片

人物的生成則非常逼真,而且細節豐富、氛圍感強。

圖片

可以說,智譜「超大杯」模型系列的實際體驗效果,「兌現了」效能指標上的全面提升。

One More Thing
智譜版「Her」正式上線

除了以上基礎模型的進展,智譜旗下 C 端產品 —— 生成式 AI 助手智譜清言也迎來了重磅升級。

我們知道,在 GPT-4o 出現後,大家都在猜測,下一個 Killer APP 的互動方式會是什麼樣子。很多人看好語音,但毋庸置疑,語音 + 影片會更加方便,所以頂級大模型廠商都在想方設法給自己的大模型安上「眼睛」,讓大模型不僅會寫、會聽、會說,還會看。

在國內,智譜是首個把這項綜合功能做成 C 端產品並開放給部分使用者的公司。這部分使用者只要下載最新版本的智譜清言,然後開啟視訊通話視窗,就可以和它視訊通話。

圖片

這個視訊通話跨越了文字、音訊和影片模態,並具備實時推理的能力。隨著該功能的加入,清言 APP 成為首個可以透過文字、音訊、影片和影像來進行多模態互動的 AI 助手。

從官方 demo 來看,這個功能可以用在陪伴、教學、辦公、生活等多種場景。一手實測結果出爐!智譜「超大杯」模型全家桶亮相KDD,部分任務超越GPT-4o
為了驗證效果,機器之心在第一時間進行了嘗試。

首先,我們嘗試了一道小學數學題。在看到題目後,清言似乎自動代入了一個小學老師的角色,語速放慢且富有耐心。而且,它不是直接給出結果,而是用蘇格拉底啟發式教學法,引導提問者一步一步算出答案。這不就是家長想要的「作業輔導」搭子嗎?一手實測結果出爐!智譜「超大杯」模型全家桶亮相KDD,部分任務超越GPT-4o接下來,我們嘗試了一下工作場景 —— 讓清言幫忙解讀一篇英文報導。可以看出,它不僅能把新聞概括出來,還能自行擴充套件新聞背後的資訊,可以考慮拿來當工作搭子了。 一手實測結果出爐!智譜「超大杯」模型全家桶亮相KDD,部分任務超越GPT-4o
目前,該功能也開放了外部申請。現在到智譜清言 APP 或登入 PC 端,就能站內申請內測。智譜表示會持續迭代並逐步放開規模,儘快讓全員都可以使用。

此外,智譜還透露,這其實只是一個 beta 版本,清言的視訊通話功能近期還會迎來大的版本迭代。看來,智譜有意將 C 端大模型捲到會寫、會聽、會說還會看的 Next Level,在行業內掀起新一輪競賽。

密集的迭代背後
智譜有著充足的技術彈藥

在眾多大模型公司中,智譜是非常有辨識度的一家。這一方面是因為,智譜的模型早早就做到了接近 GPT-4 的水平;另一方面則是因為,沒有哪家國產大模型公司像智譜的技術動作這樣密集。

比如 2024 開年以來,智譜這家公司就一直「沒消停過」。

比如,在模型方面,智譜在 1 月份就迭代出了新一代基座大模型 GLM-4。該模型整體效能成為當時最接近 GPT-4 的國產大模型。如今,GLM-4 再度進化,時間間隔也不過半年多。

在戰火紛飛的小模型戰場,智譜也沒閒著,推出了 GLM-4-9B、GLM-4V-9B 等小模型。其中,GLM-4V-9B 還是多模態的,透過加入 Vision Transformer,該模型僅以 9B 的引數量就實現了比肩 GPT-4V 的能力。但和後者不同的是,這個模型是開源的。

而在產品方面,智譜也是在 1 月份就推出了對標 GPT-4 All Tools 和 GPTs 的 GLM-4-All Tools 和 GLMs。其中,GLM-4-All Tools 實現了根據使用者意圖自動理解、規劃複雜指令,自由呼叫文生圖、程式碼直譯器、網頁瀏覽、Function Call 等多項工具來完成複雜任務,這意味著 GLM 系列模型的全家桶能力實現工業化。GLMs 則實現了個性化智慧體定製,幫助沒有程式設計基礎的使用者實現大模型的便捷開發。

在清言這款 C 端產品上,智譜也是更新不斷,其中動靜最大的要數最近釋出的影片生成功能「清影」。只要你有好的創意(幾個字到幾百個字),再加上一點點耐心(30 秒),「清影」就能生成 1440x960 清晰度的高精度影片。而且,和 OpenAI 遲遲沒有上線的 Sora 不同,清影同源的影片生成模型 ——CogVideoX 也是開源的,而且一路從 2B 開源到 5B(未來可能更大),這在國內外開發者群體中都引發了不小的轟動。

圖片

今天 HuggingFace 熱榜,CogVideoX-5b 排名第三,超過 Llama 了。

圖片

據悉,智譜開源模型累計下載量已突破 2000 萬次

可以看到,從基礎大模型到小模型,從語言到多模態,從技術到產品,智譜在各個方向全面發展,且全方位對標 OpenAI。這在國內大模型廠商中並不常見。這是一種技術儲備充足的表現。

在競爭激烈的全球大模型市場中,智譜正透過頻繁的技術迭代和開源舉措,不斷推動行業和生圖的發展,贏得了越來越多的關注與認可。

相關文章