原生融合多模態上的突破,讓商湯大模型打破Scaling Laws撞牆「魔咒」

机器之心發表於2025-01-21

基礎模型的革新,才是通向未來之路。

下一代 AI 的發展,似乎遇到了難以逾越的瓶頸。

去年 12 月,OpenAI 在 ChatGPT 兩週年期間連續釋出了 12 天,我們期待的新一代大模型 GPT-5 卻從頭到尾沒有蹤影。

失望之後,隨之而來的還有各路媒體的報導——各大人工智慧實驗室似乎同時在大型語言模型競賽中撞了牆。

圖片

OpenAI 的「GPT-5」內部代號 Orion,已經進行了為期數月的後期訓練,然而該模型釋出經歷了多次延遲。知情人士表示,Orion 至今仍未達到可釋出水平,OpenAI 不太可能在最近推出該系統。與此同時,Anthropic 等其他公司的下一代模型也面臨著同樣的問題。

大型模型的訓練可能需要花費數千萬美元。由於系統的複雜性,模型的訓練可能需要數月時間,除了 GPU 的需求暴增,甚至電力也成為了阻礙 AI 訓練進行的瓶頸。資料是大模型面臨的又一大挑戰,生成式 AI 發展至今,我們距離耗盡全球所有可訪問資料已經越來越近了。

為了克服這些挑戰,研究人員正在把目光轉向新的方向。

「2010 年代是擴充套件的時代,現在我們又回到了好奇與發現的時代。每個人都在尋找下一個目標,」OpenAI 前首席科學家 Ilya Sutskever 表示。「現在,找到正確的擴充套件方向比以往任何時候都更加重要。」

生成式 AI 的下個形態

正在浮出水面

其實,我們對 AI 的下個大方向並非毫無頭緒。

圖片

2024 年 8 月,谷歌實驗版的 Gemini 1.5 Pro 超越了 GPT-4o,宣告了大模型競賽「逆襲」成功,如今不論是在消費端還在 AI 社群,人們都認為谷歌提出的技術最具顛覆性,已經重回到了領先梯隊。

面對新一輪理論升級,Anthropic 等公司迅速跟進,OpenAI 則拿出了主打「複雜推理」的 o1 大模型,旨在專門解決難題。

國內企業也投身於新道路的探索。近日,商湯科技實現了原生融合模態訓練上的實質性突破,釋出了「日日新」融合大模型

生成式 AI 爆發後,多模態大模型早已成為人們追求的方向。然而,我們在很多應用中接觸到的多模態模型並不能說是「完全體」。

模態融合(Multimodal Fusion)被認為是 AI 未來發展的必由之路。就像谷歌所認為的,只有從頭開始的多模態才能構建出超越前代的先進模型。這意味著它天生地可以讀取和輸出不同模態內容,還具備強大的多模態推理能力和跨模態遷移能力。

圖片

圖片來源:https://arxiv.org/abs/2312.11805

這是一個符合直覺的技術方向——只有讓機器擁有對物理世界中多模態、多維度資訊的感知,擁有了綜合的理解,它們才能發展出類似於人類的分析、判斷、正確決策能力。

在新正規化下,你可以自然地與 AI 進行交流:發一段語音、新增一張圖片、輸入一些文字,甚至直接錄短影片都行;同樣的,輸出也是自然的多模態形式。

商湯原生融合的多模態模型,打破了一直以來大語言模型、多模態大模型分立的行業局面,真正意義上邁向了模型一統。

對行業來說,大模型進入了多模態時代。隨著走向通用和一體化,並在視覺、語音、數學推理等方面實現了前所未有的能力,一線大模型的技術門檻將大幅拉高。

搶先實測

「原生融合多模態」優勢盡顯

得益於在計算機視覺領域超過十年深耕和豐富經驗,進入多模態時代之後,商湯的獨有優勢正在逐漸顯現。

日前,商湯還對外發布了「日日新」融合大模型互動版(SenseNova-5o),它基於「日日新」融合大模型的能力,提供實時音影片對話服務,我們也立刻下載進行了測試。

為了測試它的反應和理解能力,我們舉著手機在編輯部開啟「奪命連環 call」。原生融合多模態上的突破,讓商湯大模型打破Scaling Laws撞牆「魔咒」原生融合多模態上的突破,讓商湯大模型打破Scaling Laws撞牆「魔咒」

簡單測試下來,我們發現它的反應速度很快,與真人對話無異,並且可以隨時打斷和接話。而且,SenseNova-5o 還擁有令人滿意的記憶力,可以長達 5 分鐘,因此它能在多輪對話中持續不斷理解使用者需求,並且準確記住幾分鐘之前,曾經聽到、看到的內容。

這意味著多模態的 AI 已經可以擴充出一些新的應用場景,比如幫助孩子解讀題目,給出清晰的解讀思路。原生融合多模態上的突破,讓商湯大模型打破Scaling Laws撞牆「魔咒」

充分支援實現音訊、影像、影片的任意組合的多模態輸入,以及自然流暢的語音內容輸出,商湯走出了邁向更自然人機互動的新一步。

體驗了互動能力之後,我們還在商湯「商量」網頁版中,測試了全國首個原生融合多模態大模型——商湯「日日新」融合大模型更加全面的表現。

搞笑搭子

最近一大波外國人瘋狂湧入小紅書,為了拉近與中國網友的關係,他們主動交貓稅、開班教英語、手把手輔導作業……

更搞笑的是,評論區還被龍媽和唐僧的同框照刷了屏。

我們把該圖丟給商量,它不僅認出兩個影視人物,還讀懂了這張圖背後表達的跨文化傳播的幽默感。圖片

再比如這張惡搞電影《華爾街之狼》的梗圖。

AI 先分別描述了圖片上下兩部分的場景,然後揣摩出其中的「深意」——只要將 AI 元素融入日常物品中,就能提升其價值——一語中的。

圖片

當被問到「這個場景來自哪部電影?」時,商湯「日日新」一口答出《華爾街之狼》,還簡單介紹了其基本資訊。

圖片

旅遊搭子

它還是逛博物館的好「搭子」。

只需隨手一拍,它就能把文物的「前世今生」捋一遍。

就比如這頂明孝端皇后的「九龍九鳳冠」,其精美程度讓人歎為觀止。僅用一張圖片,商量就能扒出它的尺寸、設計以及製作工藝等。

圖片

學習搭子

測試多模態大模型的邏輯推理能力,自然少不了數學題。今年深圳南山區數學題難倒一片小學生,我們從中選取一道來考考商湯「日日新」。

它對著題目就是一頓分析,在給出正確答案的同時,還列出瞭解題思路。

圖片

對於小紅書上中外網友探討的數學作業,商湯「日日新」也能分析得頭頭是道。

圖片

此外,它還能進行圖表分析。

從概念理解,到折線圖中關鍵要素提取,再到資訊分析,AI 的「大腦」在高速運轉,幾個步驟合一迅速完成。

圖片

更低成本

已商業落地

目前,商湯「日日新」融合大模型已向客戶開放了端到端 API 呼叫,同時融合大模型互動版(SenseNova-5o)也已經面向視覺互動場景開放商用(限時免費!)。

其中,針對商用版本的 SenseNova-5o,商湯將提供兩種互動模式的服務。原生融合多模態上的突破,讓商湯大模型打破Scaling Laws撞牆「魔咒」

半雙工模式:類似對講機模式,雙方交替發言,可以支援平均 560 毫秒響應音訊與影像輸入,與人類的對話互動的響應接近,同時支援 1200×800px 的影像解析,不超過 30 秒的音訊輸入,不超過 720p 的影片輸入。

全雙工模式:類似電話的通訊模式,AI 可以實時理解使用者意圖並生成回應,實現流暢自然的語音 + 影片互動,實現了接近人類面對面交流的體驗。

圖片

SenseNova-5o 基礎架構

而且根據最新權威測評,商湯基於原生融合的多模態大模型 ——「日日新」融合大模型,在圖文推理、語言等各方面都達到了業內最優水平。

圖片

在 SuperCLUE 最新的《中文大模型基準測評 2024 年度報告》中,商湯「日日新」和 DeepSeek V3 並列總榜國內第一。在權威綜合評測權威平臺 OpenCompass 的多模態評測中,商湯「日日新」也取得了第一名,成績領先 GPT-4o、Claude 3.5 Sonnet 等。

這也讓我們發現,採用了原生融合模態訓練的多模態大模型的每一種單模態能力,都超越了只在單模態資料上訓練的模型的效能 —— 它們在不同模態的資料學習中,湧現出在多模態資訊上的深度推理能力,和跨模態的互動能力,顯著超越了透過傳統圖文對齊方法的多模態模型

在預訓練階段,商湯的工程師不僅使用了天然存在的海量圖文交錯資料,還透過逆渲染、基於混合語義的影像生成等方法合成了大量融合模態資料,使得模型基座對於模態之間的關係有更紮實的掌握,為更好地完成跨模態任務打下基礎。

在後訓練階段,基於對廣泛業務場景的認知,商湯構建了大量的跨模態任務,包括影片互動、多模態文件分析、城市場景理解、車載場景理解等。透過把這些任務融入到增強訓練的過程,商湯的融合模態模型獲得了強大的多模態理解分析能力,對大量業務場景能夠形成有效響應。

而且商湯表示,和分別訓練一個語言大模型、一個多模態模型相比,訓練商湯「日日新」融合大模型的總體成本反而降低了 40%。

AI 擴充套件定律

還有幾個數量級的空間

中國正在 AI 領域快速發展,有趕超美國的趨勢。這是谷歌前 CEO 埃裡克・施密特(Eric Schmidt)表示最近發表的看法,他給出的理由是:中國正在把 AI 技術快速應用於大規模生產。

國內龐大產業體系和需求,正在逐漸成為驅動 AI 發展的決定性力量。

深耕人工智慧技術落地多年的商湯,在模型演算法、算力、行業經驗、工程落地能力等方面,都具備了絕對的優勢。據瞭解,商湯「日日新」融合大模型,和融合大模型互動版(SenseNova-5o)已經落地在具身機器人、AI 眼鏡、手機、教育等場景。

商湯科技聯合創始人、人工智慧基礎設施及大模型首席科學家林達華表示:「多模態大模型應該與廣泛的業務場景相結合,能夠在真實場景中去解決一些複雜的問題,完成複雜的任務。在互動場景,如人與人對話的過程中,多模態能力可以做到很多以往做不到的事。」

去年 12 月,在全球 AI 頂級學術會議 NeurIPS 上,Ilya Sutskever 發表演講對於人工智慧可用資料枯竭表示了擔憂,讓人們對 Scaling Laws 是否終結的大討論愈演愈烈。

對於大模型的 Scaling Laws,商湯也給出了自己的判斷。林達華表示,當前利用網際網路資料進行預訓練的方法,確實很快就會到達瓶頸。但真實世界的資料並不僅限於網際網路:工作時的 OA 流程,汽車駕駛時感測器記錄的狀態,科學研究時獲得的資料等等,這些內容會比文字形式存在於網際網路上的資料多出四到五個數量級。

想要利用好真實世界中的資料,就必須構建起結合多模態的 AI 模型,這就是商湯堅定投身多模態新方向的原因。

換言之,大模型早已不侷限於「做題」了。商湯走通了原生融合模態的技術路徑之後,未來已經出現了前所未有的想象空間。甚至在影像 + 文字輸入之後,我們還可以期待整個空間結構的輸入、機器人與 LLM 推理能力的高度結合,還有很多領域值得去擴充。

傳送門:

SenseNova-5o 正式介面及接入方案:https://sensenova5o_doc.sensetime.com/introduction/intro.html

相關文章