我們已經迎來了端側 GPT-4o 時刻?
本週,面壁智慧宣佈新一代端側模型開源,先在外網機器學習社群引起了人們的關注。
MiniCPM-o 2.6 是面壁 MiniCPM 系列最新、效能最強的多模態大模型,其引數量為 8B。它在視覺、語音等多模態領域方面表現出色,達到了接近 GPT-4o 的水平。
據介紹,MiniCPM-o 2.6 支援雙語語音識別,實時對話效能也可以比肩 GPT-4o。
基於先進的 token 密度技術,處理 180 萬畫素影像僅產生 640tokens,顯著提高了推理速度和效率。目前,MiniCPM-o 2.6 支援在 iPad 等裝置端進行實時多模態互動。
MiniCPM-o 2.6 開源地址:
- GitHub:https://github.com/OpenBMB/MiniCPM-o
- HuggingFace:https://huggingface.co/openbmb/MiniCPM-o-2_6
- Demo:https://minicpm-omni-webdemo-us.modelbest.cn
去年 5 月,OpenAI 的 GPT-4o 以實時語音影片互動 + 全模態實時流式影片理解的姿態驚豔全球。僅僅半年多時間之後, MiniCPM-o 2.6 成功讓「實時全模態 GPT-4o」跑在了端側。
面壁使用體量僅 8B 的端側模型一舉收穫音、視、聽「鐵人三項」全 SOTA:MiniCPM-o 2.6 取得實時流式全模態開源模型 SOTA,效能比肩代表業內頂尖水平的 GPT-4o、Claude-3.5-Sonnet;在語音方面,取得理解、生成開源雙 SOTA,問鼎最強開源語音通用模型;在一貫優勢凸顯的視覺領域,穩坐最強端側視覺通用模型。
在實時流式影片理解能力的代表榜單 StreamingBench 上,MiniCPM-o 2.6 效能驚豔,比肩 GPT-4o、Claude-3.5-Sonnet。
注:GPT-4o API 無法同時輸入語音和影片,目前定量評測輸入文字和影片。
在語音理解方面,超越 Qwen2-Audio-7B-Instruct,實現通用模型開源 SOTA(包括 ASR、語音描述等任務);在語音生成方面,MiniCPM-o 2.6 超越 GLM-4-Voice 9B,實現了通用模型開源 SOTA。
音訊理解能力 SOTA,超越 Qwen2-Audio 7B
音訊生成能力 SOTA,超越 GLM-4-Voice 9B
自發布以來,小鋼炮多模態系列一直保持著最強端側視覺通用模型的紀錄。MiniCPM-o 2.6 視覺理解能力也達到端側全模態模型最佳水平。
OpenCompass 榜單。
在日常生活中,AI 語音助手早已不是新鮮事物,但我們常常對它們的表現感到不滿意。而新一代小鋼炮 MiniCPM-o 2.6 則憑藉類似 GPT-4o 的全模態實時流式影片理解與高階語音對話,有望讓電影「Her」中的體驗來到端側、來到離每個人更近的地方 —— 持續看、實時聽、自然說,帶來實時流式、端到端的絲滑交流。
GPT-4o 釋出後,視訊通話也火了。立於端側、卻率先「睜眼看世界」的小鋼炮發現,影片和影片不一樣――市場上主流的「音視訊通話」模型,實際上只能算作靜態的「照片大模型」:僅在使用者提問後才開始對影片進行一幀或極少數幾幀畫面的抽取,無法捕捉使用者提問之前的畫面,缺乏對前文情境的感知。
而真正的影片大模型,則能夠感知使用者提問之前的畫面和聲音,並持續對實時影片和音訊流進行建模,這種方式更貼近人眼的自然視覺互動。
有了全方面的觀察,才能匯出正確的推理思考。在三仙歸洞、記憶卡牌等遊戲中,新一代小鋼炮的觀察力可以說是明察秋毫,點滴細節不錯過,能猜出遊戲中小球藏到了哪個杯子,還能記住翻牌遊戲中相似圖案卡片的細節、位置。
我們的世界存在著各種各樣的聲音,這是我們和大自然互動的樂趣所在。除了說話的聲音,像翻書、倒水、敲門聲等,向我們訴說著動作與場景,流淌著豐富的生活細節。這些 GPT-4o 一聽就直呼放棄的環境聲音,小鋼炮也能一一明晰。彷彿大模型裡的鑑音師。
當我們聊天,渴望觸探的不只是語言,還有話語背後的情緒,一些貼近心靈的表達。
「Her」中能和人類有情感自然對話的 AI 助手令人印象深刻,繼 GPT-4o 的高階情感語音對話模型後,MiniCPM-o 2.6 同樣對此進行了生動的演繹,並且,即使中間打斷也能接著聊 —— 相談如此甚歡,甚至會忘記她是 AI。
MiniCPM-o 2.6 在高階情感語音方面,總體有以下特徵:
- 真人質感的語音生成能力,達到開源通用模型最佳水平;
- 低延遲、可實時打斷,如真人交談般自然
- 具備情感與語氣表達:支援可控語音生成(情感、音色、風格控制)
- 可語音模擬定製:支援語音克隆,以及基於語言描述的聲音建立等
在實際體驗中,MiniCPM-o 2.6 對答如流,在對話中常有惟妙惟肖的機智表達,還可以秀方言,比如用四川話教你吃火鍋,廣東話給你賀新年,令人忍俊不禁。
此外,她還能聲音克隆,各種情感、音色、風格,信手拈來,如同配音大師!
和她講話,如同和好友聊天,實時打斷也不迷糊:中間插嘴、岔事兒,也不耽誤酣暢淋漓地聊完全程。
此外,MiniCPM-o 2.6 作為更高技術的端到端模型,資訊輸入輸出都原汁原味,避免了傳統「語音轉文字,再轉語音」 方案因中間反覆資訊翻譯,而導致的速度慢、資訊流失風險,可以捕捉語氣、情緒等更豐富的資訊。高效能低延遲、更加自然連貫、更強上下文理解、隨時打斷、抗噪能力等,這些端到端模型的傳統優勢,小鋼炮都具備!
端側優勢,全力釋放,重注端側大模型
MiniCPM-o 2.6 視、聽、說全模態的諸多特性,實時的影片流、自然語音互動,接近人類的多模態認知、理解、推理能力,在端側具有肉眼可見的巨大潛力。
在智慧座艙場景中,全天候全地域,可以進行艙內控制、艙外識別、智慧巡航,或是化身旅遊嚮導、貼身翻譯,在戈壁山野中勇闖天涯;教育場景中,前所未有的沉浸式學習體驗,特別是跟虛擬現實或擴增實境技術結合使用;商務場景中,為國際會議和多語言環境提供實時翻譯服務,個人旅行者能夠與不同語言的本地人無障礙溝通;特殊人群服務,可以為聽障人士提供實時語音到文字的服務,為老年人提供日常陪伴和情感支援,乃至單身人士的高質量虛擬伴侶;客服和營銷,高質量的自然語音互動,客戶服務的響應速度和質量,超級逼真和擬人,機器的人效無限接近真人.... 這一切居然都將能夠在端側實現。
進入 2025 年,大模型規模定律(Scaling Law )面臨訓練資料和計算資源方面的可持續發展問題,但規模定律並非預測大模型發展的唯一視角。面壁團隊提出大模型密度定律(Densing Law)—— 模型能力密度隨時間呈指數級增長,實現相同能力的模型引數每 3.3 個月(約 100 天) 下降一半 ,並且模型推理開銷隨時間指數級下降,以及模型訓練開銷隨時間迅速下降。
根據大模型的密度定律預測,在通往 AGI 的道路上,大模型能力密度不斷提升,大約每 3.3 個月翻一番,模型推理開銷、訓練開銷隨時間快速下降到大規模應用臨界水平。當模型在同一引數量上能釋放更強的智慧,訓練和推理成本持續下降,晶片在同樣的面積 / 功耗上,算力能支撐更大的模型,雙向驅動下,大模型就能執行在各類終端上。
原來只在雲端的「全能大模型」擴散到裝置端,既是大模型增效挖潛、不斷降低訓練和推理成本,提升同一引數量上的智慧水平,大模型走向科學化、可持續發展的技術趨勢;更是一種自發的市場趨勢,有著深刻的技術普惠,大模型的能力正在迅速傳導到需求端,以精準的技術 - 產品 PMF 填滿市場窪地。2024 年端側 AI 硬體成為科技創業大風口,AIPC、AIPhone、AI 眼鏡等 AI + 硬體迅速爆發,即是這一趨勢的最佳驗證。
正如面壁智慧 CEO 李大海在剛剛過去的 2025 CES 所言:「大模型正在走向「無所不能」和「無處不在」。我們篤信大模型將「無處不在」,特別是成本更低、尺寸更小、效率更高的端側模型。面壁智慧的工作就是聚焦端側模型,我們的願景所有的裝置上都會有端側的智慧,都會部署端側的模型。10 年之後,至少有 1000 億硬體會搭載端側智慧,成為擁有人類成年智慧水平的新型智慧人口。」