擊敗Gemini-1.5-Pro、GPT-4V,從容大模型多模態能力躋身全球前三

机器之心發表於2024-06-28
近日,雲從科技從容大模型在綜合評測權威平臺 OpenCompass 的多模態評測領域中取得重大進展。

最新評測結果顯示,雲從科技的從容大模型在該體系中的平均得分為 65.5,這一成績使得從容大模型躋身全球前三,超越了谷歌的 Gemini-1.5-Pro 和 GPT-4v,僅次於 GPT-4o(69.9)和 Claude3.5-Sonnet(67.9)。

而在國內市場,從容大模型的成績也超過了 InternVL-Chat(61.7)和 GLM-4V(60.8),排名首位。

圖片

圖 1:OpenCompass 多模態榜單

OpenCompass 大模型開放評測體系是上海人工智慧實驗室推出的完整開源可復現的評測框架。OpenCompass 多模態評測方面採用了 8 個具有代表性的資料集,從多種視角客觀量化多模態大模型的能力,評估維度覆蓋目標檢測、文字識別、動作識別、影像理解和關係推理、藝術與設計、商業、科學、健康與醫學、人文與社會科學、技術與工程、數學推理等多個方面。

圖片

圖 2:從容大模型 - 2.0 多模態能力示例

在本次測評中,從容大模型在其中的 6 個資料集表現優異,排名國內第一(MMbench、MMStar、MathVista、HallusionBench、AI2D、OCRBench),尤其是在 OCRBench 測試集上以取得全球最高的 827 分(總分為 1000 分),且高於第二名 GLM-4v 13 分,進一步提升從容大模型在文字識別、以文字為中心的視覺問答、面向文件的視覺問答、關鍵資訊提取等業務場景下的適用性。

圖片

圖 3:OpenCompass 中國大模型能力展示

從容大模型在此體系中的優秀表現,依賴雲從科技自研的高效多模態處理架構和先進的計算技術,實現了高效的多模態資料處理能力,能夠在視覺和語言任務之間實現高效的融合和切換,並最大化利用計算資源,保證在處理大規模多模態資料時仍能保持較高的效能和響應速度,使得模型的訓練過程更加高效,收斂速度更快,效能更穩定。

同時也得益於雲從科技長期在視覺、語言領域的深厚積累和不斷創新。
圖片
圖 4:從容大模型 - 2.0 多模態能力示例

此前,從容大模型已在視覺、跨模態領域 10 次重新整理世界紀錄,綜合效能經第三方 SuperClue、C-Eval 等綜合評測,位列全球前五。

作為一家專注於人機協同技術研發的平臺企業,雲從科技一直在積極推動 AI 智慧體及大模型技術的發展和應用。

隨著人工智慧技術的迅猛發展,多模態大模型已成為驅動產業變革的核心引擎。此次從容大模型在 OpenCompass 大模型開放評測體系中的出色表現,不僅是對雲從科技技術創新實力的認可,更在業界樹立典範,激勵全球科技企業在新一輪的人工智慧競爭中勇攀高峰。

相關文章