元象首個多模態大模型XVERSE-V開源,重新整理權威大模型榜單,支援任意寬高比輸入

新闻助手發表於2024-04-28

人類獲取的資訊83%來自視覺,圖文多模態大模型能感知更豐富和精確的真實世界資訊,構建更全面的認知智慧,從而向AGI(通用人工智慧)邁出更大步伐。

元象今日釋出多模態大模型 XVERSE-V,支援任意寬高比影像輸入,在主流評測中效果領先。 該模型全開源,無條件免費商用 ,持續推動海量中小企業、研究者和開發者的研發和應用創新。 元象首個多模態大模型XVERSE-V開源,重新整理權威大模型榜單,支援任意寬高比輸入XVERSE-V效能優異,在多項權威多模態評測中超過零一萬物Yi-VL-34B、面壁智慧OmniLMM-12B及深度求索DeepSeek-VL-7B等開源模型,在綜合能力測評MMBench中超過了谷歌GeminiProVision、阿里Qwen-VL-Plus和Claude-3V Sonnet等知名閉源模型。元象首個多模態大模型XVERSE-V開源,重新整理權威大模型榜單,支援任意寬高比輸入圖. 多模態大模型綜合評測

融合整體和區域性的高畫質影像表示

傳統的多模態模型的影像表示只有整體,XVERSE-V 創新性地採用了融合整體和區域性的策略,支援輸入任意寬高比的影像。兼顧全域性的概覽資訊和區域性的細節資訊,能夠識別和分析影像中的細微特徵,看的更清楚,理解的更準確。元象首個多模態大模型XVERSE-V開源,重新整理權威大模型榜單,支援任意寬高比輸入元象首個多模態大模型XVERSE-V開源,重新整理權威大模型榜單,支援任意寬高比輸入 注:Concate* 表示按列進行拼接

這樣的處理方式使模型可以應用於廣泛的領域,包括全景圖識別、衛星影像、古文物掃描分析等。

示例- 高畫質全景圖識別 、圖片細節文字識別元象首個多模態大模型XVERSE-V開源,重新整理權威大模型榜單,支援任意寬高比輸入元象首個多模態大模型XVERSE-V開源,重新整理權威大模型榜單,支援任意寬高比輸入

免費下載大模型

•Hugging Face:https://huggingface.co/xverse/XVERSE-V-13B

•ModelScope魔搭:https://modelscope.cn/models/xverse/XVERSE-V-13B

•Github:https://github.com/xverse-ai/XVERSE-V-13B

•問詢傳送:opensource@xverse.cn

元象持續打造國內開源標杆,在 國內最早開源最大引數65B 全球最早開源最長上下文256K 以及 國際前沿的MoE模型 , 並在 SuperCLUE測評全國領跑 。此次推出MoE模型, 填補 國產開源空白,更將其 推向了國際領先水 平。

商業應用上,元象大模型是 廣東最早獲得國家備案的模型之一 ,可向全社會提供服務。元象大模型去年起已和多個騰訊產品,包括 QQ音樂 、虎牙直播、全民K歌、騰訊雲等,進行深度合作與應用探索,為文化、娛樂、旅遊、金融領域打造創新領先的使用者體驗。 元象首個多模態大模型XVERSE-V開源,重新整理權威大模型榜單,支援任意寬高比輸入

多方向實際應用表現突出

模型不僅在基礎能力上表現出色,在實際的應用場景中也有著出色的表現。具備不同場景下的理解能力,能夠處理資訊圖、文獻、現實場景、數理題目、科學文獻、程式碼轉化等不同需求。

圖表理解

不論是複雜圖文結合的資訊圖理解,還是單一圖表的分析與計算,模型都能夠自如應對。元象首個多模態大模型XVERSE-V開源,重新整理權威大模型榜單,支援任意寬高比輸入元象首個多模態大模型XVERSE-V開源,重新整理權威大模型榜單,支援任意寬高比輸入

視障真實場景

在真實視障場景測試集VizWiz中,XVERSE-V表現出色,超過了InternVL-Chat-V1.5、DeepSeek-VL-7B 等幾乎所有主流的開源多模態大模型。該測試集包含了來自真實視障使用者提出的超過31,000個視覺問答,能準確反映使用者的真實需求與瑣碎細小的問題,幫助視障人群克服他們日常真實的視覺挑戰。元象首個多模態大模型XVERSE-V開源,重新整理權威大模型榜單,支援任意寬高比輸入

VizWiz測試示例

看圖內容創作

XVERSE-V具備多模態能力的同時保持強大的文字生成能力,能夠很好勝任理解影像後創造性文字生成的任務。元象首個多模態大模型XVERSE-V開源,重新整理權威大模型榜單,支援任意寬高比輸入

教育解題

模型具備了廣泛的知識儲備和邏輯推理能力,能夠識別影像解答不同學科的問題。元象首個多模態大模型XVERSE-V開源,重新整理權威大模型榜單,支援任意寬高比輸入

百科解答

模型儲備了歷史、文化、科技、安全等各類主題的知識。元象首個多模態大模型XVERSE-V開源,重新整理權威大模型榜單,支援任意寬高比輸入

程式碼撰寫元象首個多模態大模型XVERSE-V開源,重新整理權威大模型榜單,支援任意寬高比輸入

自動駕駛元象首個多模態大模型XVERSE-V開源,重新整理權威大模型榜單,支援任意寬高比輸入

情感理解與識別元象首個多模態大模型XVERSE-V開源,重新整理權威大模型榜單,支援任意寬高比輸入

相關文章