AI模型對比

Freelancy發表於2024-06-21

原文網址 : https://www.cnblogs.com/freelancy/p/18260979

模型名稱	引數大小（億）	MMLU	CEval	AGIEval	GSM8K	MATH	BBH	MT Bench	釋出者
GPT-4o		88.7	/	/	90.5	76.6	/	/	OpenAI
Claude3-Opus	0.0	86.8	/	/	95.0	60.1	/	9.43	Anthropic
GPT-4	1750.0	86.4	68.7	/	87.1	42.5	/	9.32	OpenAI
Llama3-400B-Instruct-InTraining	4000.0	86.1	/	/	94.1	57.8	/	/	Facebook AI研究實驗室
Llama3-400B-InTraining	4000.0	84.8	/	/	/	/	/	/	Facebook AI研究實驗室
Qwen2-72B	727.0	84.2	91.0	/	89.5	51.1	82.4	/	阿里巴巴
Gemini-ultra	0.0	83.7	/	/	88.9	53.2	/	/	DeepMind
Qwen2-72B-Instruct	72.0	82.3	83.8	/	91.1	59.7	/	9.12	阿里巴巴
Llama3-70B-Instruct	700.0	82.0	/	/	93.0	50.4	/	/	Facebook AI研究實驗室
Gemini 1.5 Pro	0.0	81.9	/	/	91.7	58.5	/	/	Google Deep Mind
GLM4	0.0	81.5	/	/	87.6	47.9	82.3	/	智譜AI
Grok-1.5		81.3	/	/	90.0	50.6	/	/	xAI
Mistral Large	0.0	81.2	/	/	81.0	45.0	/	8.66	MistralAI
YAYI2-30B	300.0	80.5	80.9	62.0	71.2	/	/	/	中科聞歌
Qwen1.5-110B	1100.0	80.4	/	/	85.4	49.6	74.8	8.88	阿里巴巴
Llama3-70B	700.0	79.5	/	/	/	/	/	/	Facebook AI研究實驗室
Gemini-pro	1000.0	79.13	/	/	86.5	/	/	/	DeepMind
Claude3-Sonnet	0.0	79.0	/	/	92.3	43.1	/	9.18	Anthropic
DeepSeek-V2-236B	2360.0	78.5	81.7	/	79.2	43.6	78.9	/	DeepSeek-AI
PaLM 2	3400.0	78.3	/	/	80.7	/	/	/	Google Research
Phi-3-medium 14B-preview	140.0	78.2	/	48.4	90.3	/	/	8.91	Microsoft
Mixtral-8×22B-MoE	1410.0	77.75	/	/	78.6	41.8	/	/	MistralAI
Qwen1.5-72B-Chat	720.0	77.5	84.1	/	79.5	34.1	65.5	8.67	阿里巴巴
Qwen-72B	720.0	77.4	83.3	62.5	78.9	/	/	/	阿里巴巴
Yi-1.5-34B	340.0	77.1	/	71.1	82.7	41.0	76.4	/	零一萬物
Qwen2-57B-A14B	570.0	76.5	87.7	/	80.7	43.0	67.0	/	阿里巴巴
Yi-34B	340.0	76.3	81.4	/	/	/	/	/	零一萬物
Yi-34B-200K	340.0	76.1	81.9	/	/	/	/	/	零一萬物
Phi-3-small 7B	70.0	75.3	/	45.0	88.9	/	/	8.7	Microsoft
Claude3-Haiku	0.0	75.2	/	/	88.9	38.9	/	/	Anthropic
Gemma2-27B	270.0	75.0	/	/	75.0	/	/	/	Google Deep Mind
GLM-4-9B	90.0	74.7	/	/	84.0	30.4	/	/	智譜AI
DBRX Instruct	1320.0	73.7	/	/	72.8	/	/	8.39	databricks
Qwen1.5-32B	320.0	73.4	83.5	/	77.4	36.1	/	8.3	阿里巴巴
Grok-1	3140.0	73.0	/	/	62.9	/	/	/	xAI
GLM-4-9B-Chat	90.0	72.4	75.6	/	79.6	50.6	/	8.35	智譜AI
Apollo-7B	70.0	71.86	/	/	/	/	/	/	個人
DeepSeek-V2-236B-Chat	2360.0	71.1	65.2	/	84.4	32.6	71.7	/	DeepSeek-AI
XVERSE-65B	650.0	70.8	/	61.8	60.3	/	/	/	元象XVERSE
Mixtral-8×7B-MoE	450.0	70.6	/	/	74.4	28.4	/	8.3	MistralAI
Qwen2-7B	70.0	70.3	83.2	/	79.9	44.2	62.6	/	阿里巴巴
GPT-3.5	1750.0	70.0	54.4	/	57.1	/	/	8.39	OpenAI
Yi-1.5-9B	90.0	69.5	/	62.7	73.7	32.6	72.4	/	零一萬物
PaLM	5400.0	69.3	/	/	56.5	/	/	/	Google Research
LLaMA2 70B	700.0	68.9	/	54.2	56.8	/	/	/	Facebook AI研究實驗室
Phi-3-mini 3.8B	38.0	68.8	/	37.5	82.5	/	/	8.38	Microsoft
Yi-9B	90.0	68.4	/	/	52.3	15.9	/	/	零一萬物
Llama3-8B-Instruct	80.0	68.4	/	/	79.6	30.0	/	/	Facebook AI研究實驗室
Aquila2-34B	340.0	67.79	63.07	/	58.4	/	/	/	北京智源人工智慧研究院
Jamba-v0.1	520.0	67.4	/	/	59.9	/	45.4	/	A21 Labs
Llama3-8B	80.0	66.6	/	/	/	/	/	/	Facebook AI研究實驗室
Qwen-14B	140.0	66.3	72.1	/	61.3	/	/	/	阿里巴巴
Grok-0	330.0	65.7	/	/	56.8	/	/	/	xAI
Gemma 7B	70.0	64.3	/	41.7	46.4	24.3	55.1	/	Google Research
Yi-6B-200K	60.0	64.0	73.5	/	/	/	/	/	零一萬物
Starling-7B-LM-Beta	70.0	63.9	/	/	/	/	/	8.09	Nexusflow
LLaMA 65B	650.0	63.4	38.8	47.6	50.9	/	/	/	Facebook AI研究實驗室
Yi-6B	60.0	63.2	72.0	/	/	/	/	/	零一萬物
LLaMA2 34B	340.0	62.6	/	43.4	42.2	/	/	/	Facebook AI研究實驗室
Qwen1.5-MoE-A2.7B	143.0	62.5	/	/	61.5	/	/	7.17	阿里巴巴
StableLM2-12B	120.0	62.09	/	/	56.03	/	/	8.15	Stability AI
ChatGLM3-6B-Base	60.0	61.4	69.0	53.7	72.3	/	/	/	智譜AI
StableLM2-12B-Chat	120.0	61.14	/	/	57.7	/	/	8.15	Stability AI
XVERSE-13B-Chat	130.0	60.2	53.1	48.3	/	/	/	/	元象XVERSE
XVERSE-MoE-A4.2B	258.0	60.2	60.5	48.0	51.2	/	/	/	元象XVERSE
Mistral 7B	73.0	60.1	/	43.0	52.1	/	/	/	MistralAI
DeciLM-7B	70.4	59.76	/	/	47.38	/	/	/	Deci
Baichuan2-13B-Base	130.0	59.17	58.1	48.17	52.77	/	/	/	百川智慧
MiniCPM-MoE-8x2B	136.0	58.9	58.11	/	61.5	10.52	39.22	/	OpenBMB
LLaMA 33B	330.0	57.8	/	41.7	35.6	/	/	/	Facebook AI研究實驗室
Qwen-7B	70.0	56.7	59.6	/	51.6	/	/	/	阿里巴巴
Phi-2	27.0	56.7	/	/	61.1	/	/	/	Microsoft
Qwen2-1.5B	15.0	56.5	70.6	/	58.5	21.7	37.2	/	阿里巴巴
ChatGLM2 12B	120.0	56.18	61.6	/	40.94	/	/	/	智譜AI
XVERSE-13B	130.0	55.1	54.7	41.4	/	/	/	/	元象XVERSE
LLaMA2 13B	130.0	54.84	/	39.1	28.7	/	/	/	Facebook AI研究實驗室
Baichuan2-7B-Base	70.0	54.16	54.0	42.73	24.49	/	/	/	百川智慧
GPT-3	1750.0	53.9	/	/	/	/	/	/	OpenAI
MiniCPM-2B-DPO	24.0	53.46	51.13	/	53.83	10.24	36.87	7.25	面壁智慧
Baichuan 13B - Chat	130.0	52.1	51.5	/	26.6	/	/	/	百川智慧
Baichuan 13B - Base	130.0	51.62	52.4	/	26.6	/	/	/	百川智慧
InternLM 7B	70.0	51.0	53.4	37.6	31.2	/	/	/	上海人工智慧實驗室
InternLM Chat 7B 8K	70.0	50.8	53.2	42.5	31.2	/	/	/	上海人工智慧實驗室
ChatGLM2-6B	62.0	47.86	51.7	/	32.37	/	/	/	智譜AI
LLaMA 13B	130.0	46.94	/	33.9	17.8	/	/	/	Facebook AI研究實驗室
Stable LM Zephyr 3B	30.0	45.9	30.34	/	52.54	12.2	37.86	6.64	Stability AI
Qwen2-0.5B	4.0	45.4	58.2	/	58.5	10.7	28.4	/	阿里巴巴
LLaMA2 7B	70.0	45.3	/	29.3	14.6	/	/	/	Facebook AI研究實驗室
Qwen-1.8B	18.0	45.3	/	/	32.3	/	/	/	阿里巴巴
GLM-130B	1300.0	44.8	44.0	/	/	/	/	/	智譜AI
Ziya-LLaMA-13B-Pretrain-v1	130.0	43.9	30.2	27.2	/	/	/	/	IDEA研究院
OpenLLaMA 13B	130.0	42.4	24.7	24.0	/	/	/	/	Berkeley Artificial Intelligence Research
Baichuan 7B	70.0	42.3	42.8	34.44	9.7	/	/	/	百川智慧
Gemma 2B	20.0	42.3	/	24.2	17.7	11.8	35.2	/	Google Research
Gemma 2B - It	20.0	42.3	/	24.2	17.7	11.8	35.2	/	Google Research
Stable LM 2 - 1.6B	16.0	38.93	/	/	17.82	/	/	/	Stability AI
RecurrentGemma-2B	27.0	38.4	/	23.8	13.4	11.8	/	/	Google Research
Phi-1.5	13.0	37.6	/	/	40.2	/	/	/	Microsoft
DeepSeek Coder-6.7B Instruct	67.0	37.2	/	/	62.8	28.6	46.9	/	DeepSeek-AI
ChatGLM-6B	62.0	36.9	38.9	/	4.82	/	/	/	智譜AI
LLaMA 7B	70.0	35.1	27.1	23.9	11.0	/	/	/	Facebook AI研究實驗室
MOSS	160.0	27.4	33.13	26.8	/	/	/	/	OpenLMLab
OPT	1750.0	25.2	25.0	24.2	/	/	/	/	Facebook AI研究實驗室
Pythia	120.0	25.1	26.2	25.3	/	/	/	/	EleutherAI
TinyLlama	11.0	24.3	25.02	/	2.27	/	/	/	新加坡科技與設計大學
CodeGemma-7B	70.0	/	/	/	44.2	19.9	/	/	Google Research
CodeGemma-7B-IT	70.0	/	/	/	41.2	20.9	/	/	Google Research
CodeGemma-2B	20.0	/	/	/	41.2	20.9	/	/	Google Research
WizardLM-2-70B	70.0	/	/	/	/	/	/	8.92	Microsoft
WizardLM-2-7B	70.0	/	/	/	/	/	/	8.28	Microsoft
WizardLM-2 8x22B	1760.0	/	/	/	/	/	/	9.12	Microsoft
CPM-Bee	100.0	/	54.1	/	/	/	/	/	面壁智慧
Aquila-7B	70.0	/	25.5	25.58	/	/	/	/	北京智源人工智慧研究院
Phi-1	13.0	/	/	/	/	/	/	/	Microsoft

註釋

MMLU - 一種針對大模型的語言理解能力的測評，是目前最著名的大模型語義理解測評之一，任務涵蓋的知識很廣泛，語言是英文，用以評測大模型基本的知識覆蓋範圍和理解能力。
C Eval - C-Eval 是一個全面的中文基礎模型評估套件。它包含了13948個多項選擇題，涵蓋了52個不同的學科和四個難度級別。用以評測大模型中文理解能力。
AGI Eval - 微軟釋出的大模型基礎能力評測基準，主要評測大模型在人類認知和解決問題的一般能力，涵蓋全球20種面向普通人類考生的官方、公共和高標準錄取和資格考試，包含中英文資料。
GSM8K - OpenAI釋出的大模型數學推理能力評測基準，涵蓋了8500箇中學水平的高質量數學題資料集。資料集比之前的數學文字題資料集規模更大，語言更具多樣性，題目也更具挑戰性。

參考

大模型綜合能力評測對比表

開源OCR模型對比
2024-04-16
模型
大模型對AI研究有害？
2024-04-05
大模型AI
全面對比：天工大模型 vs 紫東太初大模型
2024-07-17
大模型
OpenAI推出ChatGPT對話式AI模型
2022-12-04
OpenAIChatGPT模型
五種IO模型介紹和對比
2018-12-01
模型
Springboot --- 使用國內的 AI 大模型對話
2024-10-12
Spring BootAI大模型
訊飛星火大模型與New Bing實測對比
2023-05-07
大模型
espnet中的transformer和LSTM語言模型對比實驗
2022-03-30
ORM模型
視覺化經典模型的對比實驗總結
2022-03-05
視覺化模型
可用於資料庫對比評估的FURPS+模型
2023-03-03
資料庫模型
重要 | Spark和MapReduce的對比，不僅僅是計算模型？
2020-11-04
Spark模型
OSI模型與 DOD模型的比較
2020-10-18
模型
意間AI繪畫和數畫兩款AI繪畫軟體對比評測
2022-12-08
AI
AI 客服對話類模型，該如何設計測試用例？？？
2024-04-29
AI模型
C#開發BIMFACE系列41 服務端API之模型對比
2021-10-11
C#服務端API模型
併發模型比較
2018-09-19
模型
map 對比
2024-04-28
AI三重問：什麼是AI？什麼是AI模型？什麼是AI大模型？
2023-11-01
AI大模型
對比復現34個預訓練模型，PyTorch和Keras你選誰？
2019-03-11
模型PyTorchKeras
在表格中基於樹的模型與深度學習優劣對比
2022-09-12
模型深度學習
Python==與is對比
2019-02-16
Python
人證比對
2020-01-13
for & range 效能對比
2021-05-20
biopython之成對序列比對
2024-06-26
Python
Adjacent List Model 與 Nested Set Model 兩種無限分類模型的對比
2019-02-28
模型
到底選誰？五大多智慧體 ( Multi-AI Agent) 框架對比
2024-12-02
智慧體AI框架
Llama 3：Meta新AI模型
2024-06-10
AI模型
Ai qwen大模型本地部署
2024-06-09
AI大模型
貧血模型與充血模型比較 - DDD - The Domain Driven Design
2019-06-16
模型AI
DDD中簡單模型比複雜模型更危險
2021-04-25
模型
Kotlin 與 Java 對比
2018-11-01
KotlinJava
Cookie LocalStorage SessionStorage對比
2018-04-09
CookieSession
對比Javascript和TypeScript
2018-09-14
JavaScriptTypeScript
Matlab——對比度拉伸
2018-07-31
Matlab
對比XcodeDebugMemoryGraph和FBMemoryProfiler
2018-08-10
XCode
vite和webpack對比
2024-04-25
ViteWeb
pyppeteer與selenium對比
2024-03-30
java排序方式對比
2020-07-25
Java排序

AI模型對比

註釋

參考

相關文章