【基礎島·第6關】OpenCompass 評測 InternLM-1.8B 實踐

陈佳佳|Tech發表於2024-09-27

原文網址 : https://www.cnblogs.com/jchen2022/p/18433302

1. 概覽
2. 環境配置
- 2.1 建立開發機和conda環境
- 2.2 安裝——面向GPU的環境安裝
3. 資料準備
- 3.1 評測資料集
- 3.2 InternLM和ceval 相關的配置檔案
4. 啟動測評
- 4.1 使用命令列配置引數法進行評測
- 4.2 使用配置檔案修改引數法進行評測

1. 概覽

在 OpenCompass 中評估一個模型通常包括以下幾個階段：配置 -> 推理 -> 評估 -> 視覺化。

配置：這是整個工作流的起點。您需要配置整個評估過程，選擇要評估的模型和資料集。此外，還可以選擇評估策略、計算後端等，並定義顯示結果的方式。
推理與評估：在這個階段，OpenCompass 將會開始對模型和資料集進行並行推理和評估。推理階段主要是讓模型從資料集產生輸出，而評估階段則是衡量這些輸出與標準答案的匹配程度。這兩個過程會被拆分為多個同時執行的“任務”以提高效率。
視覺化：評估完成後，OpenCompass 將結果整理成易讀的表格，並將其儲存為 CSV 和 TXT 檔案。

2. 環境配置

2.1 建立開發機和conda環境

在建立開發機介面選擇映象為 Cuda11.7-conda，並選擇 GPU 為10% A100。,建立開發機

2.2 安裝——面向GPU的環境安裝

conda create -n opencompass python=3.10
conda activate opencompass
conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia -y

# 注意：一定要先 cd /root
cd /root
git clone -b 0.2.4 https://github.com/open-compass/opencompass
cd opencompass
pip install -e .


apt-get update
apt-get install cmake
pip install -r requirements.txt
pip install protobuf

3. 資料準備

3.1 評測資料集

解壓測評資料集

cp /share/temp/datasets/OpenCompassData-core-20231110.zip /root/opencompass/
unzip OpenCompassData-core-20231110.zip

3.2 InternLM和ceval 相關的配置檔案

列出所有跟 InternLM 及 C-Eval 相關的配置

python tools/list_configs.py internlm ceval

將會看到：
+----------------------- | Model |----------------------- | hf_internlm2_1_8b | hf_internlm2_20b | hf_internlm2_7b | hf_internlm2_base_20b | hf_internlm2_base_7b | hf_internlm2_chat_1_8b | hf_internlm2_chat_1_8b_sft | hf_internlm2_chat_20b | hf_internlm2_chat_20b_sft | hf_internlm2_chat_20b_with_system | hf_internlm2_chat_7b | hf_internlm2_chat_7b_sft | hf_internlm2_chat_7b_with_system | hf_internlm2_chat_math_20b | hf_internlm2_chat_math | hf_internlm2_chat_math_7b | hf_internlm2_chat_math | hf_internlm_20b | hf_internlm_7b | hf_internlm_chat_20b | hf_internlm_chat_7b | hf_internlm_chat_7b_8k | hf_internlm_chat_7b_v1_1 | internlm_7b | ms_internlm_chat_7b_8k +----------------------- +----------------------- | Dataset |----------------------- | ceval_clean_ppl | ceval_contamination_ppl_810ec6 | ceval_gen | ceval_gen_2daf24 | ceval_gen_5f30c7 | ceval_ppl | ceval_ppl_1cd8bf | ceval_ppl_578f8d | ceval_ppl_93e5ce | ceval_zero_shot_gen_bd40ef | configuration_internlm | modeling_internlm2 | tokenization_internlm +----------------------- -----------------+----------------------------------------------------------------------+
| Config Path |
-----------------+----------------------------------------------------------------------|
| configs/models/hf_internlm/hf_internlm2_1_8b.py |
| configs/models/hf_internlm/hf_internlm2_20b.py |
| configs/models/hf_internlm/hf_internlm2_7b.py |
| configs/models/hf_internlm/hf_internlm2_base_20b.py |
| configs/models/hf_internlm/hf_internlm2_base_7b.py |
| configs/models/hf_internlm/hf_internlm2_chat_1_8b.py |
| configs/models/hf_internlm/hf_internlm2_chat_1_8b_sft.py |
| configs/models/hf_internlm/hf_internlm2_chat_20b.py |
| configs/models/hf_internlm/hf_internlm2_chat_20b_sft.py |
| configs/models/hf_internlm/hf_internlm2_chat_20b_with_system.py |
| configs/models/hf_internlm/hf_internlm2_chat_7b.py |
| configs/models/hf_internlm/hf_internlm2_chat_7b_sft.py |
| configs/models/hf_internlm/hf_internlm2_chat_7b_with_system.py |
| configs/models/hf_internlm/hf_internlm2_chat_math_20b.py |
_20b_with_system | configs/models/hf_internlm/hf_internlm2_chat_math_20b_with_system.py |
| configs/models/hf_internlm/hf_internlm2_chat_math_7b.py |
_7b_with_system | configs/models/hf_internlm/hf_internlm2_chat_math_7b_with_system.py |
| configs/models/hf_internlm/hf_internlm_20b.py |
| configs/models/hf_internlm/hf_internlm_7b.py |
| configs/models/hf_internlm/hf_internlm_chat_20b.py |
| configs/models/hf_internlm/hf_internlm_chat_7b.py |
| configs/models/hf_internlm/hf_internlm_chat_7b_8k.py |
| configs/models/hf_internlm/hf_internlm_chat_7b_v1_1.py |
| configs/models/internlm/internlm_7b.py |
| configs/models/ms_internlm/ms_internlm_chat_7b_8k.py |
-----------------+----------------------------------------------------------------------+
---------+-------------------------------------------------------------------+
| Config Path |
---------+-------------------------------------------------------------------|
| configs/datasets/ceval/ceval_clean_ppl.py |
| configs/datasets/contamination/ceval_contamination_ppl_810ec6.py |
| configs/datasets/ceval/ceval_gen.py |
| configs/datasets/ceval/ceval_gen_2daf24.py |
| configs/datasets/ceval/ceval_gen_5f30c7.py |
| configs/datasets/ceval/ceval_ppl.py |
| configs/datasets/ceval/ceval_ppl_1cd8bf.py |
| configs/datasets/ceval/ceval_ppl_578f8d.py |
| configs/datasets/ceval/ceval_ppl_93e5ce.py |
| configs/datasets/ceval/ceval_zero_shot_gen_bd40ef.py |
| configs/datasets/cdme/internlm2-chat-7b/configuration_internlm.py |
| configs/datasets/cdme/internlm2-chat-7b/modeling_internlm2.py |
| configs/datasets/cdme/internlm2-chat-7b/tokenization_internlm.py |
---------+-------------------------------------------------------------------+

4. 啟動測評

4.1 使用命令列配置引數法進行評測

開啟 opencompass資料夾下configs/models/hf_internlm/的hf_internlm2_chat_1_8b.py ,貼入以下程式碼

from opencompass.models import HuggingFaceCausalLM


models = [
    dict(
        type=HuggingFaceCausalLM,
        abbr='internlm2-1.8b-hf',
        path="/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b",
        tokenizer_path='/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b',
        model_kwargs=dict(
            trust_remote_code=True,
            device_map='auto',
        ),
        tokenizer_kwargs=dict(
            padding_side='left',
            truncation_side='left',
            use_fast=False,
            trust_remote_code=True,
        ),
        max_out_len=100,
        min_out_len=1,
        max_seq_len=2048,
        batch_size=8,
        run_cfg=dict(num_gpus=1, num_procs=1),
    )
]

確保按照上述步驟正確安裝 OpenCompass 並準備好資料集後，可以透過以下命令評測 InternLM2-Chat-1.8B 模型在 C-Eval 資料集上的效能。由於 OpenCompass 預設並行啟動評估過程，我們可以在第一次執行時以 --debug 模式啟動評估，並檢查是否存在問題。在 --debug 模式下，任務將按順序執行，並實時列印輸出

#環境變數配置
export MKL_SERVICE_FORCE_INTEL=1
#或
export MKL_THREADING_LAYER=GNU

執行評估：

python run.py --datasets ceval_gen --models hf_internlm2_chat_1_8b --debug

執行時報錯：

A module that was compiled using NumPy 1.x cannot be run in
NumPy 2.0.1 as it may crash. To support both 1.x and 2.x
versions of NumPy, modules must be compiled with NumPy 2.0.
Some module may need to rebuild instead e.g. with 'pybind11>=2.12'.

If you are a user of the module, the easiest solution will be to
downgrade to 'numpy<2' or try to upgrade the affected module.
We expect that some modules will need time to support NumPy 2.

Traceback (most recent call last):  File "/root/opencompass/run.py", line 1, in <module>
    from opencompass.cli.main import main
  File "/root/opencompass/opencompass/cli/main.py", line 9, in <module>
    from opencompass.partitioners import MultimodalNaivePartitioner
  File "/root/opencompass/opencompass/partitioners/__init__.py", line 1, in <module>
    from .mm_naive import *  # noqa: F401, F403
  File "/root/opencompass/opencompass/partitioners/mm_naive.py", line 8, in <module>
    from .base import BasePartitioner
  File "/root/opencompass/opencompass/partitioners/base.py", line 9, in <module>
    from opencompass.utils import (dataset_abbr_from_cfg, get_logger,
  File "/root/opencompass/opencompass/utils/__init__.py", line 4, in <module>
    from .collect_env import *  # noqa
  File "/root/opencompass/opencompass/utils/collect_env.py", line 2, in <module>
    from mmengine.utils.dl_utils import collect_env as collect_base_env
  File "/root/.conda/envs/opencompass/lib/python3.10/site-packages/mmengine/utils/dl_utils/__init__.py", line 3, in <module>
    from .collect_env import collect_env
  File "/root/.conda/envs/opencompass/lib/python3.10/site-packages/mmengine/utils/dl_utils/collect_env.py", line 10, in <module>
    import torch
  File "/root/.conda/envs/opencompass/lib/python3.10/site-packages/torch/__init__.py", line 1382, in <module>
    from .functional import *  # noqa: F403
  File "/root/.conda/envs/opencompass/lib/python3.10/site-packages/torch/functional.py", line 7, in <module>
    import torch.nn.functional as F
  File "/root/.conda/envs/opencompass/lib/python3.10/site-packages/torch/nn/__init__.py", line 1, in <module>
    from .modules import *  # noqa: F403
  File "/root/.conda/envs/opencompass/lib/python3.10/site-packages/torch/nn/modules/__init__.py", line 35, in <module>
    from .transformer import TransformerEncoder, TransformerDecoder, \
  File "/root/.conda/envs/opencompass/lib/python3.10/site-packages/torch/nn/modules/transformer.py", line 20, in <module>
    device: torch.device = torch.device(torch._C._get_default_device()),  # torch.device('cpu'),
/root/.conda/envs/opencompass/lib/python3.10/site-packages/torch/nn/modules/transformer.py:20: UserWarning: Failed to initialize NumPy: _ARRAY_API not found (Triggered internally at /opt/conda/conda-bld/pytorch_1702400410390/work/torch/csrc/utils/tensor_numpy.cpp:84.)
  device: torch.device = torch.device(torch._C._get_default_device()),  # torch.device('cpu'),
Traceback (most recent call last):
  File "/root/opencompass/run.py", line 1, in <module>
    from opencompass.cli.main import main
  File "/root/opencompass/opencompass/cli/main.py", line 14, in <module>
    from opencompass.utils.run import (exec_mm_infer_runner, fill_eval_cfg,
  File "/root/opencompass/opencompass/utils/run.py", line 7, in <module>
    from opencompass.datasets.custom import make_custom_dataset_config
  File "/root/opencompass/opencompass/datasets/__init__.py", line 1, in <module>
    from .advglue import *  # noqa: F401, F403
  File "/root/opencompass/opencompass/datasets/advglue.py", line 4, in <module>
    from datasets import Dataset, concatenate_datasets
  File "/root/.conda/envs/opencompass/lib/python3.10/site-packages/datasets/__init__.py", line 18, in <module>
    from .arrow_dataset import Dataset
  File "/root/.conda/envs/opencompass/lib/python3.10/site-packages/datasets/arrow_dataset.py", line 59, in <module>
    import pandas as pd
  File "/root/.conda/envs/opencompass/lib/python3.10/site-packages/pandas/__init__.py", line 22, in <module>
    from pandas.compat import is_numpy_dev as _is_numpy_dev  # pyright: ignore # noqa:F401
  File "/root/.conda/envs/opencompass/lib/python3.10/site-packages/pandas/compat/__init__.py", line 18, in <module>
    from pandas.compat.numpy import (
  File "/root/.conda/envs/opencompass/lib/python3.10/site-packages/pandas/compat/numpy/__init__.py", line 4, in <module>
    from pandas.util.version import Version
  File "/root/.conda/envs/opencompass/lib/python3.10/site-packages/pandas/util/__init__.py", line 2, in <module>
    from pandas.util._decorators import (  # noqa:F401
  File "/root/.conda/envs/opencompass/lib/python3.10/site-packages/pandas/util/_decorators.py", line 14, in <module>
    from pandas._libs.properties import cache_readonly
  File "/root/.conda/envs/opencompass/lib/python3.10/site-packages/pandas/_libs/__init__.py", line 13, in <module>
    from pandas._libs.interval import Interval
  File "pandas/_libs/interval.pyx", line 1, in init pandas._libs.interval
ValueError: numpy.dtype size changed, may indicate binary incompatibility. Expected 96 from C header, got 88 from PyObject.

根據gpt的hint直接降級安裝：
pip install numpy==1.24.3

評估結果：

4.2 使用配置檔案修改引數法進行評測

//todo

【基礎島·第3關】浦語提示詞工程實踐
2024-09-28
【基礎島·第5關】XTuner 微調個人小助手認知
2024-09-28
書生·共學大模型實戰營第4期 L1G6000 OpenCompass評測作業
2024-11-16
大模型
闖關地圖-基礎島
2024-07-22
地圖
安全測評基礎-安全測評常用測試工具講解
2020-10-25
《孤島驚魂 6》GI 評測 9 分：傳承系列優點，實現自我超越
2021-10-19
GraphQL 基礎實踐
2018-07-23
Pytest 實踐：Python 測試技術基礎知識
2024-04-25
Python
實踐證明了基礎！
2019-04-29
軟考評測師/中級軟考/測試基礎相關思維導圖
2020-12-12
MySQL基礎語法實踐
2020-11-25
MySql
6章 RxJava基礎實戰
2019-05-13
RxJava
elementary OS 6 評測！
2021-09-17
《孤島驚魂 6》篝火評測：合格以上，突破未滿的育碧沙盒新嘗試
2021-10-08
APP壓力測試6--monkeyrunner實踐
2024-11-12
APP
書評：《Linux 基礎》
2019-02-23
Linux
Vue 應用單元測試的策略與實踐 02 - 單元測試基礎
2018-10-30
Vue
Netty基礎招式——ChannelHandler的最佳實踐
2021-08-09
Netty
逆變器的防孤島測試效能評估
2024-09-11
WebRTC基礎實踐-1.WebRTC簡介
2018-10-14
Web
DevOps基礎的認識與工具實踐
2021-08-10
dev
《推薦系統實踐》筆記 03 評測指標
2020-11-23
筆記指標
JavaScript 基礎 - 第1天
2024-03-25
JavaScript
[ES6] 基礎
2020-05-25
K6 在 Nebula Graph 上的壓測實踐
2021-09-24
0基礎快速入門運維-EDASServerless(FAAS)產品評測
2019-01-01
運維Server
基於 eBPF 的 Kubernetes 可觀測實踐
2022-08-04
eBPF
個人實踐的基於 Laravel 的論壇，歡迎大家給予建議和評測
2019-01-12
Laravel
多執行緒基礎練習實踐篇
2018-11-06
執行緒
Docker基礎、Machine、Compose、Swarm入門與實踐
2018-07-12
DockerMacSwarm
配運基礎資料快取瘦身實踐
2023-03-08
快取
美團點評基於 Flink 的實時數倉建設實踐
2019-07-08
《對馬島之魂》IGN 評測：山河壯美，劍戟浪漫
2020-07-20
基於Kubernetes和OpenKruise的可變基礎設施實踐
2020-11-27
UI
諾基亞X6全面評測：當信仰有了價效比
2018-05-26
從 0 開始寫 AI 評測平臺 -- streamlit 基礎介紹
2024-12-03
AI
前端基礎_ES6
2019-01-11
前端
MySQL基礎知識（6）
2024-11-19
MySql