手搓大模型Task04：如果評估你的大模型

南风丶丶發表於2024-10-02

原文網址 : https://www.cnblogs.com/xinjieli/p/18444338

前言

隨著LLM的推廣普及，越來越多的朋友們熟悉了模型的SFT微調流程，但是對於微調的結果，尤其是如何判斷各大模型在當前資料集上的表現，仍然是一個待解決的問題。並且，對選擇式、判別式、生成式等不同的生成任務，如何才能夠客觀地評價模型的生成質量，仍是一個需要明確的問題。

1.Evaluation包含哪些流程

首先要明確評測任務的基礎pipeline。下圖是評測任務的簡要流程：

手搓大模型Task04：如果評估你的大模型

2.支援的評測資料集與評測Metric

所採用的資料集在這裡https://github.com/lixinjie97/tiny-universe/tree/main/04.TinyEval/Eval/dataset,目前有的資料集與型別包含(後續會持續更新!):

手搓大模型Task04：如果評估你的大模型

大家可以按照需要的任務進行探索，接下來我也會手把手為大家講解評測步驟！

3.生成式的F1

直接show例子:

"pred": "57081.86元", "answers": "人民幣57081.86元。"

首先,經過資料清洗與jieba分詞,將短句分為片語,以示例文字為例,經過分詞與去掉標點符號等操作,得到下列輸出:

"pred": ['5708186', '元'], "answers": ['人民幣', '5708186', '元']"

將上述的兩個"乾淨"的輸出送入f1評分函式如下:

def f1_score(prediction, ground_truth, **kwargs):
    # Counter以dict的形式儲存各個句子對應的詞與其對應個數,&運算子返回兩個Counter中共同的元素的鍵值對
    common = Counter(prediction) & Counter(ground_truth)
    # 顯示prediction與gt的共同元素的個數  
    num_same = sum(common.values())                       
    if num_same == 0:
        return 0
    # 即模型預測正確的樣本數量與總預測樣本數量的比值
    precision = 1.0 * num_same / len(prediction)
    # 模型正確預測的樣本數量與總實際樣本數量的比值         
    recall = 1.0 * num_same / len(ground_truth)           
    f1 = (2 * precision * recall) / (precision + recall)
    return f1

首先記錄兩個list中相同的元素,再統計相同的元素的總數,最終再按照precision與recall的定義分別計算相應的分數。

然後就得到該結果的對應分數啦,最後再將所有的結果取平均值,即得到該task的F1_score

4.總結

我們在進行了，模型微調後，想要知道微調的效果，那麼就要選擇相應的指標進行評估，設計一個完善且好用的評分指標是一件很重要的事情，需要設計者對模型的結構和資料足夠地瞭解。

手搓大模型Task03：手搓一個最小的 Agent 系統
2024-09-27
大模型
如何評估大語言模型
2023-03-29
模型
手搓大模型Task01：LLama3模型講解
2024-09-23
大模型
【手搓模型】親手實現 Vision Transformer
2023-03-17
模型ORM
大模型學習進階 5-大模型測評
2024-06-16
大模型
說說你對RAIL效能評估模型的瞭解
2024-12-11
AI模型
首批！華為雲盤古研發大模型透過程式碼大模型評估，獲當前最高等級
2024-06-13
大模型
CoT提出者Jason Wei：大模型評估基準的「七宗罪」
2024-05-27
大模型
迴歸模型-評估指標
2018-06-02
模型指標
如何評估RPA需求，RPA需求的模型
2019-11-11
模型
GNN 模型評估的一些陷阱
2019-12-20
GNN模型
GNN模型評估的一些陷阱
2019-12-18
GNN模型
【大模型】模型安全
2024-11-18
大模型
機器學習之模型評估
2019-06-21
機器學習模型
2023愛分析·通用大模型市場廠商評估報告：出門問問
2024-02-08
大模型
模型評估與改進：交叉驗證
2022-05-26
模型
大模型的量化
2024-07-16
大模型
豆包大模型團隊釋出全新Detail Image Caption評估基準，提升VLM Caption評測可靠性
2024-07-15
大模型AIAPT
資料庫效能需求分析及評估模型
2018-05-14
資料庫模型
鬼手操控著你的手機？大模型GUI智慧體易遭受環境劫持
2024-09-02
大模型GUI智慧體
MetaLlama大模型
2024-09-02
大模型
一文解碼語言模型：語言模型的原理、實戰與評估
2023-11-13
模型
牛津大學&Emotech首次嚴謹評估語義分割模型對對抗攻擊的魯棒性
2018-06-03
模型
【討論】用大模型評審測試用例？
2024-05-15
大模型
AI大模型會如何顛覆手機
2024-06-19
AI大模型
帶你瞭解大語音模型的前世今生
2023-11-27
模型
大模型綜述來了！一文帶你理清全球AI巨頭的大模型進化史
2023-05-17
大模型AI
專案管理的四大模型-迭代模型
2020-05-21
專案管理大模型
專案管理的四大模型-增量模型
2020-05-27
專案管理大模型
【模型評估與選擇】sklearn.model_selection.KFold
2018-07-03
模型
MIS607網路安全評估威脅模型
2024-03-28
模型
可用於資料庫對比評估的FURPS+模型
2023-03-03
資料庫模型
四阿里大模型接入：模型微調
2024-05-31
阿里大模型
影像描述大模型
2024-05-14
大模型
文生圖大模型
2024-11-07
大模型
大語言模型
2024-08-08
模型
語言大模型
2024-08-07
大模型
手搓AI大模型應用獲25萬使用者，果斷辭職創業，結果收入不如擺攤
2024-11-05
AI大模型創業

手搓大模型Task04：如果評估你的大模型

前言

1.Evaluation包含哪些流程

2.支援的評測資料集與評測Metric

3.生成式的F1

4.總結

相關文章