訓練的評估函式

黑逍逍發表於2024-09-02

分類任務

import numpy as np
import evaluate

metric = evaluate.load("accuracy")
def compute_metrics(eval_pred):
    logits, labels = eval_pred
    predictions = np.argmax(logits, axis=-1)
    return metric.compute(predictions=predictions, references=labels)

  

logits 是模型的輸出

labels是真實標籤

numpyargmax 函式沿著最後一個維度(即每個樣本的類別維度)找到分數最大的索引,這些索引即為模型的預測類別

返回準確率

生成任務

BLEU、ROUGE、METEOR 等,這些指標用於比較生成的文字和參考文字

ROUGE(Recall-Oriented Understudy for Gisting Evaluation)分數是一組常用的文字生成評估指標,廣泛應用於機器翻譯、文字摘要、文字生成等自然語言處理任務中。

ROUGE 分數透過比較生成的文字(如機器生成的摘要)與參考文字(如人類編寫的摘要)之間的重疊程度,來評估生成文字的質量

相關文章