讓 LLM 來評判 | 基礎概念

HuggingFace發表於2025-01-11

基礎概念

這是 讓 LLM 來評判 系列文章的第一篇,敬請關注系列文章:

  • 基礎概念
  • 選擇 LLM 評估模型
  • 設計你自己的評估 prompt
  • 評估你的評估結果
  • 獎勵模型相關內容
  • 技巧與提示

什麼是評估模型?

評估模型 (Judge models) 是一種 用於評估其他神經網路的神經網路。大多數情況下它們用來評估生成文字的質量。

評估模型涵蓋的範圍很廣,從小型的特定分類器 (例如 “垃圾郵件分類器”) 到大型的 LLM,或大而廣、或小而專。使用 LLM 作為評估模型時,需要提供一個 prompt 來解釋對模型評分的細則 (例如:請對語句流暢度從 0 到 5 評分,0 分表示完全不可理解,…)。

使用模型作為評估工具可以對文字中複雜和細微的特性有效的評估。
例如精確匹配預測文字和參考文字的任務,只能評估模型預測正確事實或數字的能力。但要評估更開放性的經驗能力 (如文字流暢水平、詩詞文學質量或輸入忠實程度) 則需要更復雜的評價工具。

這就是評估模型最初的切入點。

它們通常用於三大任務。

  • 為生成文字打分:使用預先定義的評分標準與範圍來評估文字的某些屬性 (如流暢度、有害性、一致性、說服力等)。
  • 成對比較:對比模型的兩個輸出,以選出在給定屬性上表現更好的文字。
  • 計算文字相似度:用於評估參考文字和模型輸出的匹配程度。

注:本文目前主要關注 LLM + prompt 的評估方法。不過建議你還是瞭解一下簡單分類器評估模型的工作原理,因為這種方法在許多測試用例中都具有穩定的表現。最近也出現了一些新的有前景的方法,例如獎勵模型作為評估模型 (在 這篇報告 中提出,本指南中也簡單寫了一篇 文章 介紹獎勵模型)。

LLM 評估模型的優劣勢:

優勢:

  • 客觀性:與人類相比,LLM 評估模型在自動化地做出經驗性判斷時更加客觀。
  • 規模化和可復現:LLM 評估模型可以在非常大規模資料上做評估,並且評估結果可以復現。
  • 成本較低:與支付人工標註員報酬相比,由於無需訓練新模型,只要使用現有的高質量 LLM 和 prompt 就可以進行評價任務,因此評估模型成本較低。
  • 與人類判斷對齊:LLM 評估結果在一定程度上與人類的判斷具有相關性。

劣勢:

  • LLM 評估模型看似客觀,實際上具有更難被檢測到的 隱藏偏差,這是因為我們無法主動地發掘這些偏差 (參考 [model-as-a-judge/Tips and tricks] 章節)。此外,緩解人類偏差可以透過設計一些內容具體或統計穩健的調查問卷的方式 (這在社會學領域已有近百年的研究),而緩解 LLM 偏差的方式就沒那麼成熟了。另外,使用 LLM 評估 LLM 可能會產生 “迴音室效應”,即潛移默化地加強了模型的固有偏差。
  • LLM 評估模型雖然具有規模化優勢,但同時也會生成大量的資料需要仔細檢查。例如模型可以生成思維路徑或資料推理,但產生的結果需要更多的分析。
  • LLM 評估模型在通常情況下便宜,但在某些具體任務中如需獲取質量更高的評估結果而聘請專家級人工標註員,那麼成本會相應增加。

如何開始?

  • 如果你想嘗試設定自己 LLM 評估模型,推薦閱讀由 Aymeric Roucher 撰寫的 LLM 評估模型指南 (⭐)!
    一些使用工具:distilabel 程式碼庫,它能夠基於 LLM 生成和迭代資料集。Ultrafeedback 論文 中提到的方法以及相應的 教程Arena Hard 基準實現教程

英文原文: https://github.com/huggingface/evaluation-guidebook/blob/main/translations/zh/contents/model-as-a-judge/basics.md

原文作者: clefourrier

譯者: SuSung-boy

審校: adeenayakup