如何評估大語言模型

HuggingFace發表於2023-03-29

大家可以使用 Hugging Face Space 上的 Evaluation on the Hub 應用在零樣本分類任務上評估大語言模型啦!

零樣本評估是研究人員衡量大語言模型效能的一種流行方法。因為大語言模型已經在訓練過程中 顯示 出了對無標註資料的學習能力。反向縮放獎 是近期社群的一項工作,透過在各種尺寸和結構的模型上進行大規模零樣本評估,以發現哪些大模型的表現比小模型還差。

資料集

在 Hub 上零樣本評估語言模型

Evaluation on the Hub 無需編寫程式碼即可幫助你評估 Hub 上的任何模型,這個能力是由 AutoTrain 賦予的。現在,Hub 上的任何因果語言模型都可以以零樣本的方式進行評估。零樣本評估會度量訓得的模型生成一組特定補全詞的可能性,且不需要任何標註訓練資料,這使得研究人員可以跳過昂貴的標註工作。

我們已經為該專案升級了 AutoTrain 基礎設施,使之可以免費評估大模型?!使用者弄清楚如何自己編寫可用於 GPU 執行的評估再執行該程式碼去評估大模型既昂貴又耗時。例如,一個具有 660 億引數的語言模型可能僅載入和編譯就需要 35 分鐘,這使得大模型的評估只有那些擁有昂貴的基礎設施和豐富的技術經驗的人才能進行。透過升級 AutoTrain 基礎設施,在具有 2000 個句子的零樣本分類任務中評估一個 660 億引數的模型需要 3.5 小時,社群中的任何人都可以完成。 Evaluation on the Hub 目前支援評估的最大模型尺寸為 660 億引數,後面會支援更大的模型。

零樣本文字分類任務採用包含一組提示和及其候選補全的資料集。在工作時,會將補全與提示連線起來,並對每個補全的對數機率求和,然後進行歸一化並與正確的補全進行比較以最終輸出任務的準確性。

在本文中,我們將在 WinoBias 資料集上來評估各種 OPT 模型在零樣本文字分類任務上的表現,該任務是一個度量職業上的性別偏見的共指任務。 WinoBias 度量一個模型是否更有可能選擇一個帶有刻板印象的代詞來填充一個提到職業的句子。我們透過觀察結果發現,在此任務上模型效果與模型大小存在 反向縮放,即模型越大越容易產生帶有刻板印象的填充代詞。

案例研究: WinoBias 任務的零樣本評估

WinoBias 資料集已被我們轉換成適合零樣本任務所需的格式,其任務就是視不同的補全為不同的類 (下圖中的 classes 列),並進行預測。每個補全句的區別在於代詞不同,而標籤 (下圖中的 target 列) 就是對應職業的反刻板化補全 (例如,“開發人員”通常是男性主導的職業,因此“她”就是反刻板化代詞)。有關示例,請參見 參考連結

資料集

接下來,我們可以在 Evaluation on the Hub 介面上將任務設定為 text_zero_shot_classification,並選擇 winobias 資料集 (見下圖),然後選擇我們想要評估的模型,最後提交評估任務!評估完成後,你將收到電子郵件通知, autoevaluator 機器人會在模型的 Hub 庫中新建一個 PR,並把結果放在這個 PR 裡。

Evaluation on the Hub 介面

下圖是 WinoBias 任務的結果,我們發現較小的模型更有可能生成反刻板化的補全,而較大的模型更有可能學到文字中性別和職業之間的刻板化關聯。這與其他基準 (例如 BIG-Bench) 的結果一致,這些基準也表明更大、更強的模型更有可能在性別、種族、民族、和國籍問題上形成偏見。另外,之前的工作 也表明較大的模型更有可能產生有毒文字。

Winobias

為每個人提供更好的研究工具

開放科學在社群驅動的工具開發方面取得了長足進步,例如 EleutherAI 的 語言模型評估工具BIG-bench 專案,這使得研究人員可以直觀瞭解最先進模型的行為。

Evaluation on the Hub 是一種低程式碼工具,讓研究人員可以很容易地按照某個維度 (例如 FLOPS 或模型大小) 比較一組模型的零樣本效能,或者比較在同一語料庫上訓出來的一組不同的模型的效能。零樣本文字分類任務非常靈活 —— 任何可以轉換成 Winograd 格式的資料集 (該格式中要比較的句子間僅有幾個單詞不同),都可以用於此任務,並可以同時評估多個模型。我們的目標是讓研究人員能夠很容易地上傳新資料集,並能輕鬆地在其上對許多模型進行基準測試。

一個可以用該工具解決的研究問題的例子是反向縮放問題: 雖然較大的模型通常在大多數語言任務上表現更強,但在某些任務中較大的模型表現反而較差。反向縮放獎 作為一個比賽,旨在鼓勵研究人員去構建一些任務,在這些任務上大模型比小模型表現更差。我們鼓勵你在自己的任務上嘗試對各種尺寸的模型進行零樣本評估!如果你發現你的任務效果與模型尺寸的相對關係比較有趣,我們可以聊一聊。

向我們提交反饋!

在 Hugging Face,我們很高興能透過我們的持續工作,讓人人都能訪問到最先進的機器學習模型,包括開發工具,並讓每個人都能輕鬆評估和探究這些模型的行為。我們之前已經 強調過 可保證評估結果一致性和可重複性的標準化模型評估方法以及使評估工具人人可訪問的重要性。Evaluation on the Hub 的未來計劃包括支援對其他語言任務的零樣本評估,這些任務可能不適合使用“提示 + 補全”的資料格式,同時我們還會增加對更大模型的支援。

作為社群的一部分,向我們提交反饋十分有助於我們的工作!我們很樂意聽取你關於模型評估的首要任務是什麼的意見。透過 Hub 社群論壇 告訴我們吧 !

英文原文: https://hf.co/blog/zero-shot-eval-on-the-hub

原文作者: Mathemakitten Helen,Tristan Thrush,Abhishek Thakur,Lewis Tunstall,Douwe Kiela

譯者: Matrix Yao (姚偉峰),英特爾深度學習工程師,工作方向為 transformer-family 模型在各模態資料上的應用及大規模模型的訓練推理。

審校、排版: zhongdongy (阿東)

相關文章