CoT提出者Jason Wei:大模型評估基準的「七宗罪」

机器之心發表於2024-05-27
Jason Wei 是思維鏈提出者,並和 Yi Tay、Jeff Dean 等人合著了關於大模型湧現能力的論文。目前他正在 OpenAI 進行工作。

在 CV 領域,研究者一直把李飛飛等人建立的 ImageNet 奉為模型在下游視覺任務中能力的試金石。

在大模型時代,我們該如何評估 LLM 效能?現階段,研究者已經提出了諸如 MMLU、GSM8K 等一些評估基準,不斷有 LLM 在其上重新整理得分。

但這些評估基準真的完美嗎?思維鏈提出者 Jason Wei 在一篇部落格中進行了深入的研究。

圖片

Jason Wei 首先列舉了幾種成功的評估基準,然後總結了評估基準失敗的常見原因,共七條,包括樣本數量少、評估基準太複雜等等。

進一步的,Jason Wei 認為有些評估工具命名方式並不完美,比如 HumanEval 雖然叫做人類評估,實際上並沒有用到人類進行評估,只是因為問題是由人類建立的。

Jason Wei 表示如果想讓自己建立的評估工具得到廣泛使用,一定要幫助研究者使用它,從而得到推廣。此外,文中還提到了一些針對特定領域的小眾評估工具,Jason Wei 認為這些評估可能不會引起領域之外的任何關注。大家關心的測試集汙染問題,Jason Wei 也給出了一些解決方案。

接下來,我們看看 Jason Wei 原部落格內容:

成功評估的定義是什麼?我想說,如果一個評估基準被用在突破性論文中,並在社群中得到信任,那麼它顯然就是成功的。

以下是過去五年中一些成功的評估基準

  • GLUE/SuperGLUE:LLM 之前基本上所有 NLP 論文(BERT、T5 等)都使用。

  • MMLU:幾乎所有 LLM 論文都使用,也是 DeepMind 和 Google 最喜歡的評估基準

  • GSM8K:激發了 LLM 的推理能力,並被用於每一篇關於思維鏈(chain-of-thought)的論文中。

  • MATH:大多數 LLM 論文會使用。

  • HumanEval:是 LLM 編碼的經典評估基準

成功的評估往往會有一篇大論文聲稱使用該評估基準取得了一些突破。例如,GLUE 由 BERT 推廣,MMLU 由 Gopher、Chinchilla 和 Flan-PaLM 推廣。思維鏈提示(chain-of-thought prompting)聲稱在 GSM8K 上取得了突破。Minerva 的超凡能力在 MATH 上得到體現。Codex 等模型使用了 HumanEval。

更深入地說,在評估基準上得到好分數必須意味著一些重要且易於理解的事情,例如實現超越人類的表現、解決小學水平的數學問題。

而大多數不成功的評估基準都至少犯了如下七個錯誤之一:

1、如果評估沒有足夠的樣本,那麼對於研究人員來說,它會很嘈雜(noisy),而且 UI 會很糟糕。例如,有人可能在模型訓練過程中執行評估,並發現它在各個檢查點之間波動很大。這使得評估對於研究人員來說非常痛苦,因此他們不會喜歡使用該評估基準。評估基準最好有至少 1000 個樣本供您評估;如果是多項選擇評估,可能需要更多。例如儘管 GPQA 是一個很好的評估基準,但它根據 prompt 而波動的事實使其難以使用。

2、評估基準應該是高質量的。如果評估基準中有很多錯誤,人們就不會相信它,例如 Natural Questions(NQ)基準

3、如果你的評估基準太複雜,人們會很難理解它,並且會很少使用它。我認為 HELM 的第一個版本是一項巨大的努力,但它有太多的指標和子集。擁有單一數字指標至關重要 —— 我想不出任何偉大的評估基準是沒有單一數字指標的。

4、如果評估需要太多工作來執行,即使其他一切都很好,它也不會有很大的吸引力。BIG-Bench 是我最喜歡的評估基準之一,但執行起來非常痛苦。有對數機率評估和生成評估,這需要不同的基礎設施。子集太多,而且有些子集的樣本太多,所以評估花了很長時間。我相信這就是為什麼 BIG-Bench 沒有獲得太多關注,儘管它提供了很多優勢。

5、如果評估不是針對一項有意義的任務,人工智慧研究人員不會深度關注它。例如,在 BIG-Bench Hard 中,有推薦電影等任務。這些任務具有挑戰性,並且隨著模型大小的變化效能有所變化,但在這些任務上做得好並不能對模型的智慧程度做出實質性的結論。成功的評估通常會衡量對智慧至關重要的事物,例如語言理解、考試問題或數學。

6、評估的評分應該非常正確。如果有人認為模型評分不正確或者不認同該評分,那麼他們可以立即取消使用該評估基準。花時間來儘量減少解析引起的錯誤,或者儘可能獲得最好的自動評分器 prompt 是值得的。

7、為了使評估經得起時間的考驗,效能不能太快飽和。例如,GLUE/SuperGLUE 飽和得太快,很難顯示出巨大的增益,人們就不再使用它們。

對於評估工具,還有不完善的地方

看起來很多優秀的評估工具都有些糟糕的名字。比如 GSM8K 其實並不需要加上 8K,而 HumanEval 雖然叫做人類評估,實際上並沒有用到人類進行評估(之所以叫 HumanEval 是因為問題是由人類建立的)。MATH 這個名字太普通了,所以人們開始稱之為「Hendrycks-math」,這應該算是一個聰明的命名方式,以建立者的名字來命名。

如果你想讓你的評估工具得到廣泛使用,你首先要做的是幫助人們使用它。例如,當我制定了一個評估工具時,我通常會幫助他人在模型上執行它。如果他們的模型在這個評估上表現良好,那麼人們通常會喜歡它並進一步的推廣它。HELM 就非常擅長為其他人評估模型並公佈結果。

此外,如果你能為人們使用你的評估工具創造激勵機制也很有幫助。對員工來說,最好的激勵之一就是他們領導所重視的東西。因此,獲得實驗室或公司內部領導的支援對你的評估工具可能會有所幫助,他們會要求底下員工執行它。當我在谷歌建立 MGSM 時,我選擇與 Dipanjan Das(Google Deepmind 的研究主管)合作完成,儘管我們不在同一個團隊。我與他合作純粹是因為他是個有趣的人(並不是為了推廣這個評估工具),但我認為 Dipanjan 很喜歡這個工具,並且在他的團隊中獲得了一些人的支援使用。

然而,LLMs 的出現,對評估工具提出了更高的要求。LLMs 具有大規模多工處理能力並能生成長回答。目前還沒有一個單一的評估工具能夠充分評估 LLMs。當前流行的評估工具仍然使用非常簡單的評分方式(要麼是多項選擇,要麼是檢查數字,或者執行單元測試),即便這些方法也存在問題。如果我們能圍繞一個單一的提示,比如零樣本思維鏈(zero-shot chain-of-thought),那會很好。我知道由於很多原因這不是一個完美的解決方案,但我認為為了讓大家統一標準,這是合理的。

一個新的推動力是人類對模型進行配對評估,比如 LMSYS,但這種評估方式是一把雙刃劍。它們之所以強大, 是因為你可以透過一組簡單的提示得到一個單一的數字指標來衡量一個語言模型的好壞,並且可以透過大量的樣本來平均掉樣本級別的噪聲。不過,成對評估的危險之處在於你並不完全確定你在測量什麼 —— 例如,相對於正確性,風格等這類因素的權重影響有多大。

對模型生成內容(model-generated)的評估也變得有些流行。雖然我傾向於對模型生成的評估比較挑剔,但如果做得好,它們可以用於快速實驗和觀察效能的大幅提升,這是有可能的。但是建立一個經得起時間考驗的偉大的評估需要非常小心,我不想在合成評估中冒任何風險。

一個顯而易見的觀點是,評估的主題決定了有多少人會關心這個評估。你可以建立一個非常高質量的特定領域評估(例如,法律、醫療等),在這些情況下,最重要的是根據該領域專家所重視的內容來定製評估。

我曾經制作過一個組織病理學影像基準,不出所料,它在醫學影像分析領域之外幾乎沒有引起任何關注,只獲得了 40 次引用。話雖如此,一旦更多人意識到其重要性,你建立的特定領域評估也有可能獲得更多關注。

評估中一個日益重要的問題是測試集汙染。建立了一個好的評估之後,評估的示例往往會傳播到網際網路的各個地方,如 arxiv 論文、ChatGPT 示例或 reddit。解決這個問題的一個方法是對測試集進行「隱藏」,但這種方法引起了很多分歧。史丹佛大學教授 Chris Manning 提出了一個很好的建議,即對公開測試集、私有測試集都進行評估,並監控模型在這兩個測試集上是否有大的偏差。這種方法平衡了在公開測試集上測試的低摩擦性和私密測試集的高可信度。

我注意到的最後一件事是,你關心的評估很大程度上表明瞭你的身份。一個充滿博士的研究室可能會對語言模型在數學、編碼和物理上的推理能力感興趣。相反,我看到像 LMSYS 這樣的面向使用者的評估被來自軟體或產品背景的工程師視為黃金標準。雖然我兩者都關心,但我個人更傾向於智慧,因為我相信智慧是 AI 與人類互動的根本驅動力。

社群應該更多地投資於評估,儘管這可能很痛苦,通常不會像建模工作那樣得到很多回報。但歸根結底,好的評估工具是 AI 研究人員對模型的客觀評價指標,並且是對該領域產生重大影響的一種方式。

參考連結:https://x.com/_jasonwei/status/1794093872651387004

相關文章