谷歌釋出BIG-Bench超難基準:DeepSeek-R1得分6.8,只有o3-mini超過10分

机器之心發表於2025-02-28
隨著 AI 能力的提升,一個常見的話題便是基準不夠用了——一個新出現的基準用不了多久時間就會飽和,比如 Replit CEO Amjad Masad 就預計 2023 年 10 月提出的程式設計基準 SWE-bench 將在 2027 年飽和。

也因此,為了更加準確地評估 AI 模型的能力,不斷有研究團隊構建出新的資料集和基準,比如我們前段時間報導過的 ZeroBenchHLE(人類的最後考試),它們都帶有大量當前的 AI 模型難以解決的難題。

近日,谷歌也釋出了一個高難度基準:BIG-Bench Extra Hard,簡稱 BBEH。從名字也能看出來,這個基準非常難(Extra Hard)並且與久負盛名的 BIG-Bench 和 BIG-Bench Hard(BBH)關係密切。
圖片
  • 論文標題:BIG-Bench Extra Hard

  • 論文地址:https://arxiv.org/pdf/2502.19187

  • 資料地址:https://github.com/google-deepmind/bbeh


正如其論文一作 Mehran Kazemi 指出的那樣,相比於 BIG-Bench Hard,BBEH 中每個任務都更加困難,給當前所有模型都創造了進步空間。
圖片
另一位作者、DeepMind 著名研究科學家 Yi Tay 也建議 AI 研究者在自己的下一篇論文中使用該基準。
圖片
那麼,BBEH 究竟有多難呢?當前能力最強的 o3-mini (high) 得分也僅有 44.8 分,不及格。而其它被測模型的得分均不超過 10 分!DeepSeek-R1 僅有 6.8,谷歌自家的 Gemini-2.0-Flash 也只有 9.8。遺憾的是,該團隊並沒有給出近期釋出的 Grok-3 與 Claude 3.7 Sonnet 的表現。
圖片
該團隊在論文中解釋了構建 BBEH 基準的動機,其中指出目前對推理模型的評估大都依賴數學、科學和程式設計基準,而涉及到更多方面的 BIG-Bench 及其更難的子集 BIG-Bench Hard(BBH)基準則正趨向飽和 —— 當前領先的模型在 BBH 上的準確度都已經超過 90%。因此,BBH 已經無力評估前沿模型的推理能力。

BBEH 便應運而生,其設計目標是「評估高階推理能力」。

BIG-Bench Extra Hard

BBEH 是基於 BBH 構建的——將 BBH 中的 23 個任務中的每一個都替換成了另一個在類似推理領域中並測試類似(或更多)技能的任務,當然,新任務的難度要大得多。這種替換方法可以確保新資料集保留了原始 BBH 資料集的高度多樣性。

表 1 給出了 BBEH 中新任務的高層級描述,包括它們是如何構建的以及它們替換了 BBH 中的哪個任務,以及它們針對哪些推理技能。
圖片
該基準中,每個任務包含 200 個問題,但 Disambiguation QA 任務例外,有 120 個問題。

下圖展示了一些具體任務示例:
圖片
該論文的詳細建立過程以及對 BBEH 資料集的分析請參閱原論文,下面我們重點來看看前沿模型在該基準上的表現以及相關分析結果。

模型表現及分析

首先來看各家前沿模型的表現如何,下表是準確度分數詳情。
圖片
根據此結果,該團隊得出了幾個有趣的觀察:

  • 模型在各個任務上都有很大的進步空間,在 BBEH 整體上也是如此。
  • 通用模型的最佳效能為 9.8% 的調和平均準確率。推理專用模型在該基準上的表現優於通用模型(符合預期),但這些模型在 BBEH 上的最佳效能仍只有 44.8%。
  • 儘管採用了對抗性結構,但參考 Thinking 模型在 BBEH 上的調和平均準確率仍只有 20.2%。
  • 一些模型的準確率甚至低於隨機效能。經檢查,他們發現原因大多是模型無法在有效輸出 token 長度內解決問題並在某個點之後開始退化,因此無法從其解答中提取出最終答案。

另外,還能看到不同模型擅長不同型別的推理。例如,DeepSeek R1 在 BoardgameQA 上的表現明顯優於其他模型,o3-mini (high) 在 Temporal Sequences 和 Object Properties 上的表現明顯優於其他模型,GPT4o 在 NYCC 上的表現明顯優於其他模型,GPT4o 和 Gemini 2.0 Flash 在 SARC Triples 上的表現明顯優於其他模型。

該團隊還進行了進一步的結果分析。

通用模型與推理模型

推理模型可以利用更多測試時間計算進行思考,因此在涉及數學和編碼的推理任務上實現了巨大的效能飛躍。例如,在 AIME2024 資料集上,GPT4o 的效能為 13.4%,但 o1 模型將其提高到 83.3%,o3-mini (high) 將其進一步提高到 87.3%。

在這裡,該團隊檢查了不同型別的一般推理是否也是如此。

如圖 5 所示,該團隊分別將 o3-mini (high) 和 GPT4o 作為推理和一般模型的模範,在 BBEH 的每個任務上進行了比較,並根據 o3-mini (high) 相對於 GPT4o 的增益程度對任務進行升序排序。
圖片
可以觀察到,增益最大的任務是那些涉及計數、規劃、算術以及資料結構和演算法的任務。而增益最少(有時為負值)的任務大多涉及常識、幽默、諷刺和因果關係。

結果表明,推理模型在解決形式化問題時會取得最顯著的收益,而在處理複雜的現實場景時(通常需要軟推理技能)則收益有限。

模型大小的影響

該團隊還探討了模型大小對模型效能的影響。

如圖 6 所示,他們在 BBEH 的不同任務上比較了 Gemini 2.0 Flash 和 Gemini 2.0 Flash-Lite,並根據 Flash 相對於 Flash-Lite 的收益按升序方式對任務進行排序。
圖片
雖然訊號不如將一般模型與推理模型進行比較時那麼清晰,但仍然可以觀察到與幽默、常識和因果推理相關的任務收益最少,而需要多跳推理或應用演算法的任務收益最大。

一個特殊的例外是 SARC Triples 任務,這是一個諷刺理解任務,並且收益很大。這可能部分是由於 SARC Triples 中的每個樣本都是三個子問題的組合,而較大的模型可能更擅長處理這種複合問題。

上下文長度和所需思考的影響

BBEH 中的任務具有不同的平均上下文長度,並且可能需要不同的思考量。基於此,可以瞭解上下文長度和所需思考對推理與一般模型以及較大模型與較小模型的影響。

圖 7 比較了 o3-mini (high) 與 GPT4o 以及 Gemini 2.0 Flash 與 Gemini 2.0 Flash-Lite 的效能,這裡使用了任務平均上下文長度和平均輸出長度作為所需思考的代理。
圖片
可以觀察到,無論是在上下文長度增加時,還是在所需思考增加時,o3-mini 的收益都比 GPT4o 更高;這表明與一般模型相比,推理模型在兩個方向上都可能有所改進。對於 Gemini 2.0 Flash 與 Gemini 2.0 Flash-Lite,可以看到當上下文長度增加時,收益也有類似的增長,但思考增加時,曲線基本保持平坦。

參考連結:
https://x.com/kazemi_sm/status/1894935166952349955
https://x.com/YiTayML/status/1894939679943991661

相關文章