谷歌釋出BIG-Bench超難基準：DeepSeek-R1得分6.8，只有o3-mini超過10分

机器之心發表於2025-02-28

原文網址 : https://www.jiqizhixin.com/articles/2025-02-28-9

隨著 AI 能力的提升，一個常見的話題便是基準不夠用了——一個新出現的基準用不了多久時間就會飽和，比如 Replit CEO Amjad Masad 就預計 2023 年 10 月提出的程式設計基準 SWE-bench 將在 2027 年飽和。

也因此，為了更加準確地評估 AI 模型的能力，不斷有研究團隊構建出新的資料集和基準，比如我們前段時間報導過的 ZeroBench 和 HLE（人類的最後考試），它們都帶有大量當前的 AI 模型難以解決的難題。

近日，谷歌也釋出了一個高難度基準：BIG-Bench Extra Hard，簡稱 BBEH。從名字也能看出來，這個基準非常難（Extra Hard）並且與久負盛名的 BIG-Bench 和 BIG-Bench Hard（BBH）關係密切。

論文標題：BIG-Bench Extra Hard
論文地址：https://arxiv.org/pdf/2502.19187
資料地址：https://github.com/google-deepmind/bbeh

正如其論文一作 Mehran Kazemi 指出的那樣，相比於 BIG-Bench Hard，BBEH 中每個任務都更加困難，給當前所有模型都創造了進步空間。

另一位作者、DeepMind 著名研究科學家 Yi Tay 也建議 AI 研究者在自己的下一篇論文中使用該基準。

那麼，BBEH 究竟有多難呢？當前能力最強的 o3-mini (high) 得分也僅有 44.8 分，不及格。而其它被測模型的得分均不超過 10 分！DeepSeek-R1 僅有 6.8，谷歌自家的 Gemini-2.0-Flash 也只有 9.8。遺憾的是，該團隊並沒有給出近期釋出的 Grok-3 與 Claude 3.7 Sonnet 的表現。

該團隊在論文中解釋了構建 BBEH 基準的動機，其中指出目前對推理模型的評估大都依賴數學、科學和程式設計基準，而涉及到更多方面的 BIG-Bench 及其更難的子集 BIG-Bench Hard（BBH）基準則正趨向飽和 —— 當前領先的模型在 BBH 上的準確度都已經超過 90%。因此，BBH 已經無力評估前沿模型的推理能力。

BBEH 便應運而生，其設計目標是「評估高階推理能力」。

BIG-Bench Extra Hard

BBEH 是基於 BBH 構建的——將 BBH 中的 23 個任務中的每一個都替換成了另一個在類似推理領域中並測試類似（或更多）技能的任務，當然，新任務的難度要大得多。這種替換方法可以確保新資料集保留了原始 BBH 資料集的高度多樣性。

表 1 給出了 BBEH 中新任務的高層級描述，包括它們是如何構建的以及它們替換了 BBH 中的哪個任務，以及它們針對哪些推理技能。

該基準中，每個任務包含 200 個問題，但 Disambiguation QA 任務例外，有 120 個問題。

下圖展示了一些具體任務示例：

該論文的詳細建立過程以及對 BBEH 資料集的分析請參閱原論文，下面我們重點來看看前沿模型在該基準上的表現以及相關分析結果。

模型表現及分析

首先來看各家前沿模型的表現如何，下表是準確度分數詳情。

根據此結果，該團隊得出了幾個有趣的觀察：

模型在各個任務上都有很大的進步空間，在 BBEH 整體上也是如此。
通用模型的最佳效能為 9.8% 的調和平均準確率。推理專用模型在該基準上的表現優於通用模型（符合預期），但這些模型在 BBEH 上的最佳效能仍只有 44.8%。
儘管採用了對抗性結構，但參考 Thinking 模型在 BBEH 上的調和平均準確率仍只有 20.2%。
一些模型的準確率甚至低於隨機效能。經檢查，他們發現原因大多是模型無法在有效輸出 token 長度內解決問題並在某個點之後開始退化，因此無法從其解答中提取出最終答案。

另外，還能看到不同模型擅長不同型別的推理。例如，DeepSeek R1 在 BoardgameQA 上的表現明顯優於其他模型，o3-mini (high) 在 Temporal Sequences 和 Object Properties 上的表現明顯優於其他模型，GPT4o 在 NYCC 上的表現明顯優於其他模型，GPT4o 和 Gemini 2.0 Flash 在 SARC Triples 上的表現明顯優於其他模型。

該團隊還進行了進一步的結果分析。

通用模型與推理模型

推理模型可以利用更多測試時間計算進行思考，因此在涉及數學和編碼的推理任務上實現了巨大的效能飛躍。例如，在 AIME2024 資料集上，GPT4o 的效能為 13.4%，但 o1 模型將其提高到 83.3%，o3-mini (high) 將其進一步提高到 87.3%。

在這裡，該團隊檢查了不同型別的一般推理是否也是如此。

如圖 5 所示，該團隊分別將 o3-mini (high) 和 GPT4o 作為推理和一般模型的模範，在 BBEH 的每個任務上進行了比較，並根據 o3-mini (high) 相對於 GPT4o 的增益程度對任務進行升序排序。

可以觀察到，增益最大的任務是那些涉及計數、規劃、算術以及資料結構和演算法的任務。而增益最少（有時為負值）的任務大多涉及常識、幽默、諷刺和因果關係。

結果表明，推理模型在解決形式化問題時會取得最顯著的收益，而在處理複雜的現實場景時（通常需要軟推理技能）則收益有限。

模型大小的影響

該團隊還探討了模型大小對模型效能的影響。

如圖 6 所示，他們在 BBEH 的不同任務上比較了 Gemini 2.0 Flash 和 Gemini 2.0 Flash-Lite，並根據 Flash 相對於 Flash-Lite 的收益按升序方式對任務進行排序。

雖然訊號不如將一般模型與推理模型進行比較時那麼清晰，但仍然可以觀察到與幽默、常識和因果推理相關的任務收益最少，而需要多跳推理或應用演算法的任務收益最大。

一個特殊的例外是 SARC Triples 任務，這是一個諷刺理解任務，並且收益很大。這可能部分是由於 SARC Triples 中的每個樣本都是三個子問題的組合，而較大的模型可能更擅長處理這種複合問題。

上下文長度和所需思考的影響

BBEH 中的任務具有不同的平均上下文長度，並且可能需要不同的思考量。基於此，可以瞭解上下文長度和所需思考對推理與一般模型以及較大模型與較小模型的影響。

圖 7 比較了 o3-mini (high) 與 GPT4o 以及 Gemini 2.0 Flash 與 Gemini 2.0 Flash-Lite 的效能，這裡使用了任務平均上下文長度和平均輸出長度作為所需思考的代理。

可以觀察到，無論是在上下文長度增加時，還是在所需思考增加時，o3-mini 的收益都比 GPT4o 更高；這表明與一般模型相比，推理模型在兩個方向上都可能有所改進。對於 Gemini 2.0 Flash 與 Gemini 2.0 Flash-Lite，可以看到當上下文長度增加時，收益也有類似的增長，但思考增加時，曲線基本保持平坦。

^{參考連結：}

^{https://x.com/kazemi_sm/status/1894935166952349955}

^{https://x.com/YiTayML/status/1894939679943991661}

谷歌：YouTube月登入使用者超過20億
2021-04-28
谷歌
Facebook 自然語言處理新突破：新模型能力趕超人類 & 超難 NLP 新基準
2019-09-17
自然語言處理模型
覆蓋40種語言：谷歌釋出多語言、多工NLP新基準XTREME
2020-04-14
谷歌REM
FastWiki v0.1.0釋出！新增超多功能
2024-03-14
AST
Forest v1.5.12 釋出，宣告式 HTTP 框架，已超過 1.6k star
2021-11-03
RESTHTTP框架
谷歌：安卓電視和谷歌電視月度活躍裝置超過1.1億臺
2022-01-19
谷歌安卓
谷歌：使用Google Play 的 Android 平板電腦已超過 1.75 億臺
2019-09-06
谷歌GoAndroid
Mixpanel：iOS 14釋出五天後 iPhone和iPad的使用率超過25%
2020-09-22
iOSiPhoneiPad
解決超級模型部署難題
2020-02-27
模型
OpenAI被偷家，谷歌Veo 2反超Sora
2024-12-17
OpenAI谷歌Sora
檢視更新科技釋出 View UI 元件庫（即 iView 4.0），超過50項更新
2019-10-10
ViewUI元件
僅用5M資料超過 OpenAI？快手最新 Code Embedding 模型 OASIS(綠洲)釋出
2024-11-29
OpenAI模型
Intel 12代酷睿低功耗P/U系列正式釋出：輕薄本超過250款
2022-02-28
Intel
PhpSpreadsheet匯出Excel超過26列解決辦法
2022-01-12
PHPExcel
美國上市公司賣出股票超過回購
2020-12-08
OpenAI o3-mini釋出：極強邏輯推理，速度精度雙突破！
2025-02-01
OpenAI
ThinkWithGoogle：世界盃在谷歌和YouTube上的搜尋量超過奧運會
2018-06-28
Go谷歌
谷歌 Android 12 Go 正式釋出！
2021-12-19
谷歌AndroidGo
Sensor Tower：哈遊《原神》移動端釋出6個月內吸金超過10億美元
2021-03-24
超多，超快，超強！百度飛槳釋出工業級影像分割利器PaddleSeg
2019-09-11
谷歌：截至2023年3月執行Android 13的裝置佔比超過 12%
2023-04-16
谷歌Android
《資訊保安技術災難恢復能力評估準則》正式釋出
2019-01-09
? Hyperf 釋出 v1.1.14 版本及超全域性變數元件
2020-01-10
變數元件
Adjust 釋出年度全球移動資料基準報告
2019-05-28
20年，只有谷歌曾經不同
2018-09-08
谷歌
谷歌釋出的Translatotron是什麼？
2019-05-18
谷歌
騰訊音樂IPO：估值或超300億美元但成本過高難盈利
2018-07-04
硬核觀察 #704 谷歌釋出開源開發語言 Carbon，準備替代 C++
2022-07-21
谷歌C++
Android技能樹 — 網路小結(6)之 OkHttp超超超超超超超詳細解析
2018-11-13
AndroidHTTP
超16億下載量！只有30人的Ketchapp是如何做超休閒遊戲發行的
2019-11-13
APP遊戲
谷歌版ChatGPT災難級釋出，市值一夜狂跌7000億，熬夜網友：退錢！
2023-02-10
谷歌ChatGPT
Go Search Extension 版本釋出! 一款超實用小工具
2020-04-23
Go
Cursor Cache Hit Ratio超過100%
2021-07-28
mysql 支援索引字元超過 767
2021-10-11
MySql索引字元
從零開始,Windows作業系統下的超詳細的阿里雲釋出專案過程
2020-08-11
Windows作業系統阿里
谷歌Flutter1.0正式版釋出
2018-12-05
谷歌Flutter
OpenAI和谷歌分別釋出重大更新
2024-02-16
OpenAI谷歌
《超級機器人大戰》系列累計出貨超過1900萬套，參戰作品數已達274部
2021-11-16
機器人
谷歌釋出輕量級視覺架構MobileNetV2，速度快準確率高
2018-04-04
谷歌視覺架構

谷歌釋出BIG-Bench超難基準：DeepSeek-R1得分6.8，只有o3-mini超過10分

相關文章