
論文標題:BIG-Bench Extra Hard
論文地址:https://arxiv.org/pdf/2502.19187
資料地址:https://github.com/google-deepmind/bbeh






模型在各個任務上都有很大的進步空間,在 BBEH 整體上也是如此。 通用模型的最佳效能為 9.8% 的調和平均準確率。推理專用模型在該基準上的表現優於通用模型(符合預期),但這些模型在 BBEH 上的最佳效能仍只有 44.8%。 儘管採用了對抗性結構,但參考 Thinking 模型在 BBEH 上的調和平均準確率仍只有 20.2%。 一些模型的準確率甚至低於隨機效能。經檢查,他們發現原因大多是模型無法在有效輸出 token 長度內解決問題並在某個點之後開始退化,因此無法從其解答中提取出最終答案。


