跟大模型說:要多想。
論文:《s1: Simple test-time scaling》
論文連結:https://arxiv.org/abs/2501.19393
專案連結:https://github.com/simplescaling/s1
序列擴充套件,即後續計算依賴於先前的計算結果;
並行擴充套件,即計算獨立執行。
AIME24 包含 30 個問題,這些問題來自 2024 年 1 月 31 日至 2 月 1 日舉行的美國 AIME 數學競賽。AIME 用來測試模型在算術、代數、計數、幾何、數論、機率等領域的能力;
MATH500 是一個包含不同難度競賽數學問題的基準;
GPQA Diamond 包含 198 個來自生物學、化學和物理學的博士級科學問題。