“國家隊”評測30個大模型數學能力，九章、文心、星火位列前三

去年ChatGPT橫空出世後，我國也迎來“百模大戰”，大模型能力測評成為業界前沿課題。近日，大模型數學能力權威測評基準MathEval圍繞數學能力，對國內外30個大模型（含同一模型的不同版本）開展測評。根據測評結果，學而思九章、百度文心一言4.0、訊飛星火V3.5摘得前三名。其中，學而思旗下九章大模型在整體表現和中文、英文、各學段子榜單中，都具備領先優勢。

資料顯示，截至去年10月，國內累計釋出大模型超200個。大模型越來越多地被運用到數學應用領域，包括數學問題解決、資料分析、學術研究、學習輔導等。目前，通用或垂類大模型都具備一定的數學能力，而其能力表現則需要專門測評。不過現有大模型能力測評多數是對通用能力的測評，也有對推理能力、自然科學能力的專門測評中，但沒有專門針對數學能力測評的參考基準，以及專門的權威測評機構。

近日MathEval（官網：https://matheval.ai）的上線，彌補了行業空白。MathEval由智慧教育國家新一代人工智慧開放創新平臺聯合暨南大學、北京師範大學、華東師範大學、西安交通大學、香港城市大學共同發起，是一個專注於全面評估大模型數學能力的測評基準，旨在全面評估大模型在算術、小初高競賽和部分高等數學分支在內的解題能力表現。

截至目前，MathEval收集了2010年以來共19個被廣泛使用的數學能力測評資料集，這些資料集來自ACL、AAAI、ICLR等數十個國際人工智慧頂會論文中的公開資料，覆蓋了不同年級、題型、文字形式和難度的數學問題，從而提供全面、具體的數學能力測評結果。

最新這次測評中，MathEval測試了30個大模型。在評測過程中，MathEval團隊使用了GPT4大模型來進行答案抽取和答案的匹配，減少基於規則進行評測所帶來的誤差。結果顯示，九章大模型在整體榜單和子榜單均排第一名。

九章大模型是由學而思自主研發的、面向全球數學愛好者和科研機構的垂類大模型。據悉，該公司在相關研發方面已累計投入超10億元。可以說，作為少有的專注解題和講題演算法的大模型，九章這一表現並不意外。

同時，作為通用大模型的文心一言4.0、訊飛星火V3.5在測評中的表現也頗為亮眼，佔據了第二、三位，均優於GPT-4。由此可見，國產大模型在數學方面的能力已經實現了趕超，未來能力提升和落地應用值得期待。

相關文章