Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2510.01227v1

帮助 | 高级搜索

计算机科学 > 计算与语言

arXiv:2510.01227v1 (cs)
[提交于 2025年9月23日 ]

标题: EEFSUVA:一个新的数学奥林匹克基准

标题: EEFSUVA: A New Mathematical Olympiad Benchmark

Authors:Nicole N Khatibi, Daniil A. Radamovich, Michael P. Brenner
摘要: 最近的突破引发了这样的说法,即大型语言模型(LLMs)在数学基准测试中达到了金牌奥林匹克竞赛到研究生水平的熟练程度。 在本工作中,我们详细检查了这些说法,并评估了当前基准测试在多大程度上能够捕捉真正的LLM数学推理能力。 这些基准测试的组成主要来自于国际数学奥林匹克竞赛(IMO)及相关竞赛,由于潜在的数据污染和对熟悉题型的狭窄关注,可能会高估模型的推理能力。 为了实现对数学理解更全面的评估,我们引入了EEFSUVA,这是一个从东欧和前苏联国家的区域和国家级奥林匹克竞赛中精心挑选的新基准。 这些比赛的问题难度与IMO相当,并以要求非标准解题技巧而闻名,但它们的问题在在线语料库中却远不如其他常见。 初步结果表明,即使是最先进的LLM在EEFSUVA上的表现也相对于其他奥林匹克风格的基准有显著下降。 这些发现还表明,更广泛的评估数据集对于更全面地评估数学推理和指导未来模型开发可能具有重要意义。
摘要: Recent breakthroughs have spurred claims that large language models (LLMs) match gold medal Olympiad to graduate level proficiency on mathematics benchmarks. In this work, we examine these claims in detail and assess the extent to which current benchmarks capture genuine LLM mathematical reasoning. The composition of these benchmarks, primarily drawing from the International Mathematics Olympiad (IMO) and related competitions, may overstate models reasoning ability due to potential data contamination and a narrow focus on familiar problem types. To enable a more holistic assessment of mathematical understanding, we introduce EEFSUVA, a novel benchmark curated from under circulated regional and national Olympiads of Eastern Europe and the countries from the former Soviet Union. These contests feature problems of comparable difficulty to the IMO and are renowned for demanding nonstandard problem-solving techniques, yet their problems are far less prevalent in online corpora. Preliminary results suggest that even state-of-the-art LLMs exhibit a notable performance decline on EEFSUVA relative to other Olympiad-style benchmarks. These findings also suggest the potential importance of broader evaluation datasets for a fuller assessment of mathematical reasoning and for guiding future model development.
评论: 16页,5图
主题: 计算与语言 (cs.CL) ; 历史与概述 (math.HO)
引用方式: arXiv:2510.01227 [cs.CL]
  (或者 arXiv:2510.01227v1 [cs.CL] 对于此版本)
  https://doi.org/10.48550/arXiv.2510.01227
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Nicole Khatibi [查看电子邮件]
[v1] 星期二, 2025 年 9 月 23 日 01:57:56 UTC (20 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
查看许可
当前浏览上下文:
cs.CL
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-10
切换浏览方式为:
cs
math
math.HO

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号