计算机科学 > 编程语言
[提交于 2025年7月16日
(v1)
,最后修订 2025年7月31日 (此版本, v2)]
标题: 一个计算匹配的重新评估在MATH上
标题: A Compute-Matched Re-Evaluation of TroVE on MATH
摘要: 重用已建立的定理和公式是数学问题解决的核心,它们作为处理日益复杂挑战的基本构建块。 最近的工作,TroVE,认为生成代码的大规模语言模型(LLMs)可以在MATH基准上类似地受益于引入和重用更高级的工具箱。 通过在三个模式的集合中分配计算预算——直接生成代码、创建工具和重用工具——TroVE声称其表现优于仅执行直接生成的PRIMITIVE基线。 然而,最近的分析(Berlot-Attwell等,2024年)对这些提升提出了质疑,指出所创建的工具通常很微不足道或很少被重用,这表明改进可能来自自我一致性或自我修正。 在本工作中,我们在MATH上重新评估了TroVE,分析了其每个模式的影响,并表明其优势并非来自这些机制,而是仅仅因为TroVE相比PRIMITIVE投入了更高的计算预算。 为此,我们还对TroVE原始选择机制的实现进行了一个小的修正,使TroVE在MATH上的准确率提高了3%。 在计算资源匹配后,TroVE的优势减少到1%的微小提升,这表明这种工具箱方法在MATH上并没有提供显著的优势。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.