Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2601.04996

帮助 | 高级搜索

计算机科学 > 人工智能

arXiv:2601.04996 (cs)
[提交于 2026年1月8日 (v1) ,最后修订 2026年1月9日 (此版本, v2)]

标题: AlgBench:大推理模型对算法的了解程度有多深?

标题: AlgBench: To What Extent Do Large Reasoning Models Understand Algorithms?

Authors:Henan Sun, Kaichi Yu, Yuyao Wang, Bowen Liu, Xunkai Li, Rong-Hua Li, Nuo Chen, Jia Li
摘要: 推理能力已成为大型推理模型(LRMs)发展中的核心焦点。 尽管在MATH500和LiveCodeBench等几个推理基准上取得了显著进展,但现有的算法推理基准仍然有限,无法回答一个关键问题:LRMs是否真正掌握了算法推理? 为了解答这个问题,我们提出了AlgBench,这是一个由专家精心挑选的基准,它在以算法为中心的范式下评估LRMs。 AlgBench包含超过3000个原始问题,涵盖了27种算法,由ACM算法专家构建,并按照一个全面的分类体系进行组织,包括欧几里得结构、非欧几里得结构、非优化、局部优化、全局优化和启发式优化类别。 对领先LRMs(例如Gemini-3-Pro、DeepSeek-v3.2-Speciale和GPT-o3)的实证评估揭示了显著的性能异质性:虽然模型在非优化任务上的表现良好(最高达92%),但在动态规划等全局优化算法上的准确率急剧下降至约49%。 进一步分析发现了\textbf{战略过度转移},在此情况下,由于必要的低熵标记,模型过早地放弃了正确的算法设计。 这些发现暴露了以问题为中心的强化学习的根本局限性,并突显了采用以算法为中心的训练范式对于强大算法推理的必要性。
摘要: Reasoning ability has become a central focus in the advancement of Large Reasoning Models (LRMs). Although notable progress has been achieved on several reasoning benchmarks such as MATH500 and LiveCodeBench, existing benchmarks for algorithmic reasoning remain limited, failing to answer a critical question: Do LRMs truly master algorithmic reasoning? To answer this question, we propose AlgBench, an expert-curated benchmark that evaluates LRMs under an algorithm-centric paradigm. AlgBench consists of over 3,000 original problems spanning 27 algorithms, constructed by ACM algorithmic experts and organized under a comprehensive taxonomy, including Euclidean-structured, non-Euclidean-structured, non-optimized, local-optimized, global-optimized, and heuristic-optimized categories. Empirical evaluations on leading LRMs (e.g., Gemini-3-Pro, DeepSeek-v3.2-Speciale and GPT-o3) reveal substantial performance heterogeneity: while models perform well on non-optimized tasks (up to 92%), accuracy drops sharply to around 49% on globally optimized algorithms such as dynamic programming. Further analysis uncovers \textbf{strategic over-shifts}, wherein models prematurely abandon correct algorithmic designs due to necessary low-entropy tokens. These findings expose fundamental limitations of problem-centric reinforcement learning and highlight the necessity of an algorithm-centric training paradigm for robust algorithmic reasoning.
评论: 正在审核中
主题: 人工智能 (cs.AI)
引用方式: arXiv:2601.04996 [cs.AI]
  (或者 arXiv:2601.04996v2 [cs.AI] 对于此版本)
  https://doi.org/10.48550/arXiv.2601.04996
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Henan Sun [查看电子邮件]
[v1] 星期四, 2026 年 1 月 8 日 14:54:44 UTC (2,752 KB)
[v2] 星期五, 2026 年 1 月 9 日 04:04:56 UTC (2,743 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
查看许可
当前浏览上下文:
cs.AI
< 上一篇   |   下一篇 >
新的 | 最近的 | 2026-01
切换浏览方式为:
cs

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号