Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2508.06960

帮助 | 高级搜索

计算机科学 > 人工智能

arXiv:2508.06960 (cs)
[提交于 2025年8月9日 ]

标题: 数据集研究:面向需求驱动的数据集发现的代理系统基准测试

标题: DatasetResearch: Benchmarking Agent Systems for Demand-Driven Dataset Discovery

Authors:Keyu Li, Mohan Jiang, Dayuan Fu, Yunze Wu, Xiangkun Hu, Dequan Wang, Pengfei Liu
摘要: 大型语言模型的快速发展从根本上改变了人工智能发展的瓶颈,从计算能力转向数据可用性——无数有价值的数据集仍然隐藏在专业存储库、研究附录和领域平台中。 随着推理能力和深度研究方法的不断发展,一个关键问题浮现:人工智能代理能否超越传统的搜索,系统地发现符合特定用户需求的任何数据集,从而实现真正自主的需求驱动型数据整理? 我们引入了DatasetResearch,这是首个全面的基准,用于评估人工智能代理从208个跨知识密集型和推理密集型任务的实际需求中发现和综合数据集的能力。 我们的三维评估框架揭示了一个严峻的现实:即使先进的深度研究系统在我们具有挑战性的DatasetResearch-pro子集上也只能获得22%的分数,这暴露了当前能力与完美数据集发现之间的巨大差距。 我们的分析揭示了一个根本性的二分法:搜索代理通过检索广度在知识任务中表现出色,而综合代理则通过结构化生成在推理挑战中占优——但两者在现有分布之外的“边缘情况”中都灾难性地失败。 这些发现建立了数据集发现代理的第一个严格基线,并指明了通往能够查找数字宇宙中任何数据集的人工智能系统的路径。 我们的基准和全面分析为下一代自我改进的人工智能系统奠定了基础,并可在 https://github.com/GAIR-NLP/DatasetResearch 公开获取。
摘要: The rapid advancement of large language models has fundamentally shifted the bottleneck in AI development from computational power to data availability-with countless valuable datasets remaining hidden across specialized repositories, research appendices, and domain platforms. As reasoning capabilities and deep research methodologies continue to evolve, a critical question emerges: can AI agents transcend conventional search to systematically discover any dataset that meets specific user requirements, enabling truly autonomous demand-driven data curation? We introduce DatasetResearch, the first comprehensive benchmark evaluating AI agents' ability to discover and synthesize datasets from 208 real-world demands across knowledge-intensive and reasoning-intensive tasks. Our tri-dimensional evaluation framework reveals a stark reality: even advanced deep research systems achieve only 22% score on our challenging DatasetResearch-pro subset, exposing the vast gap between current capabilities and perfect dataset discovery. Our analysis uncovers a fundamental dichotomy-search agents excel at knowledge tasks through retrieval breadth, while synthesis agents dominate reasoning challenges via structured generation-yet both catastrophically fail on "corner cases" outside existing distributions. These findings establish the first rigorous baseline for dataset discovery agents and illuminate the path toward AI systems capable of finding any dataset in the digital universe. Our benchmark and comprehensive analysis provide the foundation for the next generation of self-improving AI systems and are publicly available at https://github.com/GAIR-NLP/DatasetResearch.
主题: 人工智能 (cs.AI) ; 计算与语言 (cs.CL)
引用方式: arXiv:2508.06960 [cs.AI]
  (或者 arXiv:2508.06960v1 [cs.AI] 对于此版本)
  https://doi.org/10.48550/arXiv.2508.06960
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Mohan Jiang [查看电子邮件]
[v1] 星期六, 2025 年 8 月 9 日 12:15:08 UTC (1,856 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.AI
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-08
切换浏览方式为:
cs
cs.CL

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号