计算机科学 > 人工智能
[提交于 2025年8月9日
]
标题: 数据集研究:面向需求驱动的数据集发现的代理系统基准测试
标题: DatasetResearch: Benchmarking Agent Systems for Demand-Driven Dataset Discovery
摘要: 大型语言模型的快速发展从根本上改变了人工智能发展的瓶颈,从计算能力转向数据可用性——无数有价值的数据集仍然隐藏在专业存储库、研究附录和领域平台中。 随着推理能力和深度研究方法的不断发展,一个关键问题浮现:人工智能代理能否超越传统的搜索,系统地发现符合特定用户需求的任何数据集,从而实现真正自主的需求驱动型数据整理? 我们引入了DatasetResearch,这是首个全面的基准,用于评估人工智能代理从208个跨知识密集型和推理密集型任务的实际需求中发现和综合数据集的能力。 我们的三维评估框架揭示了一个严峻的现实:即使先进的深度研究系统在我们具有挑战性的DatasetResearch-pro子集上也只能获得22%的分数,这暴露了当前能力与完美数据集发现之间的巨大差距。 我们的分析揭示了一个根本性的二分法:搜索代理通过检索广度在知识任务中表现出色,而综合代理则通过结构化生成在推理挑战中占优——但两者在现有分布之外的“边缘情况”中都灾难性地失败。 这些发现建立了数据集发现代理的第一个严格基线,并指明了通往能够查找数字宇宙中任何数据集的人工智能系统的路径。 我们的基准和全面分析为下一代自我改进的人工智能系统奠定了基础,并可在 https://github.com/GAIR-NLP/DatasetResearch 公开获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.