计算机科学 > 人工智能
[提交于 2025年8月9日
]
标题: K-密集分析员:迈向完全自动化的科学分析
标题: K-Dense Analyst: Towards Fully Automated Scientific Analysis
摘要: 现代生物信息学分析的复杂性在数据生成和科学见解的开发之间造成了关键的差距。 尽管大型语言模型(LLMs)在科学推理方面显示出潜力,但在处理需要迭代计算、工具集成和严格验证的实际分析工作流时,它们仍然存在根本性的限制。 我们引入了K-Dense Analyst,这是一个分层的多智能体系统,通过双循环架构实现自主的生物信息学分析。 K-Dense Analyst是更广泛的K-Dense平台的一部分,它使用专用代理将规划与经过验证的执行相结合,在安全的计算环境中将复杂目标分解为可执行和可验证的任务。 在BixBench上,这是一个用于开放生物分析的全面基准,K-Dense Analyst达到了29.2%的准确率,比表现最好的语言模型(GPT-5)高出6.3个百分点,这代表了比目前广泛认为最强大的LLM高出近27%的改进。 值得注意的是,K-Dense Analyst使用Gemini 2.5 Pro实现了这一性能,而当直接使用Gemini 2.5 Pro时,其准确率仅为18.3%,这表明我们的架构创新能够释放出远超基础模型基准性能的能力。 我们的见解表明,自主科学推理不仅仅需要增强的语言模型,还需要专门构建的系统,这些系统能够弥合高层次科学目标与低层次计算执行之间的差距。 这些结果标志着在完全自主的计算生物学家方面取得了重大进展,这些生物学家能够在生命科学领域加速发现。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.