Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2508.07043

帮助 | 高级搜索

计算机科学 > 人工智能

arXiv:2508.07043 (cs)
[提交于 2025年8月9日 ]

标题: K-密集分析员:迈向完全自动化的科学分析

标题: K-Dense Analyst: Towards Fully Automated Scientific Analysis

Authors:Orion Li, Vinayak Agarwal, Summer Zhou, Ashwin Gopinath, Timothy Kassis
摘要: 现代生物信息学分析的复杂性在数据生成和科学见解的开发之间造成了关键的差距。 尽管大型语言模型(LLMs)在科学推理方面显示出潜力,但在处理需要迭代计算、工具集成和严格验证的实际分析工作流时,它们仍然存在根本性的限制。 我们引入了K-Dense Analyst,这是一个分层的多智能体系统,通过双循环架构实现自主的生物信息学分析。 K-Dense Analyst是更广泛的K-Dense平台的一部分,它使用专用代理将规划与经过验证的执行相结合,在安全的计算环境中将复杂目标分解为可执行和可验证的任务。 在BixBench上,这是一个用于开放生物分析的全面基准,K-Dense Analyst达到了29.2%的准确率,比表现最好的语言模型(GPT-5)高出6.3个百分点,这代表了比目前广泛认为最强大的LLM高出近27%的改进。 值得注意的是,K-Dense Analyst使用Gemini 2.5 Pro实现了这一性能,而当直接使用Gemini 2.5 Pro时,其准确率仅为18.3%,这表明我们的架构创新能够释放出远超基础模型基准性能的能力。 我们的见解表明,自主科学推理不仅仅需要增强的语言模型,还需要专门构建的系统,这些系统能够弥合高层次科学目标与低层次计算执行之间的差距。 这些结果标志着在完全自主的计算生物学家方面取得了重大进展,这些生物学家能够在生命科学领域加速发现。
摘要: The complexity of modern bioinformatics analysis has created a critical gap between data generation and developing scientific insights. While large language models (LLMs) have shown promise in scientific reasoning, they remain fundamentally limited when dealing with real-world analytical workflows that demand iterative computation, tool integration and rigorous validation. We introduce K-Dense Analyst, a hierarchical multi-agent system that achieves autonomous bioinformatics analysis through a dual-loop architecture. K-Dense Analyst, part of the broader K-Dense platform, couples planning with validated execution using specialized agents to decompose complex objectives into executable, verifiable tasks within secure computational environments. On BixBench, a comprehensive benchmark for open-ended biological analysis, K-Dense Analyst achieves 29.2% accuracy, surpassing the best-performing language model (GPT-5) by 6.3 percentage points, representing nearly 27% improvement over what is widely considered the most powerful LLM available. Remarkably, K-Dense Analyst achieves this performance using Gemini 2.5 Pro, which attains only 18.3% accuracy when used directly, demonstrating that our architectural innovations unlock capabilities far beyond the underlying model's baseline performance. Our insights demonstrate that autonomous scientific reasoning requires more than enhanced language models, it demands purpose-built systems that can bridge the gap between high-level scientific objectives and low-level computational execution. These results represent a significant advance toward fully autonomous computational biologists capable of accelerating discovery across the life sciences.
主题: 人工智能 (cs.AI) ; 多智能体系统 (cs.MA); 基因组学 (q-bio.GN); 定量方法 (q-bio.QM)
引用方式: arXiv:2508.07043 [cs.AI]
  (或者 arXiv:2508.07043v1 [cs.AI] 对于此版本)
  https://doi.org/10.48550/arXiv.2508.07043
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Ashwin Gopinath [查看电子邮件]
[v1] 星期六, 2025 年 8 月 9 日 16:59:55 UTC (2,571 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.AI
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-08
切换浏览方式为:
cs
cs.MA
q-bio
q-bio.GN
q-bio.QM

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号