计算机科学 > 人工智能
[提交于 2025年8月10日
]
标题: EndoAgent:一种用于智能内窥镜视觉到决策推理的内存引导反思代理
标题: EndoAgent: A Memory-Guided Reflective Agent for Intelligent Endoscopic Vision-to-Decision Reasoning
摘要: 开发通用的人工智能(AI)系统以支持内窥镜图像诊断是一项新兴的研究重点。 基于大规模预训练的现有方法通常在任务之间缺乏统一的协调,难以处理复杂临床工作流程中所需的多步骤过程。 尽管AI代理在跨领域的灵活指令解析和工具集成方面显示出潜力,但其在内窥镜领域的潜力仍鲜有研究。 为解决这一差距,我们提出了EndoAgent,这是第一个基于记忆引导的视觉到决策的内窥镜分析代理,它结合了迭代推理与自适应工具选择和协作。 基于双记忆设计,它通过短期动作跟踪确保逻辑连贯性,并通过长期经验学习逐步提高推理敏锐度,从而实现复杂的决策。 为了支持多种临床任务,EndoAgent在一个统一的推理循环中集成了专家设计的一套工具。 我们进一步引入了EndoAgentBench,这是一个包含5,709个视觉问答对的基准,用于评估真实场景中的视觉理解和语言生成能力。 大量实验表明,EndoAgent始终优于通用和医学多模态模型,表现出其强大的灵活性和推理能力。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.