计算机科学 > 计算机视觉与模式识别
[提交于 2025年8月9日
]
标题: 可信的医学影像:大型语言模型在跨模态幻觉方面的研究
标题: Trustworthy Medical Imaging with Large Language Models: A Study of Hallucinations Across Modalities
摘要: 大型语言模型(LLMs)越来越多地应用于医学影像任务,包括图像解释和合成图像生成。 然而,这些模型经常产生幻觉,即自信但错误的输出,可能会误导临床决策。 本研究从两个方向审视幻觉:图像到文本,其中LLMs从X光、CT或MRI扫描生成报告;文本到图像,其中模型从临床提示生成医学图像。 我们分析了事实不一致和解剖不准确等错误,并使用专家指导的标准在不同成像模式下评估输出。 我们的研究结果揭示了在解释性和生成性任务中常见的幻觉模式,对临床可靠性具有影响。 我们还讨论了导致这些失败的因素,包括模型架构和训练数据。 通过系统研究图像理解和生成,这项工作提供了改进LLM驱动的医学影像系统安全性和可信度的见解。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.