电气工程与系统科学 > 图像与视频处理
[提交于 2025年8月12日
]
标题: AMRG:扩展视觉语言模型以用于自动乳腺X线摄影报告生成
标题: AMRG: Extend Vision Language Models for Automatic Mammography Report Generation
摘要: 乳腺摄影报告生成是医疗人工智能中一个关键但研究不足的任务,其特点包括多视图图像推理、高分辨率视觉线索和非结构化的放射学语言。 在本工作中,我们引入了AMRG(自动乳腺摄影报告生成),这是首个使用大型视觉-语言模型(VLMs)生成叙述性乳腺摄影报告的端到端框架。 基于MedGemma-4B-it这一领域专业化、指令调优的视觉-语言模型,我们通过低秩适应(LoRA)采用了一种参数高效的微调(PEFT)策略,实现了计算开销最小的轻量级适应。 我们在DMID上训练和评估AMRG,这是一个公开可用的配对高分辨率乳腺X光片和诊断报告的数据集。 这项工作建立了乳腺摄影报告生成的第一个可重复基准,解决了多模态临床人工智能中的长期空白。 我们系统地探索了LoRA超参数配置,并在多个VLM主干模型上进行了比较实验,包括在统一调优协议下的领域特定和通用模型。 我们的框架在语言生成和临床指标方面表现出色,达到了ROUGE-L得分为0.5691,METEOR为0.6152,CIDEr为0.5818,BI-RADS准确率为0.5582。 定性分析进一步突显了诊断一致性的提高和幻觉的减少。 AMRG为放射学报告生成提供了一个可扩展和可适应的基础,并为多模态医疗人工智能的未来研究铺平了道路。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.