计算机科学 > 计算机视觉与模式识别
[提交于 2025年8月3日
]
标题: LLaDA-MedV:探索用于生物医学图像理解的大型语言扩散模型
标题: LLaDA-MedV: Exploring Large Language Diffusion Models for Biomedical Image Understanding
摘要: 自回归模型(ARMs)长期以来在生物医学视觉语言模型(VLMs)领域占据主导地位。最近,如LLaDA之类的掩码扩散模型作为有前途的替代方案出现,但它们在生物医学领域的应用仍大多未被探索。为了填补这一空白,我们引入了\textbf{LLaDA-MedV},这是第一个通过视觉指令微调专门用于生物医学图像理解的大语言扩散模型。LLaDA-MedV在开放式生物医学视觉对话任务中相对于LLaVA-Med提高了7.855%的性能,相对于LLaDA-V提高了1.867%,并在三个VQA基准测试的封闭形式子集上设定了新的最先进准确率:在VQA-RAD上达到84.93%,在SLAKE上达到92.31%,在PathVQA上达到95.15%。此外,与LLaVA-Med的详细比较表明,LLaDA-MedV能够通过显式控制响应长度生成相对更长的响应,这可能导致更丰富的输出。我们还对训练和推理阶段进行了深入分析,强调了初始化权重选择、微调策略以及采样步骤与响应重复之间的相互作用的关键作用。代码和模型权重已发布在https://github.com/LLM-VLM-GSL/LLaDA-MedV。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.