电气工程与系统科学 > 图像与视频处理
[提交于 2025年2月11日
(v1)
,最后修订 2025年2月14日 (此版本, v2)]
标题: 魔鬼藏在提示中:去识别化痕迹增强合成胸部X光生成的记忆风险
标题: The Devil is in the Prompts: De-Identification Traces Enhance Memorization Risks in Synthetic Chest X-Ray Generation
摘要: 生成模型,尤其是文本到图像(T2I)扩散模型,在医学图像分析中扮演着关键角色。然而,这些模型容易受到训练数据记忆的影响,从而对患者隐私构成重大风险。合成胸部X射线生成是医学图像分析中最常见的应用之一,MIMIC-CXR数据集作为该任务的主要数据存储库。本研究首次系统地尝试识别在MIMIC-CXR中对训练数据记忆贡献最大的提示和文本标记。我们的分析揭示了两个意外发现:(1) 包含去标识化程序痕迹(用于隐藏受保护健康信息的标记)的提示是最容易被记忆的,(2) 在所有标记中,去标识化标记对记忆贡献最大。这突显了标准匿名化实践与使用MIMIC-CXR的T2I合成中的一个更广泛问题。此外,现有的推理阶段记忆缓解策略无效,无法充分减少模型对记忆文本标记的依赖。在这方面,我们为不同利益相关者提出了可操作的策略,以增强隐私并提高医学成像中生成模型的可靠性。最后,我们的结果为未来基于MIMIC-CXR数据集开发和基准测试合成胸部X射线生成的记忆缓解技术奠定了基础。匿名代码可在https://anonymous.4open.science/r/diffusion_memorization-8011/ 获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.