计算机科学 > 图形学
[提交于 2025年10月4日
(v1)
,最后修订 2025年10月11日 (此版本, v2)]
标题: 通过对比噪声优化的多样化文本到图像生成
标题: Diverse Text-to-Image Generation via Contrastive Noise Optimization
摘要: 文本到图像(T2I)扩散模型在生成高保真图像方面表现出色,这主要得益于文本引导的推理。然而,这种优势通常伴随着一个关键缺点:多样性有限,因为输出在强文本引导下往往陷入相似的模式。现有方法通常在推理过程中优化中间潜在变量或文本条件,但这些方法仅带来适度的改进,或者对超参数调整仍很敏感。在本工作中,我们引入了对比噪声优化,这是一种简单而有效的方法,从不同的角度解决了多样性问题。与之前适应中间潜在变量的技术不同,我们的方法通过塑造初始噪声来促进多样化的输出。具体来说,我们在Tweedie数据空间中定义了一个对比损失,并优化一批噪声潜在变量。我们的对比优化使批次内的实例相互排斥,以最大化多样性,同时保持它们与参考样本的锚定关系,以保留保真度。我们进一步提供了对这种预处理机制的理论见解,以证明其有效性。在多个T2I骨干模型上的广泛实验表明,我们的方法在保持对超参数选择鲁棒性的同时,实现了更优的质量-多样性帕累托前沿。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.