计算机科学 > 计算机视觉与模式识别
[提交于 2025年10月2日
]
标题: DragFlow:基于区域监督的拖动编辑中DiT先验的释放
标题: DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing
摘要: 基于拖动的图像编辑长期以来在目标区域遭受失真,这主要是因为早期基础模型Stable Diffusion的先验知识不足以将优化后的潜在表示投影到自然图像流形上。 随着从基于UNet的DDPMs转向更具可扩展性的DiT与流匹配(例如SD3.5、FLUX),生成先验知识变得显著更强,从而在各种编辑任务中取得了进展。 然而,基于拖动的编辑尚未受益于这些更强的先验知识。 本工作提出了第一个有效利用FLUX丰富先验的基于拖动的编辑框架,称为DragFlow,在基线上取得了显著提升。 我们首先表明,直接将基于点的拖动编辑应用于DiT效果不佳:与UNet的高度压缩特征不同,DiT特征结构不足,无法为逐点运动监督提供可靠指导。 为了克服这一限制,DragFlow引入了一种基于区域的编辑范式,其中仿射变换能够提供更丰富且一致的特征监督。 此外,我们集成了预训练的开放领域个性化适配器(例如IP-Adapter)以增强主体一致性,同时通过基于梯度掩码的硬约束保持背景保真度。 多模态大语言模型(MLLMs)进一步用于解决任务歧义。 在评估方面,我们整理了一个新的基于区域的拖动基准(ReD Bench),包含区域级别的拖动指令。 在DragBench-DR和ReD Bench上的大量实验表明,DragFlow超越了基于点和基于区域的基线,在基于拖动的图像编辑中达到了新的最先进水平。 代码和数据集将在发表后公开。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.