计算机科学 > 图形学
[提交于 2025年10月9日
]
标题: X2Video:适应扩散模型的多模态可控制神经视频渲染
标题: X2Video: Adapting Diffusion Models for Multimodal Controllable Neural Video Rendering
摘要: 我们提出X2Video,这是第一个基于内在通道(包括反照率、法线、粗糙度、金属度和辐照度)生成逼真视频的扩散模型,同时支持通过参考图像和文本提示对全局和局部区域进行直观的多模态控制。 内在引导允许对颜色、材质、几何和光照进行精确操作,而参考图像和文本提示在缺乏内在信息的情况下提供了直观的调整方式。 为了实现这些功能,我们通过采用一种新颖且高效的混合自注意力机制,将基于内在引导的图像生成模型XRGB扩展到视频生成,这确保了视频帧之间的时序一致性,并提高了与参考图像的一致性。 我们进一步开发了一种掩码交叉注意力机制,以分离全局和局部文本提示,并将其有效地应用于相应的局部和全局区域。 为了生成长视频,我们的新方法递归采样结合了关键帧预测和帧插值,以保持长距离时序一致性的同时防止误差累积。 为了支持X2Video的训练,我们整理了一个名为InteriorVideo的视频数据集,包含来自295个室内场景的1,154个房间,配有可靠的地面真实内在通道序列和平滑的相机轨迹。 定性和定量评估表明,X2Video可以在内在条件的引导下生成长时序一致且逼真的视频。 此外,X2Video能够有效适应多模态控制,包括参考图像、全局和局部文本提示,并通过参数调节能同时支持对颜色、材质、几何和光照的编辑。 项目页面:https://luckyhzt.github.io/x2video
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.