计算机科学 > 计算机视觉与模式识别
[提交于 2025年10月2日
]
标题: 学习生成物理引导的视频扩散对象交互
标题: Learning to Generate Object Interactions with Physics-Guided Video Diffusion
摘要: 最近的视频生成模型取得了显著进展,并已应用于电影、社交媒体制作和广告中。 除了其创造潜力外,这些模型在机器人和具身决策的世界模拟器方面也展现出前景。 尽管取得了显著进展,但目前的方法仍然难以生成物理上合理的物体交互,并缺乏基于物理的控制机制。 为解决这一限制,我们引入了KineMask,这是一种用于物理引导视频生成的方法,能够实现真实的刚体控制、交互和效果。 给定一张图像和指定的物体速度,我们的方法生成具有推断运动和未来物体交互的视频。 我们提出了一种两阶段训练策略,通过物体掩码逐步移除未来运动监督。 使用这种策略,我们在简单交互的合成场景上训练视频扩散模型(VDMs),并在真实场景中展示了物体交互的显著改进。 此外, KineMask通过预测场景描述将低层次运动控制与高层次文本条件结合,从而有效支持复杂动态现象的合成。 大量实验表明, KineMask在与近期同类模型相比时表现出显著提升。 消融研究进一步突显了VDMs中低层次和高层次条件的互补作用。 我们的代码、模型和数据将公开提供。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.