计算机科学 > 计算机视觉与模式识别
[提交于 2025年8月3日
]
标题: 基于图像到视频扩散的多功能过渡生成
标题: Versatile Transition Generation with Image-to-Video Diffusion
摘要: 利用文本、图像、结构图或运动轨迹作为条件引导,扩散模型在自动且高质量的视频生成方面取得了巨大成功。 然而,在给定第一帧和最后一帧视频以及描述性文本提示的情况下生成平滑且合理的过渡视频仍研究不足。 我们提出了VTG,一个多功能的过渡视频生成框架,能够生成平滑、高保真且语义连贯的视频过渡。 VTG引入了基于插值的初始化,有助于保持对象身份并有效处理突然的内容变化。 此外,它结合了双向运动微调和表示对齐正则化,分别缓解预训练图像到视频扩散模型在运动平滑性和生成保真度方面的局限性。 为了评估VTG并促进未来在统一过渡生成方面的研究,我们收集了TransitBench,一个涵盖两个代表性过渡任务的全面基准:概念融合和场景过渡。 大量实验表明,VTG在所有四个任务中始终表现出优越的过渡性能。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.