计算机科学 > 计算机视觉与模式识别
            [提交于 2025年8月12日
            
            
            
            ]
          
          标题: RealisMotion:世界空间中分解的人体运动控制与视频生成
标题: RealisMotion: Decomposed Human Motion Control and Video Generation in the World Space
摘要: 生成具有真实且可控制动作的人类视频是一项具有挑战性的任务。 虽然现有方法可以生成视觉上引人注目的视频,但它们缺乏对四个关键视频元素的独立控制:前景主体、背景视频、人类轨迹和动作模式。 在本文中,我们提出了一种分解的人类动作控制和视频生成框架,该框架显式地将动作与外观、主体与背景以及动作与轨迹解耦,从而实现这些元素的灵活混合组合。 具体来说,我们首先构建一个基于地面的三维世界坐标系,并在三维空间中直接进行动作编辑。 通过焦距校准和坐标变换,将编辑后的二维轨迹反投影到三维空间中,随后进行速度对齐和方向调整;动作则通过动作库提供或通过文本到动作的方法生成。 然后,基于现代的文本到视频扩散变压器模型,我们将主体作为标记进行全注意力处理,沿通道维度拼接背景,并通过加法添加动作(轨迹和动作)控制信号。 这种设计使我们能够生成任何人任何地方的逼真视频。 在基准数据集和实际案例上的大量实验表明,我们的方法在元素级可控性和整体视频质量方面都达到了最先进的性能。
文献和引用工具
与本文相关的代码,数据和媒体
            alphaXiv (什么是 alphaXiv?)
          
        
            CatalyzeX 代码查找器 (什么是 CatalyzeX?)
          
        
            DagsHub (什么是 DagsHub?)
          
        
            Gotit.pub (什么是 GotitPub?)
          
        
            Hugging Face (什么是 Huggingface?)
          
        
            带有代码的论文 (什么是带有代码的论文?)
          
        
            ScienceCast (什么是 ScienceCast?)
          
        演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.
 
               
  