计算机科学 > 计算机视觉与模式识别
            [提交于 2025年8月11日
            
            
            
            ]
          
          标题: DiffVC-OSD:一步扩散式感知神经视频压缩框架
标题: DiffVC-OSD: One-Step Diffusion-based Perceptual Neural Video Compression Framework
摘要: 在本工作中,我们首先提出DiffVC-OSD,一种单步扩散的感知神经视频压缩框架。 与传统的多步扩散方法不同,DiffVC-OSD将重建的潜在表示直接输入到单步扩散模型中,通过时间上下文和潜在表示本身的引导,提高感知质量。 为了更好地利用时间依赖性,我们设计了一个时间上下文适配器,将条件输入编码为多级特征,为去噪U-Net提供更细粒度的指导。 此外,我们采用端到端微调策略以提高整体压缩性能。 大量实验表明,DiffVC-OSD实现了最先进的感知压缩性能,相比对应的多步扩散变体,解码速度提高了约20$\times$,比特率降低了86.92%。
文献和引用工具
与本文相关的代码,数据和媒体
            alphaXiv (什么是 alphaXiv?)
          
        
            CatalyzeX 代码查找器 (什么是 CatalyzeX?)
          
        
            DagsHub (什么是 DagsHub?)
          
        
            Gotit.pub (什么是 GotitPub?)
          
        
            Hugging Face (什么是 Huggingface?)
          
        
            带有代码的论文 (什么是带有代码的论文?)
          
        
            ScienceCast (什么是 ScienceCast?)
          
        演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.
 
  