计算机科学 > 计算机视觉与模式识别
[提交于 2025年8月2日
]
标题: Can3Tok:场景级3D高斯的规范3D标记化和潜在建模
标题: Can3Tok: Canonical 3D Tokenization and Latent Modeling of Scene-Level 3D Gaussians
摘要: 3D生成已经取得了显著进展,然而,它仍然主要停留在物体级别。由于缺乏能够在3D场景级别数据上进行扩展潜在表示学习的模型,前馈3D场景级别生成很少被探索。与在有界规范空间中使用良好标记的3D数据进行训练的物体级别生成模型不同,由3D高斯点云(3DGS)表示的3D场景是无界的,并且在不同场景之间表现出尺度不一致,这使得为生成目的进行统一的潜在表示学习极具挑战性。在本文中,我们引入了Can3Tok,这是第一个能够将大量高斯原始对象编码为低维潜在嵌入的3D场景级别变分自编码器(VAE),它能够有效捕捉输入的语义和空间信息。除了模型设计,我们还提出了一种通用的3D场景数据处理流程来解决尺度不一致问题。我们在最近的场景级别3D数据集DL3DV-10K上验证了我们的方法,结果发现只有Can3Tok能够成功泛化到新的3D场景,而与其他方法相比,在训练过程中甚至在几百个场景输入上都无法收敛,并且在推理过程中表现出零泛化能力。最后,我们展示了图像到3DGS和文本到3DGS生成作为我们的应用,以展示其促进下游生成任务的能力。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.