计算机科学 > 计算机视觉与模式识别
[提交于 2025年9月16日
]
标题: 超越平均值:使用高斯点云和嵌入集合的开放词汇3D场景理解
标题: Beyond Averages: Open-Vocabulary 3D Scene Understanding with Gaussian Splatting and Bag of Embeddings
摘要: 基于3D高斯点云(3DGS)的新型视角合成取得了显著进展,实现了实时逼真的渲染效果。然而,高斯点云固有的模糊性对3D场景理解提出了挑战,限制了其在增强现实/虚拟现实(AR/VR)和机器人技术中的广泛应用。尽管近期工作尝试通过2D基础模型蒸馏来学习语义,但它们继承了根本性的局限:alpha混合在对象之间平均语义,使得3D级别的理解成为不可能。我们提出了一种范式转变的替代方法,完全绕过了通过可微分渲染获取语义。我们的关键见解是利用预分解的对象级高斯分布,并通过多视角CLIP特征聚合来表示每个对象,创建全面的“嵌入包”,以整体描述对象。这使得:(1) 通过将文本查询与对象级(而非高斯级)嵌入进行比较,实现准确的开放词汇对象检索,以及(2) 无缝的任务适应:将对象ID传播到像素用于2D分割或传播到高斯分布用于3D提取。实验表明,我们的方法有效克服了3D开放词汇对象提取的挑战,同时在2D开放词汇分割方面保持与最先进性能相当,确保最小的妥协。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.