Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2509.12938

帮助 | 高级搜索

计算机科学 > 计算机视觉与模式识别

arXiv:2509.12938 (cs)
[提交于 2025年9月16日 ]

标题: 超越平均值:使用高斯点云和嵌入集合的开放词汇3D场景理解

标题: Beyond Averages: Open-Vocabulary 3D Scene Understanding with Gaussian Splatting and Bag of Embeddings

Authors:Abdalla Arafa, Didier Stricker
摘要: 基于3D高斯点云(3DGS)的新型视角合成取得了显著进展,实现了实时逼真的渲染效果。然而,高斯点云固有的模糊性对3D场景理解提出了挑战,限制了其在增强现实/虚拟现实(AR/VR)和机器人技术中的广泛应用。尽管近期工作尝试通过2D基础模型蒸馏来学习语义,但它们继承了根本性的局限:alpha混合在对象之间平均语义,使得3D级别的理解成为不可能。我们提出了一种范式转变的替代方法,完全绕过了通过可微分渲染获取语义。我们的关键见解是利用预分解的对象级高斯分布,并通过多视角CLIP特征聚合来表示每个对象,创建全面的“嵌入包”,以整体描述对象。这使得:(1) 通过将文本查询与对象级(而非高斯级)嵌入进行比较,实现准确的开放词汇对象检索,以及(2) 无缝的任务适应:将对象ID传播到像素用于2D分割或传播到高斯分布用于3D提取。实验表明,我们的方法有效克服了3D开放词汇对象提取的挑战,同时在2D开放词汇分割方面保持与最先进性能相当,确保最小的妥协。
摘要: Novel view synthesis has seen significant advancements with 3D Gaussian Splatting (3DGS), enabling real-time photorealistic rendering. However, the inherent fuzziness of Gaussian Splatting presents challenges for 3D scene understanding, restricting its broader applications in AR/VR and robotics. While recent works attempt to learn semantics via 2D foundation model distillation, they inherit fundamental limitations: alpha blending averages semantics across objects, making 3D-level understanding impossible. We propose a paradigm-shifting alternative that bypasses differentiable rendering for semantics entirely. Our key insight is to leverage predecomposed object-level Gaussians and represent each object through multiview CLIP feature aggregation, creating comprehensive "bags of embeddings" that holistically describe objects. This allows: (1) accurate open-vocabulary object retrieval by comparing text queries to object-level (not Gaussian-level) embeddings, and (2) seamless task adaptation: propagating object IDs to pixels for 2D segmentation or to Gaussians for 3D extraction. Experiments demonstrate that our method effectively overcomes the challenges of 3D open-vocabulary object extraction while remaining comparable to state-of-the-art performance in 2D open-vocabulary segmentation, ensuring minimal compromise.
主题: 计算机视觉与模式识别 (cs.CV)
引用方式: arXiv:2509.12938 [cs.CV]
  (或者 arXiv:2509.12938v1 [cs.CV] 对于此版本)
  https://doi.org/10.48550/arXiv.2509.12938
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Abdalla Arafa [查看电子邮件]
[v1] 星期二, 2025 年 9 月 16 日 10:39:37 UTC (1,672 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.CV
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-09
切换浏览方式为:
cs

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号