计算机科学 > 计算机视觉与模式识别
[提交于 2025年9月16日
]
标题: MapAnything:通用前馈度量3D重建
标题: MapAnything: Universal Feed-Forward Metric 3D Reconstruction
摘要: 我们引入了MapAnything,这是一个统一的基于Transformer的前馈模型,它能够接收一个或多个图像以及可选的几何输入,如相机内参、位姿、深度或部分重建结果,然后直接回归度量3D场景几何和相机。 MapAnything利用多视角场景几何的分解表示,即深度图、局部光线图、相机位姿和度量尺度因子的集合,这有效地将局部重建升级为全局一致的度量框架。 在不同数据集上标准化监督和训练,并结合灵活的输入增强,使MapAnything能够在一次前馈传递中解决广泛的3D视觉任务,包括未校准的运动恢复结构、校准的多视图立体视觉、单目深度估计、相机定位、深度补全等。 我们提供了广泛的实验分析和模型消融实验,证明MapAnything在性能上优于或等于专业前馈模型,同时提供更高效的联合训练行为,从而为通用的3D重建主干网络铺平道路。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.