计算机科学 > 计算机视觉与模式识别
[提交于 2025年9月16日
(v1)
,最后修订 2025年9月18日 (此版本, v2)]
标题: MINGLE:用于城市场景中语义复杂区域检测的视觉语言模型
标题: MINGLE: VLMs for Semantically Complex Region Detection in Urban Scenes
摘要: 理解公共空间中的群体级社会互动对于城市规划至关重要,这有助于设计出社会活力和包容性环境。 从图像中检测这种互动涉及解释诸如关系、接近度和共同运动等细微的视觉线索——这些语义复杂的信号超出了传统目标检测的范围。 为了解决这个挑战,我们引入了一个社交群体区域检测任务,该任务需要推断并空间定位由抽象人际关系定义的视觉区域。 我们提出了MINGLE(建模人际群体级参与),一个模块化的三阶段流程,包括:(1) 现成的人类检测和深度估计,(2) 基于视觉语言模型的推理来分类成对的社会归属,以及(3) 一种轻量级的空间聚合算法来定位社会连接的群体。 为了支持这项任务并鼓励未来的研究,我们提供了一个包含10万张城市街景图像的新数据集,这些图像带有个人和社会互动群体的边界框和标签。 这些标注结合了人工创建的标签和MINGLE流程的输出,确保了语义丰富性和现实场景的广泛覆盖。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.