计算机科学 > 计算机视觉与模式识别
[提交于 2025年8月3日
]
标题: 从像素到地点:大型语言模型图像地理定位能力的系统基准
标题: From Pixels to Places: A Systematic Benchmark for Evaluating Image Geolocalization Ability in Large Language Models
摘要: 图像地理定位,即识别图像中描绘的地理位置,对于危机响应、数字取证和基于位置的情报应用非常重要。 尽管大型语言模型(LLMs)的最新进展为视觉推理提供了新的机会,但它们在图像地理定位方面的能力仍鲜有研究。 在本研究中,我们引入了一个名为IMAGEO-Bench的基准,用于系统评估准确性、距离误差、地理空间偏差和推理过程。 我们的基准包括三个多样化的数据集,涵盖全球街景、美国的感兴趣点(POIs)以及一个私人收藏的未见过的图像。 通过对10个最先进的LLMs进行实验,包括开源和闭源模型,我们揭示了明显的性能差异,闭源模型通常表现出更强的推理能力。 重要的是,我们发现LLMs存在地理空间偏差,它们在高资源地区(例如北美、西欧和加利福尼亚)表现更好,而在代表性不足的地区表现下降。 回归诊断表明,成功的地理定位主要依赖于识别城市环境、户外环境、街道级图像和可识别地标。 总体而言,IMAGEO-Bench为LLMs的空间推理能力提供了一个严格的观察视角,并为构建具有地理定位意识的人工智能系统提供了启示。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.