Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2508.01608

帮助 | 高级搜索

计算机科学 > 计算机视觉与模式识别

arXiv:2508.01608 (cs)
[提交于 2025年8月3日 ]

标题: 从像素到地点:大型语言模型图像地理定位能力的系统基准

标题: From Pixels to Places: A Systematic Benchmark for Evaluating Image Geolocalization Ability in Large Language Models

Authors:Lingyao Li, Runlong Yu, Qikai Hu, Bowei Li, Min Deng, Yang Zhou, Xiaowei Jia
摘要: 图像地理定位,即识别图像中描绘的地理位置,对于危机响应、数字取证和基于位置的情报应用非常重要。 尽管大型语言模型(LLMs)的最新进展为视觉推理提供了新的机会,但它们在图像地理定位方面的能力仍鲜有研究。 在本研究中,我们引入了一个名为IMAGEO-Bench的基准,用于系统评估准确性、距离误差、地理空间偏差和推理过程。 我们的基准包括三个多样化的数据集,涵盖全球街景、美国的感兴趣点(POIs)以及一个私人收藏的未见过的图像。 通过对10个最先进的LLMs进行实验,包括开源和闭源模型,我们揭示了明显的性能差异,闭源模型通常表现出更强的推理能力。 重要的是,我们发现LLMs存在地理空间偏差,它们在高资源地区(例如北美、西欧和加利福尼亚)表现更好,而在代表性不足的地区表现下降。 回归诊断表明,成功的地理定位主要依赖于识别城市环境、户外环境、街道级图像和可识别地标。 总体而言,IMAGEO-Bench为LLMs的空间推理能力提供了一个严格的观察视角,并为构建具有地理定位意识的人工智能系统提供了启示。
摘要: Image geolocalization, the task of identifying the geographic location depicted in an image, is important for applications in crisis response, digital forensics, and location-based intelligence. While recent advances in large language models (LLMs) offer new opportunities for visual reasoning, their ability to perform image geolocalization remains underexplored. In this study, we introduce a benchmark called IMAGEO-Bench that systematically evaluates accuracy, distance error, geospatial bias, and reasoning process. Our benchmark includes three diverse datasets covering global street scenes, points of interest (POIs) in the United States, and a private collection of unseen images. Through experiments on 10 state-of-the-art LLMs, including both open- and closed-source models, we reveal clear performance disparities, with closed-source models generally showing stronger reasoning. Importantly, we uncover geospatial biases as LLMs tend to perform better in high-resource regions (e.g., North America, Western Europe, and California) while exhibiting degraded performance in underrepresented areas. Regression diagnostics demonstrate that successful geolocalization is primarily dependent on recognizing urban settings, outdoor environments, street-level imagery, and identifiable landmarks. Overall, IMAGEO-Bench provides a rigorous lens into the spatial reasoning capabilities of LLMs and offers implications for building geolocation-aware AI systems.
主题: 计算机视觉与模式识别 (cs.CV)
引用方式: arXiv:2508.01608 [cs.CV]
  (或者 arXiv:2508.01608v1 [cs.CV] 对于此版本)
  https://doi.org/10.48550/arXiv.2508.01608
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Lingyao Li [查看电子邮件]
[v1] 星期日, 2025 年 8 月 3 日 06:04:33 UTC (27,899 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.CV
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-08
切换浏览方式为:
cs

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号