天体物理学 > 天体物理学的仪器与方法
[提交于 2025年9月29日
]
标题: AstroMMBench:评估天文学中多模态大语言模型能力的基准
标题: AstroMMBench: A Benchmark for Evaluating Multimodal Large Language Models Capabilities in Astronomy
摘要: 天文学图像解释对于将多模态大语言模型(MLLMs)应用于专业科学任务提出了重大挑战。 现有的基准测试侧重于一般的多模态能力,但未能捕捉天文学数据的复杂性。 为了弥合这一差距,我们引入了AstroMMBench,这是首个全面的基准测试,旨在评估MLLMs在天文学图像理解方面的能力。 AstroMMench包含六个天体物理子领域中的621道选择题,由15位领域专家进行筛选和审查,以确保其质量和相关性。 我们使用AstroMMBench对25种多样化的MLLMs进行了广泛评估,其中包括22种开源模型和3种闭源模型。 结果表明,Ovis2-34B取得了最高的总体准确率(70.5%),即使与强大的闭源模型相比也表现出领先的能力。 在六个天体物理子领域中,性能表现出差异,尤其是在宇宙学和高能天体物理学等领域尤为具有挑战性,而在其他领域如仪器和太阳天体物理学中模型表现相对较好。 这些发现强调了像AstroMMBench这样的领域特定基准在关键评估MLLM性能以及指导其针对科学应用的定向发展中的重要作用。 AstroMMBench提供了一个基础资源和一个动态工具,以推动人工智能和天文学交叉领域的进步。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.