计算机科学 > 人工智能
[提交于 2025年8月9日
]
标题: MDK12-Bench:多模态大语言模型在多学科考试中的全面评估
标题: MDK12-Bench: A Comprehensive Evaluation of Multimodal Large Language Models on Multidisciplinary Exams
摘要: 多模态大语言模型(MLLMs)通过整合语言和视觉提示进行问题解决,在推动人工通用智能(AGI)方面至关重要。 然而,目前用于衡量MLLMs智能的基准测试存在规模有限、覆盖范围狭窄和知识结构不清晰的问题,仅提供静态且无差别的评估。 为了弥补这一差距,我们引入MDK12-Bench,这是一个大规模的跨学科基准测试,源自涵盖六个学科的真实K-12考试,包含141K个实例和6,225个知识点,按六层分类法组织。 涵盖五种题型并带有难度和年份标注,它能够进行全面评估,以捕捉MLLMs在四个维度上的表现: 1)难度等级,2)时间(跨年度)变化,3)情境变化,和4)知识驱动推理。 我们提出了一种新颖的动态评估框架,引入了不熟悉的视觉、文本和问题形式变化,以挑战模型的泛化能力,同时通过减少数据污染来提高基准的客观性和持久性。 我们进一步评估了知识点参考增强生成(KP-RAG),以研究知识在问题解决中的作用。 关键发现揭示了当前MLLMs在多个方面的局限性,并为提高模型鲁棒性、可解释性和人工智能辅助教育提供了指导。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.