计算机科学 > 计算机与社会
[提交于 2025年10月13日
]
标题: BanglaMATH:针对6、7和8年级的Bangla基准数据集,用于测试LLM的数学推理能力
标题: BanglaMATH : A Bangla benchmark dataset for testing LLM mathematical reasoning at grades 6, 7, and 8
摘要: 大型语言模型(LLMs)在支持数学推理方面具有巨大潜力,其在教育和人工智能研究中的应用日益增多。 然而,大多数现有的基准测试仅限于英语,这对低资源语言造成了显著的差距。 例如,孟加拉语有近2.5亿人使用,这些用户将从具备母语流利能力的LLMs中受益。 为了解决这个问题,我们提出了BanglaMATH,这是一个包含1.7k个孟加拉语数学应用题的数据集,涵盖算术、代数、几何和逻辑推理等主题,数据来源于孟加拉语小学课本,并标注了年级水平和推理步骤数量等信息。 我们设计BanglaMATH来评估商业和开源LLMs在孟加拉语中的数学能力,我们发现Gemini 2.5 Flash和DeepSeek V3是唯一达到强大性能的模型,在三个小学年级中达到了$\ge$80%的准确率。 此外,我们通过在原始问题中添加干扰信息,并将问题翻译成英语,评估了这些表现最佳的LLMs的鲁棒性和语言偏差。 我们展示了这两种LLMs无法保持鲁棒性,并在孟加拉语中表现出显著的性能偏差。 我们的研究表明,LLMs在处理低资源语言中的算术和数学推理方面仍存在当前局限性,并强调了对多语言和公平数学理解进一步研究的必要性。 数据集链接:\href{https://github.com/TabiaTanzin/BanglaMATH-A-Bangla-benchmark-dataset-for-testing-LLM-mathematical-reasoning-at-grades-6-7-and-8.git}{https://github.com/BanglaMATH}
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.