计算机科学 > 计算与语言
[提交于 2025年8月10日
]
标题: ObfusQAte:一种用于评估模糊事实问答中LLM鲁棒性的框架
标题: ObfusQAte: A Proposed Framework to Evaluate LLM Robustness on Obfuscated Factual Question Answering
摘要: 大型语言模型(LLMs)的迅速普及已显著促进了能够进行事实性问答(QA)的公平人工智能系统的发展。 然而,尚无已知的研究测试LLMs在面对问题的混淆版本时的鲁棒性。 为了系统地评估这些限制,我们提出了一种新技术ObfusQAte,并利用该技术引入了ObfusQA,这是一个全面的、首创的框架,具有多层级的混淆水平,旨在检查LLMs在三个不同维度上的能力:(i)命名实体间接,(ii)干扰项间接,(iii)上下文过载。 通过捕捉语言中的这些细粒度差异,ObfusQA提供了一个全面的基准,用于评估LLM的鲁棒性和适应性。 我们的研究观察到,当LLMs面对这些日益复杂的变体时,倾向于失败或生成幻觉响应。 为了促进这一方向的研究,我们公开了ObfusQAte。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.