计算机科学 > 信息检索
[提交于 2025年10月16日
]
标题: 集成多个在VLLM内部表示上训练的幻觉检测器
标题: Ensembling Multiple Hallucination Detectors Trained on VLLM Internal Representations
摘要: 本文介绍了我们团队y3h2在KDD Cup 2025的Meta CRAG-MM挑战赛中获得第5名的解决方案。 CRAG-MM基准是一个专注于图像事实性问题的视觉问答(VQA)数据集,包括第一视角图像。 比赛是根据VQA准确性进行竞争的,由基于大语言模型的自动评估器进行评判。 由于错误答案会导致负分,我们的策略集中在减少视觉语言模型内部表示中的幻觉。 具体来说,我们使用隐藏状态和特定注意力头的输出训练了基于逻辑回归的幻觉检测模型。 然后我们采用了这些模型的集成。 结果是,虽然我们的方法牺牲了一些正确答案,但它显著减少了幻觉,并使我们能够在最终排行榜上进入前列。 有关实现细节和代码,请参考https://gitlab.aicrowd.com/htanabe/meta-comprehensive-rag-benchmark-starter-kit。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.