计算机科学 > 计算与语言
[提交于 2025年10月13日
]
标题: FaStFACT:在大语言模型中更快、更强大的长格式事实性评估
标题: FaStFACT: Faster, Stronger Long-Form Factuality Evaluations in LLMs
摘要: 评估大型语言模型(LLMs)的长文本生成的真实性仍然具有挑战性,这是由于准确性问题和高昂的人工评估成本。以往的努力尝试通过将文本分解为声明,搜索证据并验证声明来实现这一点,但存在关键缺点:(1) 由于复杂的管道组件不适合长LLM输出,导致效率低下;(2) 由于声明集不准确和单行片段证据收集不足,导致效果不佳。为解决这些限制,我们提出了\name ,这是一个快速且强大的评估框架,在现有基线中实现了与人工评估最高的对齐度和效率。\name 首先采用基于置信度的逐块声明提取和预验证,显著降低了网络搜索和推理调用的成本,同时确保了可靠性。在搜索和验证方面,它从爬取的网页中收集文档级证据,并在验证期间选择性地检索,解决了之前管道中的证据不足问题。基于聚合和手动标注基准的大量实验证明了\name 在高效和有效地评估长文本LLM生成的真实性方面的可靠性。代码和基准数据可在 https://github.com/Yingjia-Wan/FastFact 获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.