计算机科学 > 人工智能
[提交于 2025年8月2日
]
标题: 重要性采样就是你需要的一切:通过重用现有基准来预测大型语言模型在新基准上的表现
标题: Importance Sampling is All You Need: Predict LLM's performance on new benchmark by reusing existing benchmark
摘要: 随着大型语言模型的快速发展,代码生成已成为评估LLM能力的关键基准。 然而,现有的基准测试面临两个主要挑战:(1) 构建高质量测试套件和参考解决方案的成本不断上升,以及(2) 数据污染风险增加,这削弱了基于基准的评估的可靠性。 在本文中,我们提出了BIS,一种以提示为中心的评估框架,能够在无需真实答案的情况下预测LLM在代码生成任务中的性能。 BIS不是执行生成的代码,而是仅通过分析提示分布来估计性能指标。 该方法基于重要性抽样理论,并使用重要性加权自动编码器实现,我们的方法对现有标注基准中的样本进行重新加权,以估计在新未见过的基准上的性能。 为了稳定估计,我们引入了权重截断策略,并计算拟合分布上的边缘期望。 BIS作为一种补充工具,在资源受限的情况下支持基准开发和验证,为提示选择和污染评估提供可操作且快速的反馈。 我们进行了广泛的实验,涉及4个CodeLlama模型和9个不同的基准测试,共8000个评估点。 我们的框架在代码正确性评分上的平均绝对预测误差为1.1%,最佳和最差情况下的误差分别为0.3%和1.9%。 它在其他指标上也表现良好,pass@1的平均绝对误差为2.15%。 这些结果证明了BIS的可靠性和广泛适用性,可以显著降低在与代码相关的任务中对LLM进行基准测试的成本和努力。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.