计算机科学 > 计算与语言
[提交于 2025年10月20日
]
标题: 重新思考基于策略的优化用于查询增强
标题: Rethinking On-policy Optimization for Query Augmentation
摘要: 近年来,大型语言模型(LLMs)的进展引发了对信息检索(IR)中查询增强的兴趣激增。 两种主要方法已经出现。 第一种方法是提示LLMs生成答案或伪文档,作为新的查询,纯粹依赖于模型的参数知识或上下文信息。 第二种方法是应用强化学习(RL)来微调LLMs进行查询重写,直接优化检索指标。 尽管各有优缺点,但两种方法在一致的实验条件下尚未进行比较。 在本工作中,我们首次在包括证据寻求、临时和工具检索在内的多种基准上系统比较基于提示和基于RL的查询增强。 我们的主要发现是,简单的、无需训练的查询增强通常表现与更昂贵的基于RL的方法相当,甚至在使用强大的LLMs时表现更好。 受这一发现的启发,我们引入了一种新的混合方法,策略伪文档查询扩展(OPQE),该方法不是重写查询,而是让LLM策略生成一个最大化检索性能的伪文档,从而将提示的灵活性和生成结构与RL的目标优化结合起来。 我们展示了OPQE优于单独的提示和基于RL的重写,证明了协同方法能取得最佳效果。 我们的实现已提供,以促进可重复性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.