计算机科学 > 信息检索
[提交于 2026年1月8日
]
标题: 多向量重新排序在强大第一阶段检索器的时代
标题: Multivector Reranking in the Era of Strong First-Stage Retrievers
摘要: 学习到的多向量表示增强了现代搜索系统的检索效果,但其在现实世界中的应用受到逐标记检索的高昂成本限制。因此,大多数系统采用\emph{收集和精炼}策略,其中轻量级的收集阶段会选择候选文档进行完整评分。然而,这种方法需要在大型逐标记索引上进行昂贵的搜索,并且常常遗漏在完整相似性下排名最高的文档。在本文中,我们在两个公开可用的数据集上复现了几种最先进的多向量检索方法,提供了当前多向量检索领域的清晰图景,并观察到逐标记收集的低效性。在此基础上,我们表明用单向量文档检索器——特别是学习到的稀疏检索器(LSR)——替换逐标记收集阶段可以产生更小且语义更连贯的候选集合。这将收集和精炼流程重新构造成已建立的两阶段检索架构。随着检索延迟的减少,使用两个神经编码器进行查询编码成为主要的计算瓶颈。为缓解这一问题,我们整合了最近的无推理LSR方法,证明它们在显著降低查询编码时间的同时保持了双编码器流程的检索效果。最后,我们研究了多种重排序配置,以平衡效率、内存和效果,并引入了两种优化技术来提前修剪低质量的候选文档。实证结果表明,这些技术在不损失质量的情况下,检索效率提高了最多1.8$\times$。总体而言,我们的两阶段方法在最先进的多向量检索系统上实现了超过$24\times$的加速,同时保持了可比或更优的检索质量。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.