Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2510.16803

帮助 | 高级搜索

计算机科学 > 信息检索

arXiv:2510.16803 (cs)
[提交于 2025年10月19日 ]

标题: 基于单模态监督的全页重新排序高效框架

标题: An Efficient Framework for Whole-Page Reranking via Single-Modal Supervision

Authors:Zishuai Zhang, Sihao Yu, Wenyi Xie, Ying Nie, Junfeng Wang, Zhiming Zheng, Dawei Yin, Hainan Zhang
摘要: 全页面重新排序在塑造搜索引擎的用户体验中起着关键作用,它整合了来自多种模态的检索结果,如文档、图像、视频和大语言模型输出。 现有方法主要依赖于大规模的人工标注数据,获取成本高且耗时。 这是因为全页面标注比单一模态复杂得多:它需要评估整个结果页面,同时考虑跨模态的相关性差异。 因此,在减少标注成本的同时提高全页面重新排序性能,仍然是优化搜索引擎结果页面(SERP)的一个关键挑战。 在本文中,我们提出了SMAR,一种新颖的全页面重新排序框架,该框架利用强大的单模态排序器来指导模态间相关性对齐,以实现有效的重新排序,仅使用有限的全页面标注即可超越完全标注的重新排序模型。 具体来说,首先在各自模态特定的数据上训练高质量的单模态排序器。 然后,对于每个查询,我们选择其输出的一个子集来构建候选页面,并在页面级别进行人工标注。 最后,我们使用这些有限的标注来训练全页面重新排序器,并通过与单模态偏好保持一致性来维持每个模态内的排名质量。 在Qilin和百度数据集上的实验表明,SMAR将标注成本降低了约70-90%,同时相比基线实现了显著的排名提升。 在百度APP上的进一步离线和在线A/B测试也显示了标准排名指标以及用户体验指标的显著提升,充分验证了我们的方法在真实搜索场景中的有效性和实用价值。
摘要: The whole-page reranking plays a critical role in shaping the user experience of search engines, which integrates retrieval results from multiple modalities, such as documents, images, videos, and LLM outputs. Existing methods mainly rely on large-scale human-annotated data, which is costly to obtain and time-consuming. This is because whole-page annotation is far more complex than single-modal: it requires assessing the entire result page while accounting for cross-modal relevance differences. Thus, how to improve whole-page reranking performance while reducing annotation costs is still a key challenge in optimizing search engine result pages(SERP). In this paper, we propose SMAR, a novel whole-page reranking framework that leverages strong Single-modal rankers to guide Modal-wise relevance Alignment for effective Reranking, using only limited whole-page annotation to outperform fully-annotated reranking models. Specifically, high-quality single-modal rankers are first trained on data specific to their respective modalities. Then, for each query, we select a subset of their outputs to construct candidate pages and perform human annotation at the page level. Finally, we train the whole-page reranker using these limited annotations and enforcing consistency with single-modal preferences to maintain ranking quality within each modality. Experiments on the Qilin and Baidu datasets demonstrate that SMAR reduces annotation costs by about 70-90\% while achieving significant ranking improvements compared to baselines. Further offline and online A/B testing on Baidu APPs also shows notable gains in standard ranking metrics as well as user experience indicators, fully validating the effectiveness and practical value of our approach in real-world search scenarios.
主题: 信息检索 (cs.IR)
引用方式: arXiv:2510.16803 [cs.IR]
  (或者 arXiv:2510.16803v1 [cs.IR] 对于此版本)
  https://doi.org/10.48550/arXiv.2510.16803
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Zishuai Zhang [查看电子邮件]
[v1] 星期日, 2025 年 10 月 19 日 11:58:24 UTC (1,675 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
查看许可
当前浏览上下文:
cs.IR
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-10
切换浏览方式为:
cs

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号