计算机科学 > 信息检索
[提交于 2025年10月1日
]
标题: 弥合语言鸿沟:多语言大语言模型在跨语言信息检索中的进展
标题: Bridging Language Gaps: Advances in Cross-Lingual Information Retrieval with Multilingual LLMs
摘要: 跨语言信息检索(CLIR)解决了检索与原始查询语言不同的相关文档的挑战。 该领域的研究通常将任务框架化为通过翻译增强的单语言检索,将检索方法和跨语言能力孤立处理。 单语言和跨语言检索通常遵循查询扩展、排序、重新排序以及越来越多的问题回答的流程。 然而,最近的进展已从基于翻译的方法转向基于嵌入的方法,并利用多语言大型语言模型(LLMs),其中跨语言表示对齐仍然是一个核心挑战。 跨语言嵌入和多语言LLMs的出现引入了一种新范式,提供了改进的检索性能并实现了答案生成。 本综述全面概述了从早期基于翻译的方法到最先进的基于嵌入和生成技术的发展。 它对核心CLIR组件、评估实践和可用资源进行了结构化的描述。 识别了数据不平衡和语言差异等持续性挑战,同时提出了推进公平且有效的跨语言信息检索的有前景的方向。 通过将CLIR置于信息检索和多语言语言处理的更大背景下,这项工作不仅回顾了当前的能力,还概述了构建稳健、包容和适应性强的检索系统的未来方向。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.