计算机科学 > 计算与语言
[提交于 2025年10月2日
]
标题: F2LLM 技术报告:使用 600 万开源数据达到 SOTA 嵌入性能
标题: F2LLM Technical Report: Matching SOTA Embedding Performance with 6 Million Open-Source Data
摘要: 我们引入了F2LLM——从基础到特征的大语言模型,这是一套三种尺寸的最先进的嵌入模型:0.6B、1.7B和4B。 与之前排名靠前的嵌入模型不同,这些模型需要大量的对比预训练、复杂的训练流程和昂贵的合成训练数据,F2LLM则是直接在600万条查询-文档-负例元组上微调的基础模型,这些元组是从开源的非合成数据集中精心挑选的,实现了训练成本、模型大小和嵌入性能之间的强大平衡。 在MTEB英文排行榜上,F2LLM-4B在大约4B参数的模型中排名第二,在所有模型中排名第七,而F2LLM-1.7B在1B-2B尺寸范围内的模型中排名第一。 为了促进该领域的未来研究,我们发布了模型、训练数据集和代码,将F2LLM定位为未来工作的一个强大、可重复且经济的基线。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.