微信扫码
添加专属顾问
我要投稿
F2LLM开源Embedding模型突破行业壁垒,仅需六百万数据即可达到SOTA性能,为中小团队提供理想研究基线。核心内容: 1. F2LLM系列模型在MTEB榜单的领先表现与开源优势 2. 独创的六百万高质量非合成数据训练方法论 3. 完整开源的数据处理方案与三种标准化数据格式设计
Embedding 模型在信息检索、文本处理、检索增强生成(RAG)中有着重要的应用。然而,当前主流的 Embedding 模型如 NV-Embed、Qwen3-Embedding 的训练或是需要上亿数据量级进行对比学习加训,或是依赖昂贵且没有开源的合成数据,给较小规模的研究团队复现、改进 Embedding 模型的训练算法带来了极大困难。
我们推出 F2LLM(Foundation to Feature Large Language Models),包含 0.6B、1.7B、4B 大小的一系列模型,仅使用六百万数据直接对基座模型进行微调,在 MTEB 榜单上达到业界领先水平,且完全开源。
▍
简介
本文源于蚂蚁集团与上海交通大学的校企合作项目,模型、数据、训练代码全部开源:
arXiv:https://arxiv.org/abs/2510.02294
GitHub:https://github.com/codefuse-ai/CodeFuse-Embeddings
HuggingFace:https://huggingface.co/collections/codefuse-ai/codefuse-embeddings-68d4b32da791bbba993f8d14
与其他业界领先 Embedding 模型相比,F2LLM 不仅完全开源,而且仅使用六百万高质量、非合成数据,在模型大小、训练开销、Embedding 性能上达到了最佳平衡,是作为未来 Embedding 研究 baseline 的理想选择:
▍
数据
F2LLM 的训练数据来自 60 个开源数据集,我们将这些数据集统一整理成了 3 种格式:检索(retrieval),分类(classification),和聚类(clustering)。
在我们开源的数据中,每条检索类与聚类数据包含一条查询(query)、一个段落(passage)、24 个难负样本(hard negative)。每条分类数据同样包含一条查询、一个段落,但只有一个难负样本。
检索数据
检索数据包含开源的检索、摘要、自然语言推理(NLI)、语义相似度(STS)、复述(paraphrase)数据集。
对摘要数据,我们将每条数据的摘要作为查询,对应原文作为段落;
对 NLI 数据,我们将前提(premis)作为查询,蕴含的假设(entailed hypothesis)作为段落,中立或矛盾的推理(neutral/contradictory hypothesis)作为难负样本;
对 STS 数据,我们将相似度大于 4 分的文本对分别最为查询-段落和段落-查询,构建两对样本;
对复述数据,我们从互为复述的文本对构建查询-段落;
对以上所有检索数据,我们使用 Qwen3-Embedding-0.6B 从各数据集中额外挖掘难负样本,并对过程进行严格把控,确保数据质量:
首先计算查询与段落的相关性分数
从源数据集中召回 100 条与查询最相关的段落作为候选负样本,但除去最相关的五条以避免假阴性的负样本
除去相关性大于 0.8 的候选负样本
除去相关性大于正样本相关性 95% 的候选负样本
从剩余候选负样本中选择相关性最高的 24 条作为难负样本,若剩余候选负样本不足 24 条则删除该数据
分类数据
分类数据仅包含 5 个开源二分类数据集。我们将每条数据的输入作为查询,对应类的文本标签作为段落,另一类的文本标签作为负样本。
聚类数据
聚类数据包含开源的聚类数据以及多分类数据。对于每一条输入,我们从同一类中随机采样一条作为段落,从所有其他类中最集采样 24 条作为负样本。
▍
训练
我们使用标准的对比学习损失直接微调 Qwen3 基座模型。损失函数由所有数据的难负样本对比损失与检索类数据的批内对比损失
构成:
其中,为温度,在训练过程中设置为0.05,
为相似度指标,我们使用余弦相似度。
在训练过程中,我们将所有数据集混合在一起进行训练,但通过特别设计的数据加载器确保在每一步优化过程中,每个训练进程中的数据全部来自单一数据集。对于检索类数据,使用所有进程中样本的段落字段进行计算,提升样本学习效率;对于分类与聚类数据,
则只有被计算,
不进行计算。
▍
测评
在 MTEB 英语榜单上,F2LLM-4B 总体排名第 7,在 4B 大小模型中排名仅次于使用上亿数据训练的 Qwen3-Embedding 4B。F2LLM-1.7B 更是在 1-2B 模型中排名第一,成为算力受限应用场景下的理想选择。在榜单上的七大类任务中,F2LLM 家族在聚类任务上表现尤其出色,4B 模型的性能达到 68.54 ,在所有模型中创下新高。
▍
关于我们
我们是蚂蚁集团智能平台工程的全模态代码算法团队,团队成立 3 年以来,在 ACL、ICLR、NeurIPS、KDD 等顶级会议发表论文 20 余篇,参与获得两次蚂蚁技术最高奖 T-Star, 1 次蚂蚁集团最高奖 SuperMA。团队常年招聘研究型实习生,有做NLP、大模型、多模态、图神经网络的同学欢迎联系 hyu.hugo@antgroup.com。
如果您想更快地获取到最新信息,欢迎加入我们的微信群。
企业用户如有需求,加入群聊时还可私聊“CodeFuse服务助手”联系解决方案专家~
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-10-10
蚂蚁开源万亿 LING-1T基础模型
2025-10-05
Dify + RustFS + Milvus,构建文档多语言翻译 AI Workflow
2025-10-03
如愿以偿!Qwen3-VL再开源30B-A3B,附实测!
2025-10-03
开源神器 OpenDataLoader PDF:RAG 数据预处理终结者,告别“垃圾进,垃圾出”!
2025-10-03
告别散装!蚂蚁金服新模型,一个模型搞定图像理解生成与编辑!
2025-09-29
DeepSeek-V3.2背后的国产算子编程语言TileLang是什么?如何保持性能领先的同时减少6倍代码量?
2025-09-29
DeepSeek-V3.2-Exp开源,附论文细节解读!
2025-09-29
独家 | 帆软首次掀起盖头,万字访谈揭密BI巨头的出海之路
2025-07-23
2025-08-20
2025-09-07
2025-07-23
2025-08-05
2025-07-14
2025-08-20
2025-07-29
2025-07-31
2025-07-29
2025-09-29
2025-09-17
2025-09-09
2025-09-08
2025-09-07
2025-09-01
2025-08-16
2025-08-13