微信扫码
添加专属顾问
我要投稿
文本嵌入模型是将文档转换为高维向量的技术,广泛应用于自然语言处理(NLP)和信息检索(IR)的各个领域。文本嵌入可以用于多种任务,包括分类、搜索以及聚类等。
增强型检索(RAG)系统中特别依赖文本嵌入技术来提高信息检索的质量。然而,传统的文本嵌入模型虽然设计上是
通用的,但在实际应用时往往需要针对具体任务进行微调,并且在遇到常见问题时表现不佳。为了克服上述局限性,我们今天介绍一个新款的文本嵌入模型:
jina-embeddings-v3
点关注不迷路
jina-embeddings-v3,一个新款的文本嵌入模型,拥有5.7亿参数,在100多种语言数据和长文本上下文检索任务上实现了最先进的性能,支持长达8192个token的上下文长度。该模型包括一组特定任务的低秩适应(LoRA)适配器,用于为查询-文档检索、聚类、分类和文本匹配生成高质量的嵌入。
在MTEB基准上的评估表明,jina-embeddings-v3不仅在英语任务上超越了OpenAI和Cohere的最新专有嵌入,而且在所有多语言任务上的表现超过了multilingual-e5-large-instruct。默认输出维度为1024,用户可以灵活地将嵌入维度降低到32而不会牺牲性能,这是通过套娃表示学习(Matryoshka Representation Learning)实现的。因此,jina-embeddings-v3被认为是更经济高效的方案,更适合于生产环境和边缘计算场景。
jina-embeddings-v3 是一个为多种NLP应用设计的多语言多功能文本嵌入模型。基于Jina-XLM-RoBERTa架构,该模型支持旋转位置嵌入(Rotary Position Embeddings, RoPE),能够处理长达8192个标记的长输入序列。此外,它配备了5个LoRA适配器,可以高效生成特定任务的嵌入。
我们使用原始XLM-RoBERTa模型的权重来初始化模型。然而,由于位置嵌入方法的变化,模型的原始MLM目标与我们的训练目标并不完全一致。尽管如此,我们观察到使用预训练权重初始化比随机初始化在预训练期间收敛得更快。我们的训练范式包括三个阶段,这在训练文本嵌入模型中很常见:
I 预训练:我们使用大型多语言文本语料库进行标准的MLM训练。模型使用XLM-RoBERTa权重进行初始化,以加快预训练速度,避免从头开始训练。
II 微调:为了学习如何将文本段落编码成单个向量表示,我们遵循Günther等人提出的方法。这种方法将池化层整合到transformer模型中,以将token表示聚合成单个嵌入向量,并在语义相关文本对上微调模型。
III 训练特定任务的适配器:我们使用专用数据集和特定任务的损失函数训练五个LoRA适配器(分类适配器、文本匹配适配器、不对称检索适配器、对称检索的失败分析、分离适配器),针对四种不同的任务进行优化,以针对每种用例优化性能。
在中文任务上,jina-embeddings-v3展现出了强劲的性能。根据论文中的表格A4、A5、A6、A7、A8和A9,我们可以看到以下几点:
检索任务:
语义文本相似性(STS)任务:
成对分类任务:
分类任务:
聚类任务:
重排任务:
综上所述,jina-embeddings-v3在处理中文任务时,无论是在检索、语义文本相似性、成对分类、分类、聚类还是重排任务上,都显示出了强大的性能和鲁棒性。这表明jina-embeddings-v3是一个在多语言环境下,特别是中文环境下,具有很高实用价值的文本嵌入模型。
本文介绍了最新的文本嵌入模型jina-embeddings-v3。通过使用特定任务的适配器调整和针对常见故障设计的数据增强技术(RAG),结合一个强大的基础架构,该模型在多种任务上展现了出色的性能。在英语及多语言数据集上的测试表明,jina-embeddings-v3能在保持相对较小参数规模的同时提供优秀的性能。研究还特别关注了提高模型对于资源较少的语言的支持能力,并深入探讨了因数据不足导致的系统性问题。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-11
左脚踩右脚:大模型的有趣且简单的微调方式“SHADOW-FT”
2025-12-11
大模型训练的高效内存解决方案:流水线感知的细粒度激活卸载,实现显存开销与吞吐性能的联合最优
2025-12-08
一杯咖啡成本搞定多模态微调:FC DevPod + Llama-Factory 极速实战
2025-12-04
OpenAI公开新的模型训练方法:或许能解决模型撒谎问题,已在GPT-5 thiking验证
2025-11-23
微调Rerank模型完整指南
2025-11-22
大模型微调全流程实战指南:基于IPO框架的深度解析与优化
2025-11-21
AI基础 | Qwen3 0.6B 微调实现轻量级意图识别
2025-11-20
从零开始:手把手教你微调Embedding模型,让检索效果提升10倍!
2025-10-12
2025-10-14
2025-10-21
2025-09-24
2025-09-20
2025-09-25
2025-11-05
2025-11-05
2025-11-21
2025-12-04