我要投稿

文本生成Embedding通俗理解 & 微调模型的流程

发布日期：2025-05-30 06:41:35 浏览次数： 2115

作者：灵矩Lab

微信搜一搜，关注“灵矩Lab”

文本是怎么生成 Embedding 的？

总体流程：

输入文本 → 用“Embedding模型”处理 → 输出一个向量（embedding）

比如

你输入一句话：“人工智能改变世界”，Embedding 模型会输出一个像这样的向量：

[0.432, -0.115, ..., 0.981]

每个逗号分隔的部分就是一个纬度，这个向量通常是几百维，比如384维、768维），这个向量就代表了这句话在语义空间中的“位置”。

? 常用的通用技术 / 模型有哪些？

通用预训练Embedding模型（你可以直接用）：

模型	框架	特点
Sentence-BERT (SBERT)	PyTorch / HuggingFace	把句子/段落转成语义向量，非常常用
OpenAI Embedding 模型（如 `text-embedding-3-small`）	OpenAI API	精度高、部署简单、商用化好
Cohere embeddings	Cohere API	多语言支持、商业化接口
FastText	Facebook	适合词级别、支持子词
Word2Vec / GloVe	经典词嵌入	快速但已不太适合语句级别任务

? 文本生成向量过程“人为干预”方式

1️⃣ 选择或训练不同模型（模型选择）

不同Embedding模型偏好不同语境和语言风格
比如法律、医学、代码领域，可以用专门训练的数据做“领域Embedding”

2️⃣ 修改输入方式（Prompt 工程）

你可以人为在文本前后加点提示词，引导模型“更好理解文本”：

原文本：

“苹果是一种水果。”

改造后：

“这是对一个水果的定义：苹果是一种水果。”

得到的Embedding可能更符合你想要的“知识类型”语义。

3️⃣ 微调模型（Fine-tuning）

如果你有特定领域的数据（比如公司文档、合同语料），可以对一个预训练模型进行微调。
这样得到的Embedding更符合你的知识库内容。

⚠️ 微调成本高，通常需要GPU资源和一定技术门槛。

4️⃣ 归一化 / Pooling策略（技术性干预）

句子Embedding的最终向量，通常是由模型输出的多个 token 向量聚合（比如mean pooling）得到的。

你可以选：

mean pooling（平均）
CLS token（BERT第一个位置）
max pooling

不同策略影响向量质量，可以做实验调优。

微调（Fine-tuning）Embedding模型可以让你在自己的数据上获得更有针对性的语义表示，尤其适合特定行业（法律、金融、医疗）或专属企业文档（客服聊天记录、产品文档等）等应用场景。

微调Embedding模型的整体流程

准备数据 → 选择模型 → 构建训练集（正负样本） → 配置训练参数 → 开始训练 → 验证 → 部署

一、准备阶段

准备训练数据，你需要构建这样的语义匹配样本：

查询（Query）	正样本（Positive）	负样本（Negative，可选）
“退货流程怎么操作？”	“用户退货需在7天内提交申请…”	“产品说明书介绍”
“营业时间是几点”	“门店营业时间为上午9点到晚上8点”	“招聘信息”

数据格式通常是：

句子对（query 与正/负文档）
或 三元组（query, positive, negative）

? 推荐格式：JSONL（每行为一个训练样本）

{"query": "退货流程", "positive": "退货请在七天内完成申请", "negative": "联系客服电话是400..."}

二、选择模型架构

模型	优点	框架
Sentence-BERT (SBERT)	专门为句子Embedding设计，可快速微调	PyTorch / HuggingFace
MiniLM / BERT base	精度高、速度快	HuggingFace
OpenAI Embedding 模型	商用化强，但无法微调	OpenAI API（闭源）

三、构建微调流程（以Sentence-BERT为例）

使用 sentence-transformers（HuggingFace旗下）库：

1. 安装必要库

pip install sentence-transformers

2. 构造训练数据加载器

from sentence_transformers import SentenceTransformer, InputExample, lossesfrom torch.utils.data import DataLoader
# 示例数据train_examples = [    InputExample(texts=["退货流程", "退货请在七天内完成申请"], label=1.0),    InputExample(texts=["退货流程", "联系客服电话是400..."], label=0.0),]
train_dataloader = DataLoader(train_examples, shuffle=True, batch_size=8)

3. 加载预训练模型

model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')

4. 选择损失函数（多使用CosineSimilarityLoss）

train_loss = losses.CosineSimilarityLoss(model=model)

5. 微调训练

model.fit(    train_objectives=[(train_dataloader, train_loss)],    epochs=1,    warmup_steps=100)

6. 保存模型

model.save('my-custom-embedding-model')

之后你就可以用这个模型来生成专属的 Embedding 向量了：

model = SentenceTransformer('my-custom-embedding-model')embedding = model.encode("请问你们的营业时间是几点？")

四、调优与验证

可以用以下方式验证微调后的效果：

余弦相似度排序是否更合理？
在RAG检索中是否召回更相关的内容？
Embedding聚类可视化是否更清晰？（用t-SNE/UMAP）

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-12-04

OpenAI公开新的模型训练方法：或许能解决模型撒谎问题，已在GPT-5 thiking验证

2025-11-23

微调Rerank模型完整指南

2025-11-22

大模型微调全流程实战指南：基于IPO框架的深度解析与优化

2025-11-21

AI基础 | Qwen3 0.6B 微调实现轻量级意图识别

2025-11-20

从零开始：手把手教你微调Embedding模型，让检索效果提升10倍！

2025-11-19

LoAR做Fine-Tuning微调原理到底是什么？

2025-11-05

2张4090竟能本地微调万亿参数Kimi K2！趋境联合清华北航把算力门槛击穿了

2025-11-05

基于昇腾NPU的Qwen3量化因子代码生成微调实战

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

微调已死？Google 和斯坦福论文指出AI 学习新范式

2025-10-12

用Macbook微调Qwen3！手把手教你用微调给Qwen起一个新名字

2025-10-14

从零教你微调一个专属领域大模型，看完小白也能学会炼丹!（完整版）

2025-10-21

阿里云Qwen3系列模型部署微调评测

2025-09-07

微调Qwen2.5模型的完整指南

2025-09-09

一位淘宝工程同学的大模型LoRA微调尝试

2025-09-24

在Colab中微调Qwen3-4B模型实战指南

2025-09-20

如何将 AI 代码采纳率从30%提升到80%？

2025-09-25

基于昇腾NPU的Qwen3量化因子代码生成微调实战

2025-11-05

2张4090竟能本地微调万亿参数Kimi K2！趋境联合清华北航把算力门槛击穿了

2025-11-05

大家都在问

LoAR做Fine-Tuning微调原理到底是什么？

2025-11-19

如何将 AI 代码采纳率从30%提升到80%？

2025-09-25

大模型微调，为什么99%的企业都不应该碰这个坑？

2025-06-20

万不得已，不要对 LLM 进行微调？

2025-06-17

可以将任何符合OpenAPI规范的接口转 MCP Server吗？

2025-05-21

OpenAI发布GPT-4.1系列模型，对行业最大吸引力是什么？

2025-05-17

私有部署大模型需要多少显存？

2025-05-14

软件公司如何为AI的下半场做准备？

2025-05-10

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

文本生成Embedding通俗理解 & 微调模型的流程

总体流程：

输入文本 → 用“Embedding模型”处理 → 输出一个向量（embedding）

? 常用的通用技术 / 模型有哪些？

通用预训练Embedding模型（你可以直接用）：

? 文本生成向量过程“人为干预”方式

1️⃣ 选择或训练不同模型（模型选择）

2️⃣ 修改输入方式（Prompt 工程）

3️⃣ 微调模型（Fine-tuning）

4️⃣ 归一化 / Pooling策略（技术性干预）

微调Embedding模型的整体流程

准备训练数据，你需要构建这样的语义匹配样本：

推荐模型（适合微调的Embedding模型）：

三、构建微调流程（以Sentence-BERT为例）

1. 安装必要库