我要投稿

一文搞懂SFT vs RLHF：阿里、字节、腾讯都怎么用?

发布日期：2025-10-18 19:32:02 浏览次数： 1856

作者：架构师带你玩转AI

微信搜一搜，关注“架构师带你玩转AI”

SFT (Supervised Fine-Tuning) - 监督微调

让模型学会"按规矩说话"的阶段，通过高质量的示例教会模型如何正确回答问题。

简单理解：给模型看标准答案，让它模仿学习。

RLHF (Reinforcement Learning from Human Feedback) - 人类反馈强化学习

让模型学会"说得更好"的阶段，通过人类反馈不断优化输出质量。

简单理解：让人类当"评委"，告诉模型哪个答案更好，模型不断改进。

基础概念估计大家已经被各种信息洗脑轰炸，但如何进行进行实操，有哪些踩坑经验，大家还是比较陌生。今天我们来看看大厂如何进行SFT和RLHF？

一、SFT阶段 - 90%的团队都在这里翻车

数据量是个伪命题？

某创业公司收集了50万条对话数据，结果模型啥都会一点，啥都不精。但字节豆包团队只用1万条，在目标领域反而更强。

大厂秘密在配比是什么？

40%通用对话（保证基础能力）
30%垂直领域（核心竞争力）
20%多轮对话（真实体验）
10%边界case（不出洋相）

为什么这样的数据配比有效？通用数据打底防止退化，垂直领域形成优势，多轮对话贴近实际，边界case提升鲁棒性。

Awesome SFT datasets - a HuggingFaceH4 Collection

一文搞懂大模型的数据集FineWeb：让AI更聪明的15万亿字数据集

3000条烂数据毁掉20万条好数据？

阿里通义早期版本专业问答不稳定，排查后发现20万训练数据中混入3000条低质"水文"，占比1.5%，却让10%的专业问题质量下降。损失2周返工。

他们的解决方案简单粗暴：每条数据3人标注，平均分低于4.0直接丢弃。宁可少1000条，不要1条烂数据。

好数据的质量检查标准是什么？

（1）长度要合理。10-2000字之间，太短敷衍，太长啰嗦。

（2）重复度要低。独特词汇至少占70%，大段重复说明数据有问题。

（3）有害内容要过滤。敏感词库自动筛查，模糊case人工复审。

（4）事实要准确。有明确答案的（日期、人名、数据）调搜索引擎验证，不一致的人工核查。例如腾讯专门建了事实核查团队，这个最容易被忽略但最致命。

Philipp Schmid على X: "What makes a good instruction dataset? Can we automatically filter and create high-quality datasets? 🤔 We know that Quality > Quantity, but assessing quality is very resource-intensive. The “

GPT-4批量生成数据的坑？

直接让GPT-4生成10万条，看起来省事，实际上风格高度一致都是"GPT味"，缺乏真实场景多样性，模型学会的是腔调而不是能力。

字节的正确姿势是什么？GPT-4生成10万候选，多样性过滤到3万，人工抽检30%，最终采纳2万。多样性过滤的核心是用句子嵌入算相似度，新样本与已有样本必须低于85%才收录。

LLM for code generation: a scalable pipeline to gather SFT data

LoRA如何让7B干13B的活？

标准全量微调7B模型要4张80GB A100，2000美元一周。LoRA方案只要2张卡，1000美元，省一半。

LoRA的原理是不训练整个模型，只在关键层加小矩阵"补丁"。可训练参数只有0.5%，效果能到全量微调的95%。阿里实测关键参数：秩64最优，缩放系数16，只训练注意力层。

学习率更关键。很多人拍脑袋设2e-5，结果训练不收敛。腾讯实战经验发现：模型越大学习率越小，批次越大可以稍大。7B用1e-5，13B用5.4e-6，70B用1e-6。宁可小一点慢慢涨，也别大了一步崩。

Fine Tuning LLM: Parameter Efficient Fine Tuning (PEFT) — LoRA & QLoRA — Part 1 | by A B Vijay Kumar | Medium

大模型入门指南 - Fine-tuning：小白也能看懂的“模型微调”全解析

一文彻底搞懂大模型 - Fine-tuning三种微调方式

二、RLHF阶段 - 这才是真正的硬骨头

RLHF阶段为什么总崩？

三个致命问题几乎每个团队都会遇到。

（1）Reward Hacking（奖励欺骗）：模型学会讨好奖励模型而不是真正变好。典型表现是堆砌专业术语和高大上废话。

（2）Mode Collapse（模式坍缩）：模型只输出几种固定模式。无论问什么都回"这是个好问题，让我从几个方面分析"。

（3）Training Instability（训练不稳定）：Loss疯狂震荡，梯度爆炸，训练到一半突然崩溃。

一文彻底搞懂大模型 - 基于人类反馈的强化学习（RLHF）

为什么奖励模型不是越大越好？

腾讯做过对比实验。70B奖励模型配7B策略模型，训练极不稳定频繁崩溃。13B奖励模型配7B策略模型，还是不够稳定。7B配7B，反而最稳定效果最好。

大厂实战发现，奖励模型和策略模型大小要匹配，同样大小或奖励模型稍小。就像老师和学生，能力差距太大学生会学不下去。

Why reward models are key for alignment - by Nathan Lambert

彻底搞懂深度学习-深度Q神经网络（DQN）（动图讲解）

PPO超参数的黄金配比是什么？

阿里做了200多次实验，总结出PPO超参数最稳定配置：

（1）学习率必须1e-6，比SFT小10-20倍。RLHF是微调的微调，步子太大会毁掉SFT成果。

（2）clip_range和value_clip_range都是0.2，不要动。

（3）KL惩罚系数0.05是关键中的关键。太小（0.01）模型跑飞开始胡言乱语，太大（0.2）模型不敢动学不到东西。最优区间0.05-0.08。

（4）梯度裁剪max_norm设0.5，必须有，防止梯度爆炸。

（5）mini_batch_size用16，小批次优先，稳定大于效率。

（6）每批数据训练4次（ppo_epochs=4），充分学习。

（7）temperature 0.7，top_p 0.9，平衡多样性和质量。

（8）length_penalty 0.1，repetition_penalty 1.2，防止废话和重复。

../_images/ppo-architecture.svg

KL散度系数如何决定成败？

这个参数衡量新策略和旧策略的差异，像一根橡皮筋把模型拉回安全区域。

（1）系数0.01太小，橡皮筋太松，风筝飞走了，模型开始输出格式错乱内容不知所云。

（2）系数0.2太大，橡皮筋太紧，风筝飞不起来，RLHF前后对比看不出区别，白费力气。

腾讯采用动态调整策略，前20%训练用0.08稳定起步，中间60%用0.05充分优化，最后20%用0.06避免过拟合。

What is RLHF — Reinforcement Learning from Human Feedback | by Manikanth | Medium

混合奖励如何解决Reward Hacking？

单纯用人类偏好奖励容易被钻空子。如何解决？字节的方案是混合5个信号，多维度约束使得奖励模型难以同时作弊，各维度相互制衡。

（1）人类偏好奖励占60%，主要信号。

（2）KL散度惩罚占20%，防止偏离SFT，是负数惩罚项，系数-0.05。

（3）长度惩罚占5%，超过500字开始惩罚，鼓励简洁。

（4）重复惩罚占5%，检测重复词汇和句式。

（5）安全性奖励占10%，安全的小额加分，不安全的大幅扣分。

实测Reward Hacking减少70%。建议先用单一奖励跑通流程，再逐步加入其他项，每加一项单独测试影响。

什么场景需要做RLHF？什么场景该放弃RLHF？

（1）垂直领域专业应用SFT就够，格式化输出任务（代码生成、数据提取）不需要做RHLF。

（2）通用对话助手用户体验提升明显，创意写作开放性任务效果显著，安全性要求极高需要对齐，有持续用户反馈数据可迭代优化等等这样场景才需要做RLHF。

三、SFT + RLHF 算力配置方案

方案1：4×A100（4*80GB）：可以做完整SFT+RLHF流程。

7B模型量化到int8，SFT用LoRA微调，RLHF用DPO代替PPO。效果能达到全量训练90%，训练时间增加20%，总成本3000-5000美元。

方案2：2×A100（2*80GB）：可以SFT，但RLHF需简化。

7B模型量化到int8，SFT用QLoRA微调（4bit），RLHF用DPO或直接SFT迭代。效果能达到全量训练85%，适合垂直领域，总成本1500-2500美元。

方案3：个人GPU（RTX4090，1*24G），可以做小规模验证。

7B模型量化到int4，QLoRA，batch_size=1，跳过RLHF用高质量SFT数据代替。能快速验证想法，不适合生产环境，个人学习够用。

NVIDIA RTX 4090 vs. A100: Two Powerhouses, Two Purposes

建议大家行动起来，用个人GPU使用Qwen + LLaMA- Factory + QLoRA进行SFT模型微调，感受下如何将专业数据集喂给大模型？如何训练大模型让其具备专业能力？也可以对比下SFT模型微调和通过RAG挂载知识库这两种方式哪种效果更好？

一文搞懂大模型的微调 - （LLaMA-Factory和QLoRA）

日拱一卒，让大脑不断构建深度学习和大模型的神经网络连接。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-12-05

Palantir发布新产品Chain Reaction：面向美国人工智能基础设施的操作系统

2025-12-05

OpenAI内部代码泄露！最强模型「皇帝」登基，0思考延时吓人

2025-12-04

一文看懂AI智能体系统背后的重要技术——上下文工程（Context Engineering）

2025-12-04

大模型“落地三件套”：Ollama本地部署、API 调用和LLM封装

2025-12-04

Enterprise AI的三层架构

2025-12-04

Claude Opus 4.5 的灵魂文档被人逆向提取！Anthropic 负责人承认属实

2025-12-03

一文详解容器面向大模型与AI Agent的技术变革

2025-12-03

详解Palantir AIP大模型调用工具：Query Objects

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

从需求场景出发的AI应用项目落地方法论

2025-09-19

马斯克 Grok imagine 完整使用指南：工具、案例、提示词，看这一篇就够了！

2025-10-26

实测 Sora 2 ：AI视频的“ChatGPT时刻”来了？八大场景教你解锁各种玩法（附邀请码）

2025-10-02

新版 GPT-5 刚刚发布，最卷 AI 连肝代码 7 小时，编程工具大洗牌开始了

2025-09-16

AI大家说 | 下一代AI创业的机会在哪里？定价趋势是什么？

2025-09-08

阿里发布下一代企业级智能体开发框架AgentScope 1.0

2025-09-17

RagFLow v0.20.X全面解析！双向MCP、Agentic智能体...这次真的起飞了！（附长图）

2025-09-29

Qwen3-Coder与Claude Code深度对比：谁是你的AI编程助手？

2025-09-14

一文速览OpenAI Dev Day 2025，下半年开始大洗牌

2025-10-07

Claude Sonnet4.5发布，号称世界最强模型，超越gpt-5-codex

2025-09-30

大家都在问

Bun × Anthropic：AI 运行时变革的信号？

2025-12-03

MCP是不是真凉了？

2025-12-01

如何规划一个「有节奏感」的AI产品路线图？

2025-11-28

AI Agent是「未来应用入口」，还是又一轮「技术泡沫」？

2025-11-27

200 美元，一天干完半年活：这个新出的AI科学家，是来砸博士生饭碗的吗？

2025-11-27

如何通俗的理解AI Agent的工作流？

2025-11-27

为什么大模型在企业落地那么难？

2025-11-25

Palantir牵手Snowflake，我们能学到什么？

2025-11-25

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB