微信扫码
添加专属顾问
我要投稿
还在纠结RAG和微调怎么选?这篇实战笔记帮你理清思路,避免踩坑! 核心内容: 1. 微调与RAG的核心区别与应用场景解析 2. 三种微调方式(CPT/SFT/DPO)的实战选择策略 3. 必须使用微调的三大垂直场景与效率需求
现在很多AI科普文章都会提到微调,RAG。
但是没有实战的过的同学可能会问🤔——
啥时候用RAG?啥时候用微调呢?有啥区别?不都是让模型增加知识面的吗?
今天我们就对这个问题进行粗略归类——
你可以简单理解为在预训练之后(预训练你可以简单理解成自监督学习,得到一堆参数但是还不会自己回答)
——进行的一些QA对训练,来教会模型组织语言,回答问题。
但是要注意微调是没有对知识样本做扩充的,扩充还是通过预训练完成的。
微调之后才是基于人类反馈的强化学习。
简单说就是预训练👉微调👉强化学习,微调是中间这个环节。
1、继续预训练-CPT:来增加知识、能力。补充模型在特定领域的缺陷。
2、微调训练-SFT:给模型更多的QA对,来增强模型的依从性。常用于垂直大模型。这是现在最主要的方式。
3、偏好调优-DPO:用负反馈优化输出,让模型知道不能干啥,啥是错的。
但是没事也不用微调,不要听到别人说微调自己也想微调……有很多已经调好的,可以去百炼云上看😂我之前也写了一篇可以体验简版流程,实际比这个难n倍。零基础也能体验模型微调!魔塔+LLaMa Factory手把手教程
优先级可以按照提示词大于RAG大于微调。
1、针对特定行业/领域,如果模型根本就不具备特定知识,你可以用继续预训练-CPT。只不过数据上很多是1500万字起步(下一篇推送会讲讲微调的数据质量要求有多可怕)
2、针对特定问题,微调训练-SFT可以用RAG、提示词、示例来做一些代替。因为SFT对数据质量要求要比RAG高,可以选择不那么折腾直接上RAG
3、至于偏好调优-DPO,你可以选择用提示词示例。因为错误答案本身就对数据的要求更多了。你要枚举多少回答来让模型记住啥是错的?
再好的提示词都有输出上的出入,如果是垂直指定的问题,你要求它回答的丁是丁卯是卯,那还是用微调最好。特别是金融和医疗。
1、比如在履职问题测评中,你需要对问题做严格分类,查询特定的数据库,也可能涉及到指定的关键词。说白了就是场景足够垂直。
2、高并发任务、对效率要求极高的场景,可以通过微调加速响应。
比如对即时主观题打分,就会需要快速响应来适应考试节奏等。
3、特别是端侧,很多服务都需要云端判断,对定向场景需要的就是速度和准确度,离不开微调。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-04-11
那个“爱马仕”,想拯救“智障”小龙虾
2026-04-10
重磅!Anthropic官方Harnerss发布了!
2026-04-10
刚刚,100 美金的 ChatGPT 来了
2026-04-09
技术教科书:顶级开发团队设计的Harness工程项目源码什么样
2026-04-09
Anthropic 官方 Harness 发布:全面解读 Managed Agents
2026-04-09
SDD-RIPER 团队落地指南:如何让整个团队在一周内跑通大模型编程
2026-04-09
Claude Managed Agents 公测发布!Agent 开发成本直降 500 倍
2026-04-09
Anthropic 今天发了一个新产品,可能会让一批做 AI 智能体基础设施的团队失业
2026-01-24
2026-01-26
2026-01-23
2026-03-31
2026-03-13
2026-01-14
2026-01-21
2026-02-03
2026-02-03
2026-02-14
2026-04-07
2026-04-01
2026-03-31
2026-03-31
2026-03-22
2026-03-22
2026-03-21
2026-03-20