微信扫码
添加专属顾问
我要投稿
一、预训练(Pre-training)
目标:让模型学习语言的统计模式和语义信息。
数据集:利用海量的训练数据,这些数据可以来自互联网网页、维基百科、书籍、GitHub、论文、问答网站等,构建包含数千亿甚至数万亿单词的具有多样性的内容。
算法与资源:利用由数千块高性能GPU和高速网络组成的超级计算机,花费数十天甚至数月的时间完成深度神经网络参数的训练,构建基础模型(Found Model)。这一阶段对计算资源的需求极大,例如GPT-3的训练就使用了1000+的NVIDIA GPU,并花费了相当长的时间。
结果:基础模型能够对长文本进行建模,具备语言生成能力,根据输入的提示词,模型可以生成文本补全句子。
二、有监督微调(Supervised Fine Tuning)
目标:使模型具备完成特定任务(如问题回答、翻译、写作等)的能力。
数据集:使用少量高质量数据集,这些数据集包含用户输入的提示词和对应的理想输出结果。
算法:在基础模型的基础上进行有监督训练,使用与预训练阶段相同的语言模型训练算法。
资源:相比预训练阶段,有监督微调所需的计算资源较少,通常只需要数十块GPU,并在数天内完成训练。
结果:得到有监督微调模型(SFT模型),该模型具备初步的指令理解能力和上下文理解能力,能够完成开放领域问答、阅读理解、翻译、生成代码等任务。
减少对新数据的需求:可以利用预训练模型已经学到的知识,减少对新数据的需求,从而在小数据集上获得更好的性能。
降低训练成本:微调只需要调整预训练模型的部分参数,而不是从头开始训练整个模型,因此可以大大减少训练时间和所需的计算资源。
Supervised Fine-tuning
有监督微调的技术原理是什么?在预训练模型的基础上,针对特定任务或数据领域,通过在新任务的小规模标注数据集上进一步训练和调整模型的部分或全部参数,使模型能够更好地适应新任务,提高在新任务上的性能。
Supervised Fine-tuning
定义:在新任务上调整模型的全部参数,以使其完全适应新任务。
步骤:加载预训练模型 → 在新任务数据集上训练模型,调整所有参数。
应用:当新任务与预训练任务差异较大,或者想要充分利用新任务数据集时,可以选择全面微调。
三、奖励建模(Reward Modeling)
目标:构建一个文本质量对比模型,用于评估模型生成文本的质量。
数据集:需要百万量级的对比数据标注,这些数据标注需要消耗大量的人力和时间。
算法:通过二分类模型,对输入的两个结果之间的优劣进行判断。
资源:奖励模型的训练同样需要数十块GPU,并在数天内完成。
结果:得到一个能够评估模型生成文本质量的奖励模型,该模型本身并不能单独提供给用户使用,但为后续强化学习阶段提供重要支持。
模型架构:奖励模型通常采用二分类模型的结构,通过输入一对文本(即两个输出结果),判断它们之间的优劣关系。
训练数据:奖励模型的训练数据通常来源于人工标注的对比数据集。标注者需要根据预设的标准(如准确性、有用性、流畅性等)对多个输出文本进行排序或分类。
训练过程:奖励模型的训练过程类似于其他机器学习模型,需要使用大量的计算资源(如数十块GPU)和较长时间(数天)来完成。
四、强化学习(Reinforcement Learning)
目标:根据奖励模型的评估,进一步优化模型生成文本的能力,使其更符合人类期望。
数据集:使用数十万用户给出的提示词和奖励模型评估的结果。
算法:利用强化学习算法(如PPO)调整模型参数,使模型生成的文本能够获得更高的奖励。
资源:相比预训练阶段,强化学习所需的计算资源较少,通常也只需要数十块GPU,并在数天内完成训练。
结果:得到最终的强化学习模型(RL模型),该模型具备更强的理解和生成能力,能够更好地满足人类的需求和期望。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-07-30
WAIC-Day3: 谈谈Agent场景及Agent OS基础设施
2025-07-30
微软进军 AI 浏览器,维持巨头的平庸
2025-07-30
Higress ,助力企业构建私有 AI 网关和 MCP 市场
2025-07-30
刚刚,OpenAI给大学生做了个新外挂!ChatGPT一键变老师,免费可用
2025-07-30
突发!字节跳动发布同声传译大模型Seed LiveInterpret2.0,是首个延迟与准确率接近人类水平的中英语音同传系统!
2025-07-30
OpenAI深夜发布ChatGPT Study:免费AI家教,彻底颠覆传统教育
2025-07-29
AI+合同审查落地分享(下-1- 合同智能审查)
2025-07-29
AI 应用开发,还需要意图识别吗?
2025-05-29
2025-05-23
2025-06-01
2025-05-07
2025-05-07
2025-05-07
2025-06-07
2025-06-21
2025-06-12
2025-05-20
2025-07-29
2025-07-29
2025-07-28
2025-07-27
2025-07-27
2025-07-25
2025-07-24
2025-07-24