微信扫码
添加专属顾问
我要投稿
探索LLM如何从"快思考"进化到"慢思考",揭秘CoT与RL技术融合如何重塑行业智能。核心内容: 1. CoT与RL技术融合推动LLM思考模式升级 2. 行业场景中主观性任务面临的RL训练挑战 3. 解决模糊奖励信号的关键思路与实践路径
Ideas are my own.
本文主要是受Lilian Weng的"Why We Think"博客文章和张小珺商业访谈录最近访谈播客 “和张祥雨聊,多模态研究的挣扎史和未来两年的2个GPT-4时刻”启发,对自己在RL方面的一些胡思乱想做个梳理。大部分个人想法都是YY阶段,还没有实践,难讲对错,很多还是假想阶段。
去年12月OpenAI o1模型发布,意味着大模型LLM的思考模式开始从“快思考”向“慢思考”演进。“慢思考”意味着逻辑、推理和规划,而实现这一演进的关键,在于两种技术的深度融合:思维链(Chain-of-Thought, CoT)与强化学习(RL)。
CoT通过引导模型生成一步步的推理过程,模拟了人解决复杂问题的思考轨迹 ,而RL则提供了一个强大的框架,通过奖励和反馈来优化并“教会”模型如何进行更有效的思考。
要理解CoT与RL的关系,DeepSeek V3与R1的关系是一个很好的例子。可以把DeepSeek-V3想象成一个学富五车、才高八斗的“通才”基础模型。DeepSeek-R1则是在V3的基础上,通过专门的CoT与RL训练,被打造成的一个推理“专才”。其训练过程大致是:
首先,通过监督微调(SFT)等方法,教会V3模型生成符合CoT格式的、结构化的思考步骤——这相当于教会它“如何思考”。
然后,再通过强化学习(RL),对那些能导向正确答案的CoT给予奖励——这相当于一个教练在不断地通过实战和反馈,优化它的“思考质量”。
最终,RL将V3的原始潜力,放大并稳定成了R1卓越的推理能力。
COT和RL的结合在复杂行业场景显得更加重要,因为一旦具备了行业场景专家级的推理能力,就意味着巨大的商业价值,比如个性化智能客服、个性化智能营销、各种专家级数字员工等。
前途是光明的,但道路是曲折的。复杂行业场景任务的共同点是:它们的成功标准很多时候是主观的,过程是开放或半开放的,结果往往是极难用客观标准评分的。
那如何为这些“难以评分”的行业场景任务,设计和实施有效的CoT强化学习训练?
一、核心困境 - 模糊的RL奖励信号
对于行业场景任务,LLM学会思考的核心困境集中体现在“难以评分”这一根本性难题上,即RL赖以为生的奖励信号(Reward)本身是残缺和模糊的。
奖励信号为何残缺模糊?
目标本身是主观的: 比如个性化服务、创意写作、创意视频、个性化辅导、个性化营销等任务,其“好坏”没有绝对标准。一个“富有洞察力”的商业分析或一段“充满共情”的教练对话,好还是不好的判断因人而异。这种主观性使得无法像解数学题那样设计一个普适的、客观的奖励函数。
奖励信号是稀疏和延迟的: 在一个长达数月的B2B销售流程中,唯一明确的信号可能是最终“签单成功”或“失败”。但这个信号对于指导过程中成百上千步的CoT来说,过于稀疏和延迟,比如营销失败是因为第二周发的邮件写得不好,还是第五个月的报价策略出了问题。同样对于几十步的多步复杂任务中哪些关键决策导致了最终结果的成功或者失败,这就是RL中经典的“信用分配难题”(Credit Assignment Problem),归因难。
一个不容易定义、模糊不清的奖励目标,必然会导致RL训练过程走上歪路。而残缺的奖励信号还将引发两个问题:
奖励作弊(Reward Hacking): 这是RL领域一个棘手问题。当奖励规则存在漏洞时,模型会像一个“聪明的懒学生”,找到绕过真正努力、专刷“考试分数”的捷径。根本原因在于“有缺陷的逻辑强化”,即只奖励了正确的“结果”,而没有惩罚错误的“过程”。一个模型可能用错误的公式碰巧算对了答案,RL会错误地强化这条有缺陷的思维链,这本质上是在“鼓励”模型投机取巧。
思考的忠诚度问题: 奖励作弊引出了一个更隐蔽、更危险的问题,CoT的思考忠诚度。模型生成的CoT,是否真实地反映了它得出答案的实际过程,还是仅仅为了迎合奖励模型而事后反推编造的一个合理解释?模型完全可能先“猜”出答案,再生成一个看似合理的CoT。对于金融策略、医疗诊断等高风险行业应用,一个“不忠诚”的、看似完美的CoT,其潜在风险甚至比一个坦承自己不会或者答案直接错误的模型影响更大。
Source: Why We Think by Lilian Weng
二、破解之道 - 构建“真思考”RL的工具箱
面对“难以评分”这一核心困境,需要解决这个困难的一套“工具箱”,它涵盖了奖励设计、数据合成、算法优化等多个方面,多管齐下才有可能在复杂行业场景取得效果。
1. 奖励设计:为“好的思考”定义实际价值
既然简单的奖励信号行不通,就需要更合理的“指挥棒”,这个指挥棒不再是简单的“奖励建模”,而是复杂的“奖励工程”。
过程奖励 vs. 结果奖励
ORM评估最终输出,而PRM评估中间的CoT步骤。
过程奖励模型(PRM): 像一位批改每一步草稿的老师,它对CoT的每个中间步骤进行评分。这种方法反馈密集,能更好地塑造理想的思考风格。但其致命弱点一是在行业场景经常难定义每一步的Reward, 二是极易出现Reward Hacking,因为模型会很快学会如何生成“看起来正确”的步骤来迎合评分标准,而非进行真实思考。
结果奖励模型(ORM): 像一位只看期末考试成绩的老师,它只关心最终输出的正确性或质量。这种方法目标明确,尤其适用于有可验证答案的任务(如数学、代码)。但其反馈信号稀疏,难以指导漫长的思考过程。
组合奖励机制
为了在“难以评分”的任务中取得成功,需要超越简单的ORM和PRM,采用更先进的“组合拳”。打比方,奖励机制的设计可以从一个单一分数变成一个“平衡记分卡”机制,多维度奖励。
层级奖励模型(HRM):这是PRM的进化版,旨在对抗奖励作弊。HRM不仅评估单个步骤(细粒度),还评估连续多个步骤组成的序列(粗粒度)。它的精妙之处在于能够识别并奖励“自我修正”的行为。例如,一个PRM可能会惩罚一个错误的步骤;而HRM则能发现,虽然第三步错了,但第四步成功地识别并纠正了第三步的错误,因此它会给这个“知错能改”的思考序列一个高分。这使得奖励信号更加鲁棒和智能。
Source: Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models
RLHF / RLAIF:引入“有品味”的裁判
Source: RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback
对于创意、共情这类主观性极强的任务,我们需要一个有“品味”的裁判。RLHF(基于人类反馈的强化学习) 和 RLAIF(基于AI反馈的强化学习) 正是为此而生。其核心机制是训练一个偏好模型(Preference Model)。
Source: “Constitutional AI: Harmlessness from AI Feedback”
我们不再让评分者打一个绝对分数,而是让他们对模型生成的两个CoT或结果进行比较(“A和B哪个更有创意?”)。偏好模型通过学习大量的这种成对比较数据,学会了人类或更强AI的“偏好”,然后作为一个可扩展的、自动化的“品味裁判”,为RL过程提供奖励信号 。Anthropic的Constitutional AI 更是RLAIF的一种高级形式,它将一系列原则(“宪法”)写入AI裁判的prompt中,使其能根据预设的价值观进行判断。
多目标强化学习(MORL):平衡的艺术
Source: “EMORL: Ensemble Multi-Objective Reinforcement Learning for Efficient and Flexible LLM Fine-Tuning”
一个好的商业策略需要平衡“风险”与“收益”;一篇好的文章需要平衡“创意”与“流畅”。这些多维度的、有时甚至相互冲突的目标,很难用单一奖励函数来衡量。MORL 则允许我们将这些维度作为独立的目标进行优化。
例如,我们可以同时优化一个“创意分”和一个“逻辑分”,RL算法的目标是在这两个分数之间找到一个最优解,而不是为了追求极致的创意而牺牲基本的逻辑。EMORL等框架甚至通过集成学习的方式,让多个专攻单一目标的模型协同工作,以达到高效灵活的多目标优化。
向HRM和MORL的转变表明,对于复杂推理,模型如何得出答案与答案本身同等重要,尤其是在难以直接验证结果的情况下。这推动RL超越简单的目标实现,转向关注整个推理过程。这对数据收集具有启示:我们不仅需要好的结果,还需要好的(和坏的)推理过程COT的示例。
2. 数据合成:“思考轨迹合成”
既然高质量的CoT数据如此稀缺,就需要尝试让模型学会“自我造血”。
自我启发(Bootstrapping)
Source: “STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning”
以 STaR (Self-Taught Reasoner) 为代表的自举方法是核心思路 。其精髓在于一个巧妙的循环:
模型尝试生成CoT来解决问题。
如果答案正确,这个(问题,CoT,答案)的轨迹就被视为高质量数据,用于微调模型。
如果答案错误,STaR会利用已知的正确答案,让模型反向生成一个合理的CoT——这个过程被称为“合理化”(Rationalization)。这就像一个学生做错了题,老师告诉他正确答案后,让他反思并写出能导向这个正确答案的解题思路。
这个“合理化”步骤是关键,它为模型的失败尝试也提供了宝贵的学习信号,从而源源不断地生成高质量的CoT训练数据。从技术上讲,STaR可以被看作是策略梯度(Policy Gradient)RL算法的一种简化近似,它极大地提升了数据利用效率。
还有BOLT(自举长CoT),它使用上下文学习从标准指令模型中自举长CoT数据,然后进行SFT和在线训练。当人工标注的CoT稀缺时,这可以为RL生成更多的CoT数据。DeepSeek-R1中出现的“Aha moment”是一个强有力的例子,模型在纯RL过程中也能够学会反思和回溯。
模拟世界与合成用户(Simulation & Synthetic Users)
Source: “Sleepless Nights, Sugary Days: Creating Synthetic Users with Health Conditions for Realistic Coaching Agent Interactions“
对于需要与人交互的“难以评分”任务(如个性化教练),我们可以构建一个虚拟的“训练场”。业界已经开始尝试基于真实世界的数据(如人口统计、健康数据、心理特质等)来构建具有不同性格、目标和困境的“合成用户”。
这些合成用户被赋予了详细的背景故事和行为模式,然后在一个模拟环境中(如Concordia系统)与AI教练进行交互。通过与成千上万个永不疲倦、风格各异的“虚拟客户”对话,AI可以在安全、可控、低成本的环境中,高效地学习如何生成有效的、个性化的CoT。
3. 算法优化:复杂思考的“大脑”
有了精巧的奖励和充足的数据,我们还需要为AI配备一个能够支撑复杂思考的“大脑”。这些架构是解决复杂、多步“难以评分”任务的底层支撑。
分层强化学习(HRL):长时程任务的“分而治之”
Source: Hierarchical Reinforcement Learning Based on Planning Operators
面对像B2B销售流程这样需要数十个步骤的“长时程任务”,单一的RL策略很容易在巨大的决策空间中迷失。HRL提供了一种“分而治之”的优雅解法。其核心是构建一个两层(或多层)的决策体系:
一个高层“管理者”(Manager)策略,负责将宏大、模糊的最终目标(如“签下订单”)分解为一系列清晰、可管理的子任务或子目标(如“识别关键决策人”、“准备产品演示”、“处理客户异议”等)。
一个低层“执行者”(Worker)策略,专注于执行好每一个具体的子任务,生成达成该子目标的CoT。
通过这种方式,一个复杂的、奖励稀疏的“长过程”,被分解成了一系列奖励更密集的“分阶段冲刺”,从而大幅提升了长程决策(Long-horizon Decision)的成功率和学习效率。
多智能体协作:超越“单体巨兽”的“大脑分区”
在解决需要整合海量信息才能评分的复杂任务时,不断扩大模型的上下文窗口可能是一条低效的路径。一个更具创意的构想,源自张祥雨博士访谈中提到的想法,即构建一个“大脑分区”式的多智能体协作系统。
Anthropic公司最近披露的其多智能体研究系统,为这一构想提供了强有力的实践印证。他们的系统并非一个无所不能的单体模型,而是一个精心设计的协作框架,其核心是“Orchestrator-Worker”(协调器-工作者)模式。
Source: Anthropic
任务分解与委派: 一个Orchestrator(Lead Agent)首先分析用户的复杂请求,制定研究策略,然后将大任务分解成多个可管理的子任务。
并行处理: 协调器将这些子任务委派给多个并行的Worker(Sub-agents)。每个Workder都有明确的目标、输出格式和工具使用指南,从而避免重复劳动并确保全面覆盖。
动态思考与适应: 每个Agent都被赋予了“思考”的能力。Orchestrator在规划阶段进行“扩展思考”,而Worker在收到工具返回结果后进行“交错思考”,以评估信息质量、发现知识缺口并调整下一步行动。
高效资源管理: 系统甚至可以根据任务的复杂度,动态调整投入的Agent数量和工具调用次数,实现资源的有效扩展。
这种架构不仅在计算上更高效、更可扩展,也更符合复杂商业世界的运作逻辑。最关键的是,这样的多智能体系统同样可以通过端到端的RL进行训练,让智能体们自主学会如何高效沟通和协作,以最大化共同的团队目标。
三、复杂行业场景的RL-CoT实践
1. 稳健RL-CoT的数据策略:质量、多样性与合成生成
高质量数据是RL成功的关键护城河。
对于难评分和个性化任务,这不仅包括提示和结果,还包括好/坏CoT的示例、用户偏好和上下文信息。合成数据生成在人工数据稀缺时可以增强数据量,如通过STaR/BOLT自举CoT,或生成合成用户的数据等方式。
一个成功的RL-CoT系统,用于应对这些挑战性任务,很可能是一个混合系统,它结合了多种技术,如SFT预训练、多样化的奖励模型、合成数据生成、针对关键反馈的人机协同等,而不是依赖单一的RL方法。
没有单一的RL算法或奖励类型能够完美解决所有问题,如稀疏性、主观性、上下文、个性化等,比如DeepSeek-R1采用了分阶段训练。
合成数据可以扩展规模,但真实的人类反馈(RLHF)对于细微之处至关重要,所以更好的循环流程可能是这样的:基础SFT -> 合成数据+RLAIF进行RL获得通用技能 -> 针对关键/主观场景任务进行细粒度对齐的RLHF→再次SFT→…..
2. 复杂任务的Agent架构与训练方案
架构考虑因素包括用于上下文的记忆增强(Context管理),以及用于个性化和上下文的潜在多智能体/模块化设计。训练方案则可能包括:
分阶段训练:先进行SFT以建立基础知识/CoT格式,然后通过RL来提炼推理并实现特定目标,如DeepSeek-R1的方法。
任务学习:逐步增加任务复杂性或个性化深度。
迭代学习(类STaR循环):持续生成CoT、评估并进行微调。
RL在这些任务中的“环境”概念需要扩展。它不仅仅是一个静态数据集,还可以包括动态组件,如模拟用户、实时工具交互,甚至其他充当协作者或评论者的LLM。
构建和管理这些复杂环境是一项重大的工程和研究挑战。对于个性化辅导,每个“用户”都是一个独特的环境,其状态不断演变。对于创意写作,它可能是一个具有一致性约束的“故事世界”。RL智能体的策略必须学会在这些动态、交互式且通常部分可观察的环境中生成有效的CoT。
3. 迭代改进与自我修正的作用
模型可以被训练来反思和纠正其自身的CoT或输出,尤其是在外部反馈稀疏的情况下。诸如自我修正学习 和SCoRe 等技术,RL可用于激励有效的自我修正。
DeepSeek-R1中出现的“Aha moment”是一个强有力的例子,模型在纯RL过程中学会了反思和回溯。
4. 工具使用的一致性整合
对于高度情境化的任务,RL不仅需要优化语言CoT,还需要优化工具交互序列,比如查询、诊断、解析结果等。奖励函数必须考虑工具使用的成本和效用。
“评分困难”不仅关乎最终结果,也关乎评估CoT中使用的上下文的质量和相关性以及应用的个性化的适当性。这要求奖励模型本身具备上下文感知和个性化感知能力。
例如,辅导智能体可能给出事实正确的建议(结果),但在CoT中忽略了用户陈述的情感状态(个性化失败)或曲解了过去的对话(上下文失败)。
因此,奖励模型(尤其是PRM/HRM)不仅需要评估逻辑有效性,还需要评估每个CoT步骤的上下文相关性和个性化质量。这使得奖励建模任务更具挑战性,可能需要具有强大上下文理解和个性化评估能力的LLM Judge。
4 Key Takeaways
要真正解锁AI在复杂行业场景中的“思考”能力,需要认真考虑以下四个观点:
观点1:“Pattern is all you need” - RL的本质是放大而非创造
这或许是整个领域最深刻、也最容易被忽视的洞察,源自张祥雨的访谈:“Pattern is all you need” 。
强化学习(RL)在CoT范式中,扮演的角色更像是一个放大器和稳定器,而不是一个从零开始的创造者。模型之所以能通过RL学会复杂的推理,根本原因在于其庞大的预训练数据中,已经包含了人类在解决问题时留下的、尽管稀疏但广泛存在的“思考模式”(patterns)。比如在技术论坛上,一个高手会详细记录自己如何尝试、失败、回溯、最终解决问题的全过程。
RL的作用,就是通过奖励信号,精准地找到这些有效的思考模式,并将其“放大”和“稳定化”,让模型在需要时能可靠地复现它们。如果预训练数据里充斥着“跳步”的结论和不透明的过程,那么后续的RL训练将是无源之水、无本之木。
未来,垂直行业场景构建大模型应用的竞争护城河,将不仅仅是算力或模型参数,更是高质量、包含多样化思考模式的专有数据集。数据策略的重心必须从追求“量”的堆砌,转向对“质”的深度挖掘和构建。拥有能反映领域内专家真实思考过程(包括弯路和反思)的数据,将成为训练出真正“会思考”的胜负手。
观点2:从“奖励建模”到“奖励工程”的演进
面对创意、共情、战略这些主观且多维度的任务时,试图用一个单一的、静态的奖励模型(无论是PRM还是ORM)来评价CoT的好坏,注定会失败。这就像试图用一个KPI来衡量一个优秀CEO的全部价值一样,多数是无效的,更好的方式类似平衡记分卡方式,“既要又要还要”。
未来的方向,必然是从“奖励建模”(Reward Modeling)走向“奖励工程”(Reward Engineering)。这不再是训练一个模型,而是设计一个动态、多维、自适应的奖励系统。这个系统会像一个精密的仪表盘,有机地融合多种技术:
用ORM确保最终结果的大方向正确。
用PRM和HRM对思考过程的关键节点进行引导和约束。
用RLAIF/RLHF引入人类或AI专家的主观偏好,为“品味”和“风格”打分。
用MORL来动态平衡“效率”、“创新”、“安全”等可能相互冲突的目标。
甚至,这个系统会包含一个人机协同的实时反馈回路,在关键的模糊决策点,引入人类专家的判断,需要对业务价值的深刻理解和将其转化为有效奖励信号的系统工程能力。
观点3:“智能体协作”将取代“单体智能体巨兽”
在解决需要整合海量信息、进行长程规划的复杂任务时,各大模型陷入了一种更大上下文窗口的“军备竞赛”,但这可能是一条低效的歧路。
真正的出路,在于“智能体协作”(Agent Collaboration),或者说,就像张祥雨访谈中提到的构建一种“大脑分区”式的架构。Anthropic最新的多智能体系统,已经为我们展示了这一理念的强大实现。
Source: Anthropic
与其训练一个试图包揽一切的“单体巨兽”,不如构建一个由多个、更小、更专业的智能体组成的协作团队 。在这个体系中,一个Orchestrator Agent负责宏观战略和任务分解,多个并行的 Worker SubAgent则专注于各自的子任务。
然而,目标与工程现实之间还存在巨大的鸿沟需要跨越。Anthropic的经验说明,构建高效的多智能体系统,远不止是算法问题,更是复杂的系统工程挑战:
状态管理与错误累积: Agent是长时间运行且有状态的,一个小错误就可能在长链条中被无限放大。
调试的噩梦: 面对非确定性的、动态决策的Agent,传统的调试方法几乎失效,需要全新的可观测性工具。
“工作流”与“智能体”的权衡: Anthropic明确区分了由代码预先定义的“工作流”(Workflows)和由LLM动态指导的“智能体”(Agents)。前者更可控、更可靠,后者更强大但更难驾驭。
未来的AI应用开发范式,将从“训练一个大模型”转变为“构建一个Agent Team”。但这并非轻易实现,它要求必须构建全新的、面向Agent的系统工程能力。
观点4:从“奖励工程”到“环境扩展”
当我们掌握了“奖励工程”和“智能体协作”之后,下一个制约AI发展的核心瓶颈是什么?环境扩展性(Environment Scaling)。
当前的RL训练,无论是数学题还是代码生成,都还依赖于一个可以被清晰定义和验证的“环境”。但要让AI真正解决开放世界的行业问题,我们需要能够大规模、低成本地创建和管理无数个复杂、动态、真实的模拟环境。为每个任务都靠人力去搭建一个环境,效率太低,这正是当前RL方法与人类学习方式的最大差距。
解决“环境扩展性”问题的终极目标,是实现“自主学习”(Autonomous Learning)。AI不再被动地在人类搭建好的环境中接受训练,而是能像人一样,主动地探索、与真实或模拟环境交互、从非结构化的反馈中学习,并自我设定目标、自我驱动成长。
当我们解决了“如何学”的问题后,最终真正的护城河将是“在哪里学”。能够构建可扩展的、高保真的“世界模拟器”或“行业环境”的能力,将成为AI应用的下一个制高点。谁能率先让AI摆脱对人工环境的依赖,实现真正的自主学习,谁就率先进入AI应用的下一阶段。
结语:下一代AI,从"学会思考"开始
LLM正在从一个无所不知的“知识搬运工”,向一个能够独立思考、解决未知问题的“思想创造者”演进。
如何演进目前还并没有共识,但有些破局的路径也在各种尝试中变得清晰。通过挖掘和放大预训练数据中的思考模式,构建工程化的多维奖励系统,并采用智能体协作的架构,我们将能够教会AI如何在最复杂的行业场景中进行“思考式”的强化学习。
对于企业和开发者而言,那些率先掌握了如何构建和训练“会思考”的AI系统的组织和个人,必将在复杂行业场景的个性化服务和复杂决策支持等商业核心战场,建立起最深、最宽的护城河。
Enjoy!
References:
"Why We Think" by Lilian Weng
“和张祥雨聊,多模态研究的挣扎史和未来两年的2个GPT-4时刻” by 张小珺商业访谈录
"How we built our multi-agent research system" by Anthropic
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-06-15
YC S25 拆解:给AI创业者和产品经理的终极指南
2025-06-15
要不要搞多智能体?Anthropic和Cognition干起来了……
2025-06-15
科普|一文看懂AI发展史:主要发展阶段与改变世界的突破性事件
2025-06-15
AI科普|理解那些看似高级的AI概念和热词(下)
2025-06-15
98%医生点赞的AI队友,斯坦福实验揭秘:诊断准确率飙升10%!
2025-06-15
保险业大模型的应用场景分析与规划
2025-06-15
数据Infra:大模型训练和推理过程中关键因素的影响分析报告
2025-06-15
Python+Milvus+Langchain+大语言模型实现智能问答系统
2025-05-29
2025-03-20
2025-03-21
2025-04-11
2025-03-20
2025-03-19
2025-03-20
2025-03-19
2025-03-19
2025-03-19