免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


别卷刷榜了!AI Agent的下一个战场是“中训练”|Meta最新论文解读

发布日期:2025-10-13 12:25:44 浏览次数: 1551
作者:腾讯科技

微信搜一搜,关注“腾讯科技”

推荐语

AI Agent竞争进入新阶段:Meta提出"中训练"范式,破解反馈机制困境,让Agent学习更高效!

核心内容:
1. 当前AI Agent训练的两大瓶颈:模仿学习泛化差、强化学习效率低
2. Meta提出的"中训练"范式原理与创新点
3. 该范式对AI Agent未来发展的潜在影响与落地前景

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

2025年,AI竞争的焦点正在发生根本转变——从跑分比拼转向Agent任务完成能力。从xAI到Anthropic,行业巨头发布新品时都在强调同一个能力:自主完成复杂的长程任务。

这背后是一个清晰的共识:AI下一战场,是通用Agent。

但现实很骨感。

除了编程领域,Agent的落地应用寥寥无几。核心瓶颈之一是反馈机制的困境:要让预训练模型蜕变为强大Agent,必须通过与世界互动获得反馈来学习。然而,现有的反馈机制,要么太弱,要么太贵。

2025年10月,Meta等机构发表的论文《Agent Learning via Early Experience》提出了第三条路——“中训练”范式,试图用一种廉价而有效的反馈形式,为Agent训练搭建关键桥梁。(论文链接:https://arxiv.org/abs/2510.08558

01

反馈的鸿沟:两条“瘸腿”的主流路径

在深入了解Meta的解决方案之前,我们先了解一下反馈的困境究竟是什么。目前主流的Agent后训练方法有两种,但其反馈形式,各有其难以克服的“昂贵”代价。

图片 

第一种方法是模仿学习,也就是监督微调(SFT)。

它依赖于一种“昂贵的静态反馈”。这种方法让Agent像学生背课文一样,去模仿人类专家的操作演示数据。

高质量的专家数据本身就难以大规模生产,可扩展性低。但更致命的代价在于其能力的局限性:这种静态反馈只告诉模型“应该怎么做”,却从不教它“不这么做会有什么后果”。

模型学不到自身行为与环境结果之间的因果联系,这导致其泛化能力极差。一旦在真实操作中遇到训练数据之外的情况,Agent便会变得极其脆弱,无法适应环境的多样性。

第二条路径是强化学习(RL),它依赖于一种“复杂的动态反馈”。

它让Agent通过环境返回的奖励(reward)信号进行试错学习。它可以无限试错,但在很多情况下效率很低,原因是它严重依赖于环境中清晰、可验证的奖励信号。

然而,在许多真实世界的复杂任务(如网页浏览、多步骤工具使用)中,奖励信号要么缺失,要么非常稀疏和延迟,导致训练极其困难和低效。 

例如,在多步骤的工具使用或长远规划任务中,奖励往往在漫长的操作序列结束后才会出现,甚至非常模糊,这使得“功劳分配”变得异常困难,训练过程既不稳定又极其低效。

当前绝大多数真实世界的语言Agent环境,都缺乏支持大规模RL训练的成熟基础设施,如可靠的模拟器、标准化的重置机制和可扩展的评估平台。因此,其应用仍然高度依赖于精心设计的奖励函数或人工调整的训练流程。

结果就是一个尴尬困局:简单的不够强,强大的用不了。 

那么,有没有一种办法,能让我们在不依赖复杂奖励模型的前提下,让Agent预先“演练”一下与世界互动的方式,从而为最终成为一个经验丰富的决策者打下基础?

02

弥合之桥:“中训练”范式

Meta的这篇论文,提出了名为“早期经验”(Early Experience)的“中训练”范式,就是试图构建一座跨越模仿学习与强化学习之间鸿沟的“弥合之桥”。

它诞生于一个巧妙洞察:Agent自己探索产生的状态变化,本身就是宝贵的学习信号

这个思想很直接:既然专家数据不够用,奖励数据太稀缺,为什么不让Agent从自己的“试错”

中学习?即便没有奖励,Agent每次行动后环境发生的状态变化,就是一种极具价值、可扩展且免费的监督信号。

举个例子:让Agent学订机票,传统模仿学习只给它看成功订票的录屏。而“早期经验”会让它主动尝试:点错日期会怎样?填错证件号会怎样?每次尝试后观察环境的反应,比如报错信息、页面跳转、表单状态变化等。

这些由Agent自己行为驱动的“未来状态”,就是最宝贵的免费反馈

为了将这一理念落地,研究者们设计了两种具体、可操作的训练策略:隐式世界建模自我反思

图片

隐式世界建模 (IWM) 的逻辑是让Agent学会预测“如果我这么做,世界会变成什么样?”。 

具体步骤如下:

  • 自我尝试:在设定好的专家行为轨迹的每个状态下,让Agent生成多种备选动作(比如8个不同选择);

  • 记录数据:在真实环境中执行这些动作,记录每个动作导致的真实环境响应构建大量(状态、动作、结果状态)的数据对;

  • 微调训练预测能力:训练Agent根据“当前状态+动作”来预测“未来状态”,然后使用标准的语言模型loss(下一token预测)进行优化;

图片

简单一句话,就是通过大量的“作死”和观察后果,让Agent在没有奖励的情况下,自己悟出世界的运行规律。

自我反思 (SR) 的逻辑是让Agent学会解释“为什么专家的做法比我的其他想法更好”。 

具体步骤如下:

  • 自我尝试:同时观察专家动作和Agent备选动作的结果对比

  • 教练点评:使用强大的LLM生成详细解释,然后让Agent反思,分析为什么专家选择在权衡各种因素(任务进展、约束条件、效率等)后是最优的。

  • 微调训练预思考能力:训练Agent学会先生成这种反思推理,再输出正确动作通过标准的序列生成loss学习“先思考再决策”的模式。

图片

(论文给出的自我反思Prompt)

比如,在购物任务中,专家选择点击15美元蓝衬衫,备选是30美元红衬衫。生成的反思可能是:“虽然红衬衫符合颜色偏好,但超出了20美元预算限制。蓝衬衫同时满足款式和预算要求。”

两种方法殊途同归,都是让Agent从自己的行为后果中学习,无需外部奖励就能获得丰富的监督信号。 

经过评测,这种方法也确实有效。

研究者们在覆盖了 embodied navigation、网页浏览、多轮工具使用、长远规划等8个多样化的环境中,对Llama、Qwen等多种模型家族进行了测试,结果显示:

图片

● 直接效果:平均成功率比传统模仿学习提升9.6%

● 泛化能力:在未见过的任务上表现提升9.4%

● RL潜力:作为强化学习的初始化时,最终性能提升最多6.4% 

最后一点特别重要:经过“早期经验”训练的Agent为后续强化学习打下了更好基础,证明了“中训练”确实起到了桥梁作用。

图片

值得注意的是,这些提升在不同复杂度的环境中都保持稳定。 

无论是动作空间相对简单的embodied navigation,还是复杂的网页交互任务,“早期经验”都能带来一致的性能改进。 

03

我们为什么需要一座桥? 

这个看似简单的想法为什么如此有效?答案来自今年AI领域的一个重要理论发现。

谷歌DeepMind今年在ICML发表的研究《通用Agent包含世界模型》证明了一个关键结论:所有能够成功处理复杂、多步骤任务的Agent,内部都必须拥有某种“世界模型”,也就是对环境运行规律的准确理解。研究进一步发现,Agent的性能越强,其掌握的世界模型就必须越精确。

图片

这个发现从理论上解释了传统模仿学习的根本局限:它只学习从“状态”到“行为”的浅层映射。

而Agent要完成的是复杂的长程任务,需要在动态环境中通过一系列相互关联的决策达成目标。这要求它不仅知道“做什么”,更要理解“为什么这么做”和“这么做会怎样”。 

“早期经验”正是在补这堂关键的课。通过让Agent大量观察“如果我这样做会怎样”,它开始建立起对世界的因果理解。有了这种理解作为基础,无论是提升泛化能力,还是为后续强化学习做准备,都变得水到渠成。 

这项工作也对“中训练”的价值给出了有效的证明。 

传统AI训练是“预训练+微调”的二段式。但对于需要与世界深度交互的Agent,我们可能需要“预训练+中训练+后训练”的三段式: 

  • 预训练阶段:学习语言和知识,掌握基础能力

  • 中训练阶段:理解世界运行规律,建立因果模型

  • 后训练阶段:在具体环境中优化策略和目标

这种三段式训练范式,可能是通往真正通用Agent的必经之路。想训练好Agent,不能急于求成,必须给它时间和机会,先理解世界,再改变世界。让Agent从被动的模仿者,成长为主动的探索者,最终蜕变为智能的决策者。

04

参数效率的ScalingLaw


"早期经验"的成功,实际上附带着展示出了另一条ScalingLaw可能性

Test Time Compute测试时计算GPTo1掀起一个范式本质上是通过延长推理阶段的计算深度来增加模型能力,但这种做法在训练阶段同样适用通过延长"后训练"的深度来释放模型潜力。

也是我们为什么TTC革命中这么强调强化学原因因为强化学习就是在训练增加深度最佳方式

而在经验这个通过大量的自我递归和反思训练,一个700M参数的小模型竟然能够在某些任务上超越比自己大十几倍参数量的大模型。

其实就在说明我们TestTimeCompute利用远未达到极致

过去有大量研究表明,即使将当前模型的参数减少一半,甚至更多,对最终效果的影响都微乎其微。这说明模型中存在大量的"冗余参数",它们并没有为实际的智能行为做出贡献。

而通过"早期经验"这样的自我递归训练方式,我们实际上是在极限化每个参数的潜力。

在这里隐式世界建模让模型反复练习状态预测,这个过程迫使原本只用于文本生成的参数开始承担环境建模的职责。自我反思训练则让模型学会多角度思考,原本简单的"输入-输出"映射变成了复杂的"输入-推理-输出"过程,更多参数被调动起来参与决策。

这种通过自我递归释放参数效率的做法,可能预示着一个新的Scaling Law。传统的扩展方式是简单粗暴地增加参数量,但GPT5Grok一系列模型这种做法的边际收益递减很快。

我们也许需要一个新的,属于Test Time Compute的Scaling Law。也许可以当下臃肿模型改成高效激活模型

早期训练成功正是一种极致只有两层神经网络揭示了ScalingLaw可行性

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询