微信扫码
添加专属顾问
我要投稿
探索下一代AI如何突破学习瓶颈,迈向自主进化之路。核心内容: 1. 大模型技术从规则驱动到自主学习的演进历程 2. 大规模元学习技术的关键突破与应用前景 3. 智能体从被动理解到主动获取知识的未来路径
导读 随着生成式大模型技术的快速发展,人工智能正从“被动理解”向“主动学习”演进。本次分享将系统梳理大模型技术的发展脉络,深入解析从规则驱动到大规模预训练,再到具备上下文学习与推理能力的系统2智能的演进过程,同时探讨当前大模型在持续学习、知识发现和个性化适应方面的瓶颈问题。在此基础上,提出面向下一代自主学习智能体的核心路径——大规模元学习 ,特别是基于上下文的强化学习(ICRL)机制,探索模型如何通过丰富的交互经验实现自主学习与跨任务泛化,并展望未来“大规模元学习”的可能性,即智能体从物理世界中自主获取一手知识,迈向真正意义上的通用人工智能。
1. 大模型技术演进简单回顾
2. 智能体发展趋势探讨
3. 面向自主学习的大规模元学习
4. Q&A
分享嘉宾|王凡 深圳市机器人与人工智能研究院 研究员
编辑整理|张阳
内容校对|李瑶
出品社区|DataFun
本次分享我将汇报关于面向下一代自主学习智能体的大规模元学习技术。这是我最近开始关注并投入较多的方向。尽管该技术目前仍处于起步阶段,但我将分享我们在自主学习领域的认知以及我们认为的前沿方向。
我将直接进入主题,本次演讲主要分为三个部分。首先,我将简要回顾当前大模型技术的发展历程。其次,我将探讨智能体的发展趋势。最后,我将解释何为大规模元学习以及我们为何要提出面向自主学习的大规模元学习的概念。
01
大模型技术演进简单回顾
1. 生成式语言模型发展历程
这张图其实是一张旧图了。大约五年前,我当时还在从事对话系统相关工作时,整理了一张关于生成式对话的图。这张图最初完成于 2022 年左右,之后我将其搁置。随着时间的推移,我重新审视了这张图,并在原基础上进行了补充。
这个图中包含一点个人的看法,但大致反映了当前大语言模型的发展历程。从最初的基于专家规则,到模块化和统计方法,再到数据驱动阶段,最后到生成式的端到端模型。当然,初期的生成式端到端模型并未取得显著成功。熟悉那个时代的生成模型的人都知道,生成的语句往往包含大量无关内容,尽管很少有人认为生成式能够成为主流。然而,随着 2017 年和 2018 年大规模预训练生成模型的出现,生成效果实现了质的飞跃。随后,随着 ChatGPT 以及 DeepSeek-R1 等模型的推出,大模型技术进入了另一个高潮。
2. 第一次演进:大规模预训练–尺度幂律的开端
下面回顾这些重要的演进阶段,或许能帮助我们预测未来技术的发展方向。
首先,我们见证了大规模预训练的起步,这可以说是近年来人们热议的“规模效应”的起点,也就是尺度幂律的开端。在 2018 年之前,很少有人意识到,包括自然语言生成和理解在内的众多任务可以作为一个整体进行优化。
实际上,最早出现的预训练模型是 Elmo,它在 2017 年首次亮相,但当时知道的人并不多。紧随其后的是 GPT-1,尽管在它刚发布时并未引起广泛关注。真正引起轰动的是 Google 的 BERT 模型,它将预训练技术推向了顶峰,特别是在自然语言理解任务上取得了显著成绩。然而,如果回顾历史,尽管 BERT 为自然语言处理带来了革命性的进步,开启了非生成式的小的所谓的歧路,它的价值不可忽视,但后续的 GPT 模型更侧重于生成式架构。而 BERT 这种基于 mask language model 的架构,现在已经基本被淘汰。
3. 第二次演进:生成式模型的全面胜利
实际上,第二次的演进体现在 ChatGPT 或 GPT3.5 的推出,尽管 GPT3 的参数量已经相当大,但真正取得显著成功的还是在 3.5 版本。我总结了三个关键点,简要阐述了我认为的三个重要因素,这些因素促成了 GPT3.5 效果的爆发:
模型规模的提升。观察 GPT1 到 GPT4 的发展,我们发现数据量和参数量的几乎同步增长,在对数坐标轴上呈现线性增长趋势,这证明了其指数级的增长趋势。
数据量和覆盖范围的提升。我特别强调了在 ChatGPT 出现之前,人们较少使用的几类数据。然而,随着 ChatGPT 的推出,这些数据类型变得广为使用。例如,一种是代码,即通过思维链提示进行训练的数据。除此之外,现在还包括了大量用于训练的数理逻辑题。
训练后的优化同样至关重要。虽然这些优化方法在之前的研究中可能有所提及,但 GPT-3.5 将其提升到了一个全新的效果高度。一方面,它利用了高质量的人工标注数据;另一方面,则是采用了基于人类反馈的强化学习。
4. 第三次演进–系统 2 能力增长
第三次演进其实是系统 2 的能力增长,这次增长主要是说我们模型从系统 1 能力向系统 2 能力过渡。那么什么是系统 1 和系统 2 能力?
对于那些不熟悉这个概念的听众,我推荐阅读《思考,快与慢》这本书。这本书阐述了我们所讨论的系统 1 能力,也称为快速思考、直觉思维,或者我们直接称之为肌肉记忆。以走路为例,成年人走路看似简单的动作,实则是系统 1 能力的体现。我们每走一步,可能调动多达几十块肌肉,尽管我们对这一过程几乎无意识,我们的大脑并未进行精细的肌肉计算,至少我们没有意识到我们在做这个。同样,弹钢琴、驾驶汽车等也都体现了系统 1 能力。
系统 2 能力,也称为逻辑推理或慢思考能力,指的是我们的大脑需要经历预测、规划、重新预测和重新规划的过程,最终搜索到更好的决策。以下棋为例,比如 AlphaGo 之前,其实 AlphaGo 本质上也是包含一个系统 2 的搜索过程。
系统 2 能力的爆发其实有一些契机,特别是在大模型刚出现的时候,大家只是发现效果好。但随后人们发现,大模型具备了上下文学习的能力,这是它的一个重要前提。也就是说,当我们向大模型提供上下文信息后,其效果会有所提升,当然也有可能会变差。第二个是反思的发现。反思建立在上下文学习的基础之上。大家发现一个有趣的现象,即当大模型给出的答案不正确时,只需一个提示,例如“再想一想”,模型便可以重新思考并提供更准确的答案。这一方向不仅间接而且直接推动了后续如 O1 和 DeepSeek-R1 等模型向系统 2 方向发展。随后出现了所谓的 RLVR,即基于可验证奖励的强化学习方法。这种方法的工作原理是,当我们有一个问题需要解决时,可以允许大模型自由探索答案。右下角的图形展示了这一过程:虽然箭头曲折,代表了模型可能尝试了多种途径,但最终得到的答案并不受我们监督,我们只关注其与期望正确目标之间的差距,并利用这个差距来进行强化学习。
基于此,当我们拥有第一手的强化学习训练系统2的能力后,可以通过蒸馏方法将思维链的过程转移到其他模型上。此外,该过程中还涉及许多故事,例如当 DeepSeek-R1 发布时提出的“啊哈”时刻。实际上,系统 2 也有另一个名称,称为“Eureka”时刻,它代表顿悟或觉悟的瞬间。
02
智能体发展趋势探讨
1. 大语言模型发展瓶颈
随着大型语言模型的发展,是否意味着所有问题都已经迎刃而解?系统 1 和系统 2 是否已经解决了所有问题?近期,越来越多的专家和同行开始关注一个问题,即模型的可塑性问题。大型语言模型虽然具有强大的能力,但在可塑性方面却表现出相对较低的水平。为什么会出现这种现象?这里绘制了一张示意图,比较了儿童、成人以及大语言模型在知识、技能和学习能力方面的差异。我们发现,就知识和技能而言,目前没有任何人类个体能够与大语言模型相比拟,因为其知识既全面又有一定深度。然而,若比较学习速度,我们同样发现存在明显的差距。实际上,从去年到今年,已经有很多工作,包括“强化学习之父”Richard Sutton 等人提出的一篇论文《Deep Continual Learning》。该研究指出,当我们尝试使用梯度下降等方法解决终身学习问题时,会遇到许多挑战。这表明,梯度下降在学习过程中可能缺乏必要的灵活性,随着学习的进行,会越来越难以继续学习。香港大学的马毅教授的演讲一页我特别截出,内容是关于智能与知识的关系。过去,很多人认为智能等同于知识,但我认同用积分和微分来揭示二者的关系,是一个更为合理的途径。另一方面,我们意识到大语言模型面临的一个关键问题是,它们主要依赖于二手知识的重组织。首先,它们不具备发现原始知识的能力,所能接触到的仅限于人类输入的数据,而非主动从网络上寻找信息。尽管有些方法,如 RAG 的方法,能够在网上搜索信息,但这些信息并不能用于自我提升,仅能用于回答问题等瞬时任务。
2. 智能体趋势
自从大模型的概念兴起后,智能体的概念再次引起广泛关注。实际上,智能体是 AI 领域最古老的概念之一,特别是在强化学习方向,智能体的概念可谓深入人心。如果我们给出一个相对完整但较为粗略的定义,智能体必须具备观测、推理、行为和学习这四个环节的闭环能力。当前的智能体技术很大程度上是建立在大模型的基础上。个人理解,主要是为了弥补大语言模型在能力上的不足,采取的一种临时的人为手段。然而,这种观点可能遭到一些人的质疑。以一年前为例,尽管那时大模型已经发展了一段时间,但普遍认为 Agent 是利用系统 1 的能力来组织出系统 2 的推理思考能力。例如,人们常以大型语言模型作为系统 1,同时辅以其他工具来进行系统 2 的推理思考。然而,随着时间的推移,我们很快发现,推理能力在很大程度上已经通过模型本身得到了解决。回顾这些问题,我们会发现大模型的完善在一定程度上已经吸收了智能体的一些能力。
基于目前的观察和分析,我提出以下几点判断。首先,当前智能体的能力边界仍然受到基座模型能力,尤其是上下文学习能力的制约。我们对模型的许多定制,无论是通过上下文还是提示,甚至是 RAG 这类方法,都是通过上下文来影响模型的输出。目前,智能体技术更多是作为模型的一种补充。对于智能体终局的判断,我的理解是基座模型本身就是智能体。最近相似的观点也越来越多被提及。
关于智能体未来的发展,我们从必然性和必要性两个方面进行探讨为什么要提出自主学习的概念。从自然性和必然性的角度回顾人工智能的发展历程,我们发现其始终遵循一个核心原则,即通过自主替代人工来推动进步。回顾过去,人工智能发展经历从分层式系统发展到端到端系统,其中一些过程仍然高度依赖人工设计,如数据采集、训练和改进方法,以及目标函数优化器等。这一系列人工设计的环节如果要进行优化,就必须将整个模型生产过程纳入考量,这正是我们提出自主学习概念的初衷。
从必要性角度来说,目前智能体的认知以及能力和自然语言之间存在显著差异,这也是为什么现在做智能体大家有时候会觉得比较吃力的原因。这是因为基础模型,尤其是自然语言大模型,能够学习到很多共性知识。以数理逻辑为例,无论谁来解同一道数学题,其解答方式高度一致。然而,智能体所处的场景包含大量高度个性化和多样的知识,这类知识不太容易被模型从其参数记忆里学到。这也是目前做自主学习较困难的一个点。
3. 为什么强调上下文学习?
为什么我们要从上下文学习的角度来强调自主学习?为什么自主上下文学习能成为一个有前景的自主学习方式?我们有几条理由:
大模型已经展现和验证了对上下文的强大的利用能力
上下文学习表现出许多优点,比如无需人工设计的优化器或目标函数,能够直接进行学习,并能整合多种我们原先人工定义的学习范式,包括监督学习、强化学习、自监督学习等各种类型。在梯度优化等模式中,我们通常需要为每种学习范式定义数据采集方法和设计数据目标函数。但在上下文学习中,这些方式基本被统一了。
通过自然交互学习,这是目前人类最熟悉且门槛最低的技术之一,它使得我们可以高效地定制模型。
灾难性遗忘和数据噪声等挑战,这些挑战对梯度下降的影响很大,但在上下文学习中,它对这些难题的处理可能优于梯度下降。
当前大规模上下文学习方法的样本效率非常高。一般一个任务仅需极少量样本就能被学习,这表明它所需的样本数量远少于梯度微调方法所需的样本数量。
然而,上下文学习是否解决了所有问题呢?实际上,如果看目前模型的现状,我们发现其能力还远未达到预期:
首先,先前的研究已经表明,上下文学习能力在预训练过程中是不稳定的。具体来说,在某些数据分布情况下,上下文学习能力可能会表现出暂时性。所谓暂时性,指的是在训练过程中,这种能力可能在某个阶段出现,但随着过度训练的进行,它又会逐步消失。
与当前模型结构相关,例如 transformer 这类结构,它对记忆本质上称为零压缩,即它不进行压缩。在这样的情况下,上下文的长度无法无限制延长,这要求我们对上下文的利用必须格外谨慎,并需要精心规划。
现有的上下文无法支持一些复杂或持续反复的推理任务。包括一些做连续性推理 COT 的会发现有时候过长它未必是有什么特别好的地方,甚至有可能推了一大段,然后回到头来这个结论还不如开始的那个。
对于多模态的推理,当前的普遍的效果还是较差的。
此外,有一点我认为非常重要,可能之前很少被人提及,那就是当前的上下文学习能力基本上无法学习与预训练知识体系差异过大或无关的内容。也就是说,上下文学习仍然主要集中在与预训练相关的语料库领域内,无法真正学习到非常新颖的知识。
当前,在自主学习领域,上下文学习并非唯一的解决方案。近期热度攀升的推理时学习(Test - Time Training)同样是极具重要性的研究方向之一。尽管上下文学习与推理时学习均可纳入自主学习的范畴,但上下文学习相比 TTT 所依赖的的梯度计算,展现出更高通用性和灵活性。然而,这种优势的发挥是以更高的预训练要求为前提的。历史的车轮往往呈螺旋式前进,在自主学习这条发展路途上,虽未来走向尚未完全明晰,但可以笃定的是,上下文学习在诸多研究方向中仍将始终占据举足轻重的地位,持续发挥其不可替代的关键作用。
4. 理想上下文学习 vs 真实上下文学习
在去年底至今年期间,我们与中科院计算所的几位老师和同学合作进行了一项研究。我们使用了一个大型的 70B 级别的多模态模型,当然我不会具体说明是哪个模型,而且我们尝试的也不止一个模型,因此这项研究的结论应该具有较高的说服力。
我们设计了一个易于理解的任务。设想一个人类在家庭中工作,刚进入一个新环境时,可能不擅长寻找某物品。但经过一段时间的适应,这个人对环境非常熟悉,寻找物品或导航到某地的流程变得非常迅速。我们想知道多模态大模型是否也有这种能力。因此,我们设计了一个持续物体导航的任务,让机器人在一个房间内不断寻找物体。我们观察模型是否随时间推移,寻找物体的效率越来越高。
理想状态下,左侧展示的学习曲线代表模型在零样本情况下的表现,随着上下文信息的逐步扩展,模型的学习能力应逐步提升。然而,当达到一定程度后,曲线不再上升,这可能意味着已达到上下文学习的上限。但实际上,我们得到的曲线是右侧的图,这两个指标都是越高越好的,不是越低越好。这表明,尤其是在多模态上下文学习中,模型的实际能力可能并不像我们想象的那么强。
03
面向自主学习的大规模元学习
1. 影响上下文学习的关键要素是训练的数据分布
我们已经认识到上下文学习的重要性,但现有的模型上下文学习能力仍然极为有限。我们关注的核心问题是,哪些因素对上下文学习产生了关键性的影响?经过总结,我认为主要有三点,其中前两点已有相关文献支持,且我列举了一篇发表过研究的论文:
“burstiness”。当这个词被置于双引号中时,实际上它指的是序列内的延续性。我以一个序列为例,说明序列前后部分的延续性是否良好。
“diversity”。它相对容易理解,指的是序列间的差异性。因此,一和二看似冲突,但实际上它们并不属于同一维度。我们所需的数据特征是序列内延续性良好,但序列间差异性较大的数据。
序列训练长度。这是我们最近在仔细研究的,当序列长度不足时,上下文学习的潜力实际上无法被充分激发。
2. 上下文强化学习(ICRL)中数据分布的作用研究
这是我们在先前的研究中发现的,我们主要研究了上下文强化学习的任务。如果大家不熟悉这个任务,其实它是将强化学习的观测和行为反馈排列在一个序列中,然后通过上下文来直接学习并完成任务。我们以某种方式获得了数十万决策任务和数百亿的 token 数据,并进行了训练,以研究其上下文强化学习的能力。我们发现了一些非常有趣的现象,其中有一个结论可以与大家分享,就是上下文学习能力的通用性在一定程度上是以样本效率,甚至是零样本表现为代价的。这意味着,正如我右侧所画的示意图所示,横轴为上下文样本的数量,纵轴为模型的性能。最上面这个是比如说我们的现在预训练,当我们持续调整前面所述数据的分布以更侧重于上下文学习时,比如我们不断增加任务的数量以及增大任务的这个叫 burstiness 或者是序列内的延续性,我们发现曲线逐渐向下移动。这意味着模型在上下文学习方面的尺度变长了。似乎学习效率有所降低,但同时获得了更强的泛化能力。这引发我们思考:零样本能力、和上下文学习能力可能无法同时得到。这要求我们采用更长的学习序列,并引入多样化的任务,以充分激发上下文学习的能力。
3. 从大规模预训练到大规模元学习
正是基于这篇文章,我们从大规模预训练转向了大规模元学习。这两者的界限目前并不清晰,但我们希望给出一个严格的区分定义,明确什么是预训练,什么是元学习。通常,预训练被认为涉及大量未经加工或弱加工的数据。而预训练的目标在于掌握多项技能。相比之下,大规模元学习则是通过大量精心设计的数据集,以提升学习能力为目标进行训练。从学习曲线的角度来看,如果我们为大规模元学习绘制一条线,它应该是如下所示。该模型应该展现出在上下文中持续成长和能力提升的范式。相较于传统的少样本学习,它在处理长文本方面的能力有所扩展。尽管其起点较低,零样本能力比较差,但通过大量上下文的定制,能够达到更高的效果。
4. 上下文强化学习(ICRL)可以像人为设计算法一样通用且更高效
我们已经进行了许多初步验证,例如之前提到的上下文强化学习工作,我们证明了该方法可以像人为设计的算法一样通用,还远更为高效。我们采用了一种称为“世界随机化”的方法,这种方法构建了大量与真实世界无关的任务。过去,这些任务可能被认为是初级或低质量的。然而,我们发现,只要任务数量足够多,模型就能很好地泛化到接近真实的任务。例如,在上下文强化学习中,对于未曾见过的任务,包括在设计时根本未曾考虑过的任务,它依然可以泛化。此外,它不仅能够与在线强化学习进行比较,还能够执行类似离线强化学习的功能。
进一步观察大型语言模型在简单任务上的表现,他们实际上无法完成这些任务。如果仅像强化学习那样逐个提供状态或 reward,模型的表现几乎和随机没有差别。即便我们向其展示完整图景并让其进行规划,其决策依然基于对场景的浅层理解,或者依赖生活常识,在一些特殊设计的任务上表现还是相对较差。
5. 利用上下文学习实现的自主学习以至自主发现知识
基于此我们可以想象,如果模型具备从交互中学习的能力,它或许能摆脱目前仅依赖二手知识训练的模式。如上图所示,这实际上代表了当前大模型训练的主要范式:人类通过认知和影响世界,然后总结并传承知识,再输入给大语言模型,这种情况就好比模型只是接收了二手知识。随着模型的发展它如果具备自主学习的能力,这时开始它具备直接认知物理世界,并从物理世界中总结和自主发现一手知识的能力。我们认为,这种能力是实现通用人工智能的关键。如果做不到这一点,所谓的通用人工智能在我看来是不太现实的。
6. 可能的下一轮演进方向-系统三
我们注意到最近有一篇发表在 Nature Reviews上的文章,提出了所谓的“系统 3”概念。显然它与前两个系统有着显著的区别。该文章中有一张截图如上,系统 1 的能力,即我们的直觉能力,该文章认为主要是通过天生的一些素质发展的。而系统 2 的能力(或者 Eureka 时刻)则是通过深入思考和突然的领悟获得的,从不会到突然会。系统 3 则是通过持续不断的练习来磨练和提升技能的能力。目前的大模型显然不具备系统 3 的能力。那么,系统3是否可能是下一阶段的发展方向?随着系统 3 能力的发展,是否有可能帮助智能体解决当前遇到的许多难题?我认为这是很有可能的。
7. 进展中工作
最后,我想介绍的是深圳市人工智能与机器人研究院的具身智能中心。我们目前的主要目标是研究能够适应跨场景、跨任务和跨本体的通用集成智能体的基础模型。我们的研究范围不仅限于上下文强化学习、空间学习,还包括跨本体学习能力等方面。此外,我们还有一系列开源库可供大家关注。
以上是我今天分享的内容。谢谢大家!
04
Q&A
Q1:可以解释一下什么是上下文学习,以及 PPT 中对应内容的解释。
A1:大家在使用模型时,通常会遇到一个问题:即提供一个问题,模型便给出答案。但关于上下文学习是如何发生的,我认为通过一个例子来说明会更为清晰。当模型给出的答案不准确时,我们应提供反馈,指出答案中存在的问题,并根据正确的答案重新组织信息。我不清楚大家是否拥有这样的应用经验:实际上,在这种情况下,上下文学习已经发生了。当然,这不仅包括你给它的提示,也包括模型自身的反思和推理。我们之前提到的反思,包括模型的自我推理。例如,如果一个模型经过深度思考,那么它在考虑了大量信息后给出的答案为什么比不考虑这些信息时要好呢?实际上,它们被整合到模型的上下文中。所起的作用就是有这些上下文和没有这些上下文相比,我的模型的能力是否得到了提升?这种提升就是我们所说的上下文学习。
Q2:分享中提到了双系统概念,最近在具身智能领域,双系统变得极为热门。例如 Google 的 GI 和 robotics 中的 helex,它们实质上是快系统和慢系统的结合。我想了解,您认为在具身智能领域,未来是否也会遵循双系统的模式,这是否是一个重要的发展趋势?
A2:我认为双系统肯定是一个发展趋势。实际上,大语言模型已经相当成熟,而且在 robotics 领域,许多研究者也在积极探讨双系统。我认为目前系统 2 的能力对于机器人技术的重要性并不突出。主要原因是短期内系统 2 通常适合慢思考但效果不佳。以机器人运动控制为例,如果机器人需要花费较长时间来计算其动作,那么其性能将显得极为低下。与此相反,我刚才提到的系统 3,这一概念最近才有人提出。虽然目前尚无定论是否存在系统 3,但我认为对于机器人的许多控制任务,包括抓握物体和运动控制,系统 1 和系统 3 的能力更为关键。相比之下,短期内系统 2 的应用场景相对特殊,在机器人领域的实际应用可能较为有限。
分享嘉宾
INTRODUCTION
王凡
深圳市机器人与人工智能研究院
研究员
王凡,深圳市人工智能与机器人研究院(AIRS)具身智能中心研究员,前百度杰出研发架构师, 人工智能算法高级工程师,发表超过 40 篇顶级研究论文(包括 Nature 子刊封面文章) 。在大语言模型,自动驾驶大模型,生物表征大模型等领域有多个开创性工作。获得超过 80 项国内外专利,吴文俊人工智能科技进步奖(特等奖)等。目前专注通用具身智能体的自主学习能力研究。
往期推荐
点个在看你最好看
SPRING HAS ARRIVED
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-05-29
2025-04-11
2025-04-12
2025-04-06
2025-04-29
2025-04-12
2025-04-29
2025-04-17
2025-05-07
2025-05-07
2025-06-30
2025-06-30
2025-06-30
2025-06-27
2025-06-26
2025-06-26
2025-06-25
2025-06-25