微信扫码
添加专属顾问
我要投稿
MIT 让AI学会自我进化,能力暴涨!SEAL框架让语言模型自主生成训练数据并自我更新,在ARC-AGI任务上成功率从0%跃升至72.5%。 核心内容: 1. SEAL框架如何实现AI自主生成训练数据并自我更新 2. 在ARC-AGI任务上的惊人表现:从0%到72.5%的成功率 3. 双循环架构的设计与强化学习优化策略
AI 终于学会了自我权重更新!
MIT 的研究团队刚刚发布了SEAL(Self-Adapting Language Models)框架,让语言模型具备了自主生成训练数据并自我更新的能力。
在ARC-AGI任务上,同一个模型从完全无法解决(0%)跃升至72.5%的成功率。
网友纷纷惊呼太疯狂!
这次的AI,不只是数字上的性能提升,而是学习方式的根本性转变。
研究团队在论文中用了一个生动的类比:
想象一个准备机器学习期末考试的学生。
许多学生依靠笔记来准备考试,这些笔记通常来自课堂内容、教科书或网络信息。学生不是依赖原始内容,而是通过重新整理和改写信息的方式来提高理解和答题能力。
这种重新解释和增强外部知识的现象不仅限于考试,似乎在人类学习的各个任务中都普遍存在。不同的人以不同的方式吸收信息——有些人可能将信息浓缩成视觉图表,有些人转化为文本,还有些人可能更依赖具体的数学描述。
然而,当前的大语言模型却是「照单全收」地消费和学习任务数据。SEAL正是要改变这一现状。
传统的大语言模型在训练后就被「冻结」了——它们的知识和能力基本固定在最后一次训练的水平。面对新任务或新信息,模型只能被动地处理数据,无法真正地学习和适应。
SEAL 彻底改变了这一现状。它让模型从信息的被动接收者转变为主动学习者。
当面对新数据时,模型会生成所谓的「self-edit」——一种关于如何训练自己的指令。
如论文所述:「我们引入了一个强化学习算法,训练LLM生成'self-edits'——指定数据和可选的优化超参数的自然语言指令,用于更新模型的权重。」
研究团队在抽象推理语料库(ARC)上测试了SEAL的效果。
ARC被认为是特别具有挑战性的基准测试,因为它测试的是抽象逻辑思维和泛化能力,而不是简单的事实知识查询。
传统的Llama-3.2-1B模型在这些任务上的成功率是0%——完全无法解决。
但在集成SEAL框架后,同一个模型能够自主开发出针对新任务的有效训练程序,在精选的任务子集上达到了72.5%的成功率。
更令人印象深刻的是在知识整合任务上的表现。在SQuAD数据集的无上下文问答测试中,SEAL将准确率从基础模型的33.5%提升到47.0%。
值得注意的是,SEAL生成的合成数据甚至超越了GPT-4.1生成的数据效果(46.3%)。
如上图所示,SEAL在仅仅两次ReST^EM迭代后就超越了GPT-4.1的合成数据性能。
SEAL的核心是一个精妙的双循环架构:
外循环使用强化学习来优化self-edit的生成策略。模型生成候选的self-edit,应用这些更新,在下游任务上评估性能,然后使用结果作为奖励信号来改进self-edit生成策略。
内循环则使用生成的self-edit通过梯度下降来更新模型参数。具体来说,给定上下文C,模型生成self-edit SE,然后通过监督微调更新参数:θ'←SFT(θ,SE)。
研究团队采用了ReST^EM方法,这可以看作是期望最大化过程:E步从当前模型策略中采样候选输出,M步只通过监督微调强化那些获得正奖励的样本。
许多网友表示震惊。
NeuroGeist 表示对即将发生的事情感到兴奋!
网友DF则庆幸我们能活在这样一个时代:
更有网友认为:AGI 将要实现!
值得称赞的是,MIT 团队的研究者们展现了学术界少有的坦诚。
论文的共同第一作者Adam Zweiger (@AdamZweiger) 坦诚强调:
Llama‑3.2‑1B‑Instruct 在 ARC‑AGI 的 11 个训练和 8 个测试子集任务上达到了 72.5%,这些任务是经过精挑细选、在最佳 TTT 设置下可解的。
Sheikh Shafayat (@shafayat_sheikh) 也特意发声:
谢谢你们的坦诚
Pankaj (@pankajmathur_) 评价称:
感谢你们 ? 如此出色的工作并保持真实。如今这样的品质难能可贵……
但 SchizoDuckie (@SchizoDuckie) 则进行了指责:
挑一些缺乏重要背景的点来炒作,为了流量大肆宣传,哇哦
其他网友也提出多种疑问:
Chubby♨️ 转述中指出 SEAL 的跑分是“在精选子集上”,暗示其不是在完整 ARC‑AGI 2 上测试。
NTRVL(@ntrvl)提出质疑:“如何阻止自我修改的 AI 偏离安全参数,不至于接管一切?”?
Ivan (@kia132iv) 也指出:
他说只是对11+8个“可解任务”的测试,不是完整版 ARC 任务。
NEO 也追问:
arc‑agi‑1 还是 arc‑agi‑2 …
nonesuch 指出:
“Curated subset of the tasks”
Mark Kwong 关心:
ARC‑AGI 2 or no news
Alexandru Arion 则质疑:
有没有哪种测试中模型能像聪明人一样拿到100%?
LLVMnoIR 提出疑问:
有没有在排行榜用的完整 ARC 数据集上测试?
BigOrangeBOB 关心:
它能不能学会为什么自己错误了那27.5%的时候?
Cairnsy 关注实际应用:
如果用在 neo4j 数据库场景,会不会具备在日常使用中持续学习能力?
在知识整合场景中,SEAL的工作流程特别有趣。
如论文中的例子所示,随着RL训练的进行,模型生成的self-edit变得越来越详细和有效:
从例子中可以看到,经过RL训练后,模型生成了更详细的self-edit,这反过来带来了更好的性能。虽然在这个例子中进展很明显,但研究者承认在其他例子中差异有时更加微妙。
在少样本学习场景中,模型会生成一个JSON格式的配置文件,精确指定使用哪些工具和参数。
ducky cortex(@duckycortex)指出:
一个AI现在会设计自己的教育、测试自己的学习方法,然后教自己设计出更好的方法。这就是SEAL,这是一场范式的转变。
他进一步解释道:
面对一个抽象推理难题,SEAL不会直接猜测。它首先会写出一个详细的“学习计划”作为一个JSON文件……然后,真正的魔法就开始了。对于这个单一的难题,SEAL会生成15个不同的JSON计划,并同时运行它们。
研究团队也坦率地讨论了SEAL面临的挑战。
灾难性遗忘问题依然存在。
当模型连续接收多个self-edit时,早期任务的性能会逐渐下降:
计算开销也是一个重要考虑。
每次self-edit评估大约需要30-45秒,这带来了相当大的开销。整个ReST^EM训练在少样本学习任务上需要2-3小时。
NTRVL(@ntrvl)提出了一个有趣的安全问题:
我们如何防止一个具备自我修改能力的学习模型,进行超出我们设定安全参数的自我修改?你要怎么阻止一个自我修改的AI 基本上“接管一切”呢?
论文中展望了SEAL的潜在影响:
「我们可以想象一个未来,LLM可以摄取新数据(如学术论文),并使用其现有知识和上下文数据的推理为自己生成大量的解释和推导。」
这种自我表达和自我完善的迭代循环可以让模型在缺乏额外外部监督的情况下,在罕见或代表性不足的主题上不断改进。
论文最后指出:一旦 SEAL 能在预训练阶段嵌入这种机制,未来模型将透过自我生成解释、提炼关联、进行迭代训练,在缺乏外部监督的情况下持续提升自己。
SEAL不仅是技术上的突破,更代表了AI发展的新方向——从静态的知识存储库转变为能够自主学习和进化的智能系统。
从 GPT 到 SEAL,我们经历了什么?
从“人类给出问题 + 示例 ➜ 模型回答”,到现在:
“模型遇到新问题 ➜ 自己决定怎么学习 ➜ 自己更新自己 ➜ 下次更聪明”
这是一个身份的转变:
从“被训练者”变成了“自我训练者”!
SEAL 不只是一次研究突破,更可能成为 AI 从静态知识载体迈向持续进化智能的重要里程碑。
这,或许会成为AI 能力提升的新范式。
Supra AI (@Supra_Unchained) 最后说到:
我们正在进化。
当 AI 开始自己训练自己,我们人类还剩下什么任务?
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-06-16
简单说,AI搜索是普通人变强的超级外挂
2025-06-16
零基础解码Transformer与大模型核心原理
2025-06-16
采购DeepSeek API成本对比与本地部署
2025-06-16
ClackyAI:用云端 Agent 开启 Coding 下一站
2025-06-16
OpenAI o3-pro发布,也许当前的RAG过时了...
2025-06-16
基于Dify构建客服智能体全流程实战,揭秘提升RAG效果关键
2025-06-16
大模型+智能体赋能:打造新一代智能告警处置体系
2025-06-16
Function Calling(函数调用):解锁大语言模型的潜力
2025-05-29
2025-03-20
2025-03-21
2025-04-11
2025-03-20
2025-03-19
2025-03-20
2025-03-19
2025-03-19
2025-03-19