我要投稿

MIT 让AI 学会自我进化，能力暴涨，让人害怕

发布日期：2025-06-16 06:09:32 浏览次数： 1966

作者：AGI Hunt

微信搜一搜，关注“AGI Hunt”

AI 终于学会了自我权重更新！

MIT 的研究团队刚刚发布了SEAL（Self-Adapting Language Models）框架，让语言模型具备了自主生成训练数据并自我更新的能力。

在ARC-AGI任务上，同一个模型从完全无法解决（0%）跃升至72.5%的成功率。

网友纷纷惊呼太疯狂！

这次的AI，不只是数字上的性能提升，而是学习方式的根本性转变。

像人类学生一样学习

研究团队在论文中用了一个生动的类比：

想象一个准备机器学习期末考试的学生。

许多学生依靠笔记来准备考试，这些笔记通常来自课堂内容、教科书或网络信息。学生不是依赖原始内容，而是通过重新整理和改写信息的方式来提高理解和答题能力。

这种重新解释和增强外部知识的现象不仅限于考试，似乎在人类学习的各个任务中都普遍存在。不同的人以不同的方式吸收信息——有些人可能将信息浓缩成视觉图表，有些人转化为文本，还有些人可能更依赖具体的数学描述。

然而，当前的大语言模型却是「照单全收」地消费和学习任务数据。SEAL正是要改变这一现状。

从「被动接收」到「主动学习」

传统的大语言模型在训练后就被「冻结」了——它们的知识和能力基本固定在最后一次训练的水平。面对新任务或新信息，模型只能被动地处理数据，无法真正地学习和适应。

SEAL 彻底改变了这一现状。它让模型从信息的被动接收者转变为主动学习者。

当面对新数据时，模型会生成所谓的「self-edit」——一种关于如何训练自己的指令。

如论文所述：「我们引入了一个强化学习算法，训练LLM生成'self-edits'——指定数据和可选的优化超参数的自然语言指令，用于更新模型的权重。」

ARC-AGI 任务成绩暴涨：零到 72.5%

研究团队在抽象推理语料库（ARC）上测试了SEAL的效果。

ARC被认为是特别具有挑战性的基准测试，因为它测试的是抽象逻辑思维和泛化能力，而不是简单的事实知识查询。

传统的Llama-3.2-1B模型在这些任务上的成功率是0%——完全无法解决。

但在集成SEAL框架后，同一个模型能够自主开发出针对新任务的有效训练程序，在精选的任务子集上达到了72.5%的成功率。

更令人印象深刻的是在知识整合任务上的表现。在SQuAD数据集的无上下文问答测试中，SEAL将准确率从基础模型的33.5%提升到47.0%。

值得注意的是，SEAL生成的合成数据甚至超越了GPT-4.1生成的数据效果（46.3%）。

如上图所示，SEAL在仅仅两次ReST^EM迭代后就超越了GPT-4.1的合成数据性能。

双循环架构

SEAL的核心是一个精妙的双循环架构：

外循环使用强化学习来优化self-edit的生成策略。模型生成候选的self-edit，应用这些更新，在下游任务上评估性能，然后使用结果作为奖励信号来改进self-edit生成策略。

内循环则使用生成的self-edit通过梯度下降来更新模型参数。具体来说，给定上下文C，模型生成self-edit SE，然后通过监督微调更新参数：θ'←SFT(θ,SE)。

研究团队采用了ReST^EM方法，这可以看作是期望最大化过程：E步从当前模型策略中采样候选输出，M步只通过监督微调强化那些获得正奖励的样本。

社区点赞与质疑

许多网友表示震惊。

NeuroGeist 表示对即将发生的事情感到兴奋！

网友DF则庆幸我们能活在这样一个时代：

更有网友认为：AGI 将要实现！

值得称赞的是，MIT 团队的研究者们展现了学术界少有的坦诚。

论文的共同第一作者Adam Zweiger (@AdamZweiger) 坦诚强调：

Llama‑3.2‑1B‑Instruct 在 ARC‑AGI 的 11 个训练和 8 个测试子集任务上达到了 72.5%，这些任务是经过精挑细选、在最佳 TTT 设置下可解的。

Sheikh Shafayat (@shafayat_sheikh) 也特意发声：

谢谢你们的坦诚

Pankaj (@pankajmathur_) 评价称：

感谢你们 ? 如此出色的工作并保持真实。如今这样的品质难能可贵……

但 SchizoDuckie (@SchizoDuckie) 则进行了指责：

挑一些缺乏重要背景的点来炒作，为了流量大肆宣传，哇哦

其他网友也提出多种疑问：

Chubby♨️ 转述中指出 SEAL 的跑分是“在精选子集上”，暗示其不是在完整 ARC‑AGI 2 上测试。

NTRVL（@ntrvl）提出质疑：“如何阻止自我修改的 AI 偏离安全参数，不至于接管一切？”?

Ivan (@kia132iv) 也指出：

他说只是对11+8个“可解任务”的测试，不是完整版 ARC 任务。

NEO 也追问：

arc‑agi‑1 还是 arc‑agi‑2 …

nonesuch 指出：

“Curated subset of the tasks”

Mark Kwong 关心：

ARC‑AGI 2 or no news

Alexandru Arion 则质疑：

有没有哪种测试中模型能像聪明人一样拿到100%？

LLVMnoIR 提出疑问：

有没有在排行榜用的完整 ARC 数据集上测试？

BigOrangeBOB 关心：

它能不能学会为什么自己错误了那27.5%的时候？

Cairnsy 关注实际应用：

如果用在 neo4j 数据库场景，会不会具备在日常使用中持续学习能力？

实际运作机制

在知识整合场景中，SEAL的工作流程特别有趣。

如论文中的例子所示，随着RL训练的进行，模型生成的self-edit变得越来越详细和有效：

从例子中可以看到，经过RL训练后，模型生成了更详细的self-edit，这反过来带来了更好的性能。虽然在这个例子中进展很明显，但研究者承认在其他例子中差异有时更加微妙。

在少样本学习场景中，模型会生成一个JSON格式的配置文件，精确指定使用哪些工具和参数。

ducky cortex（@duckycortex）指出：

一个AI现在会设计自己的教育、测试自己的学习方法，然后教自己设计出更好的方法。这就是SEAL，这是一场范式的转变。

他进一步解释道：

面对一个抽象推理难题，SEAL不会直接猜测。它首先会写出一个详细的“学习计划”作为一个JSON文件……然后，真正的魔法就开始了。对于这个单一的难题，SEAL会生成15个不同的JSON计划，并同时运行它们。

挑战与局限

研究团队也坦率地讨论了SEAL面临的挑战。

灾难性遗忘问题依然存在。

当模型连续接收多个self-edit时，早期任务的性能会逐渐下降：

计算开销也是一个重要考虑。

每次self-edit评估大约需要30-45秒，这带来了相当大的开销。整个ReST^EM训练在少样本学习任务上需要2-3小时。

NTRVL（@ntrvl）提出了一个有趣的安全问题：

我们如何防止一个具备自我修改能力的学习模型，进行超出我们设定安全参数的自我修改？你要怎么阻止一个自我修改的AI 基本上“接管一切”呢?

未来展望

论文中展望了SEAL的潜在影响：

「我们可以想象一个未来，LLM可以摄取新数据（如学术论文），并使用其现有知识和上下文数据的推理为自己生成大量的解释和推导。」

这种自我表达和自我完善的迭代循环可以让模型在缺乏额外外部监督的情况下，在罕见或代表性不足的主题上不断改进。

论文最后指出：一旦 SEAL 能在预训练阶段嵌入这种机制，未来模型将透过自我生成解释、提炼关联、进行迭代训练，在缺乏外部监督的情况下持续提升自己。

SEAL不仅是技术上的突破，更代表了AI发展的新方向——从静态的知识存储库转变为能够自主学习和进化的智能系统。

从被训练到自我训练

从 GPT 到 SEAL，我们经历了什么？

从“人类给出问题 + 示例 ➜ 模型回答”，到现在：

“模型遇到新问题 ➜ 自己决定怎么学习 ➜ 自己更新自己 ➜ 下次更聪明”

这是一个身份的转变：

从“被训练者”变成了“自我训练者”！

SEAL 不只是一次研究突破，更可能成为 AI 从静态知识载体迈向持续进化智能的重要里程碑。

这，或许会成为AI 能力提升的新范式。

Supra AI (@Supra_Unchained) 最后说到：

我们正在进化。

当 AI 开始自己训练自己，我们人类还剩下什么任务？

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-10-30

Cursor 2.0的一些有趣的新特性

2025-10-30

Anthropic 发布最新研究：LLM 展现初步自省迹象

2025-10-30

让Agent系统更聪明之前，先让它能被信任

2025-10-30

Rag不行？谷歌DeepMind同款，文档阅读新助手：ReadAgent

2025-10-29

4大阶段，10个步骤，助你高效构建企业级智能体（Agent）

2025-10-29

DocReward：让智能体“写得更专业”的文档奖励模型

2025-10-29

沃尔沃RAG实战：企业级知识库，早就该放弃小分块策略

2025-10-29

大模型的Funcation Calling是什么？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

DeepSeek-V3.1 发布，迈向 Agent 时代的第一步

2025-08-21

DeepSeekV3.1 提到的 UE8M0 FP8 Scale 是什么？下一代国产芯片设计？

2025-08-21

DeepSeek V3.1 测评

2025-08-19

新版 GPT-5 刚刚发布，最卷 AI 连肝代码 7 小时，编程工具大洗牌开始了

2025-09-16

实测 Sora 2 ：AI视频的“ChatGPT时刻”来了？八大场景教你解锁各种玩法（附邀请码）

2025-10-02

AI大家说 | 下一代AI创业的机会在哪里？定价趋势是什么？

2025-09-08

阿里发布下一代企业级智能体开发框架AgentScope 1.0

2025-09-17

DeepSeek突然更新V3.1：实测后才发现的亮点与槽点

2025-08-19

RagFLow v0.20.X全面解析！双向MCP、Agentic智能体...这次真的起飞了！（附长图）

2025-09-29

DeepSeek v3.1 到底有多强？与 Claude Code 一起实测！

2025-08-20

大家都在问

大模型的Funcation Calling是什么？

2025-10-29

向量搜索已过时，混合搜索都有三大流派了！你看好哪个流派？

2025-10-29

BCG最新报告：企业如何跨越AI价值鸿沟，进入复利增长？

2025-10-28

如何用飞书多维表格快速搭建一个可落地应用？

2025-10-28

当AI学会“听”：声音识别到声音理解，AI到底是怎么听懂的？

2025-10-27

如何让你的内容出现在AI生成的答案中？

2025-10-26

2025，为何“体感上没有AI爆款应用”？

2025-10-25

Dify Agent 核心解密：三模双驱，如何选对策略让你的AI应用“开挂”？

2025-10-23

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB