2026年5月28日 周四晚上19:30,报名腾讯会议了解“如何转型成为前线部署工程师(FDE)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


我要投稿

清华连发2篇自进化Skill,Agent彻底活了

发布日期:2026-05-22 09:35:48 浏览次数: 1548
作者:PaperToday

微信搜一搜,关注“PaperToday”

推荐语

别再为AI助手写手册了!清华团队让Agent学会自己写、自己改、自己进化,性能反超人类13.3%。

核心内容:
1. Agent自进化核心机制:技能感知反思与差异化更新
2. 两大创新方案:EmbodiSkill的反思类型与SkillEvolver的元技能引擎
3. 实际效果:在具身任务中显著超越GPT-5.2等基线模型

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

当你雇了一个AI助手,给它写了一份详细的工作手册。开始还不错,但遇到手册没覆盖的新情况就犯错——而且每次犯的都是同一个错。你只能不断手动更新手册。文末分享了一些资源,关于Agent和SCI写作实体书籍。

Paper链接在文末

清华两个团队同时给出了同一个答案:别写手册了,让Agent自己写,自己改,自己进化。而且结果出人意料——Agent自己写的Skill技能说明书,比人类精心整理的还好13.3个百分点

EmbodiSkill 动机对比:无技能 vs 静态技能 vs 无感知进化 vs 技能感知进化

这两篇论文从不同角度攻克同一个问题:让技能自进化成为一等公民

  • EmbodiSkill 聚焦具身智能场景(机器人做家务、导航),设计了一套技能感知反思机制
  • SkillEvolver 做成了一个可插拔的"元技能",任何 Agent 都能装上用,不挑场景

EmbodiSkill:让Agent学会区分我到底哪里出了问题

EmbodiSkill 的核心创新是四种技能感知反思类型:

EmbodiSkill 整体架构:技能感知进化螺旋
  • Discovery Reflection:任务成功了,但发现了一个新技能的苗头——记下来
  • Optimization Reflection:任务成功了,但效率不高——优化已有技能
  • SkillDefect Reflection:任务失败了,是技能本身有缺陷——改技能
  • ExecutionLapse Reflection:任务失败了,但技能没问题,是执行环节出了岔子——不改技能,下次执行注意

这四类反思最关键的区别在于第三和第四种:Agent 失败后不是无脑改技能,而是先判断"是手册写错了,还是我没按手册做"。消融实验证明,去掉任何一种反思都会导致性能明显下降。

技能被组织成 (S_body, S_appendix) 结构——S_body 是核心操作步骤,S_appendix 是踩坑记录和注意事项。每次反思后,Agent 更新技能的对应部分,进入下一轮"执行→反思→更新"螺旋。

ALFWorld(具身家务任务)

EmbodiSkill 超过 GPT-5.2 直接执行 31.58%,超过 G-Memory 25.01%,比技能无感知进化方法相对提升 19.04%。

ALFWorld 测试成功率随技能迭代阶段变化

SkillEvolver:一个插上去就管用的自进化引擎

SkillEvolver 的定位更狠——它本身就是一个元技能,一个管理其他技能进化的技能。它的设计有两个关键创新:

SkillEvolver 元技能概览

策略多样化探索:每次迭代不只有一个方案,而是生成 K=4 个不同执行策略的并行试验。有的激进,有的保守,有的走不同路径。这样避免 Agent 陷入"每次都用同一个方式失败"的困境。

对比技能更新:把成功轨迹和失败轨迹摆在一起对比,从差异中提炼改进点。然后交给一个独立 Auditor,执行 9 项机械检查(格式完整性、一致性、可执行性等),拦截了 17% 的有害更新

SkillEvolver 单次迭代流程

重要的是,SkillEvolver 更新的是技能的文字和代码,不是模型权重。这意味着不需要 GPU 训练,任何 Agent 都能装上用

Algorithm 1: SkillEvolver

SkillsBench(83个任务,15+领域)

SkillEvolver 比人类精心整理的技能高出 13.3 个百分点,比无技能基线高出 27.0 个百分点。

SkillsBench 各类别 avg@5 结果

真实场景验证(KernelBench + Claude Code)

SkillEvolver 还和 Claude Code 做了真实集成测试。在 GPU 内核优化任务上:

  • 平均加速比从 1.16 提升到 1.51
  • 每个任务成本仅 $3.92
  • 下游 Agent 的 token 消耗减少 19.4%
  • 对话轮次减少 15.3%
  • 实际运行时间减少 23.8%

这意味着什么

EmbodiSkill 在具身场景(机器人做家务、环境导航)证明了有效,SkillEvolver 在代码优化等真实开发场景也跑通了。而且 SkillEvolver 已经和 Claude Code 这样的生产级工具做了集成验证。

Skill技能进化更新的是文字和代码,不是模型权重——这意味着不需要 GPU 训练,不需要重新微调,任何 Agent 都能装上这个自进化能力。从"人教 Agent 做事"到"Agent 自己教自己做事",这件事已经不是未来时了。

如果你想顺着往下挖Agent,有两本免费书顺手推荐给大家:
想搞懂 Agent 在工程里怎么落地、怎么和真实工具链配合,可以读 Manning 的 《AI Agents in Action》(Micheal Lanham 著)。它不讲空泛概念,而是从实践出发讲智能体怎么设计、怎么跑起来——和 SkillEvolver 这类「技能可进化、可集成」的方向很合拍。

技术跑通了,若果你也想把成果写成别人能引用的 SCI 论文可以看看张俊东等编著的 《SCI 论文写作和发表:You Can Do It》(第三版) 汇总了 1.5 万余篇 SCI 论文的写作经验,从标题、摘要、引言到 Results/Discussion 都有示例,投稿信、修回信、答复信也单独讲——Agent 能自己进化技能,但把你的突破写清楚、发出去,这本还是刚需手册。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询