微信扫码
添加专属顾问
我要投稿
别再为AI助手写手册了!清华团队让Agent学会自己写、自己改、自己进化,性能反超人类13.3%。 核心内容: 1. Agent自进化核心机制:技能感知反思与差异化更新 2. 两大创新方案:EmbodiSkill的反思类型与SkillEvolver的元技能引擎 3. 实际效果:在具身任务中显著超越GPT-5.2等基线模型
当你雇了一个AI助手,给它写了一份详细的工作手册。开始还不错,但遇到手册没覆盖的新情况就犯错——而且每次犯的都是同一个错。你只能不断手动更新手册。文末分享了一些资源,关于Agent和SCI写作实体书籍。
清华两个团队同时给出了同一个答案:别写手册了,让Agent自己写,自己改,自己进化。而且结果出人意料——Agent自己写的Skill技能说明书,比人类精心整理的还好13.3个百分点。
这两篇论文从不同角度攻克同一个问题:让技能自进化成为一等公民。
EmbodiSkill 的核心创新是四种技能感知反思类型:
这四类反思最关键的区别在于第三和第四种:Agent 失败后不是无脑改技能,而是先判断"是手册写错了,还是我没按手册做"。消融实验证明,去掉任何一种反思都会导致性能明显下降。
技能被组织成 (S_body, S_appendix) 结构——S_body 是核心操作步骤,S_appendix 是踩坑记录和注意事项。每次反思后,Agent 更新技能的对应部分,进入下一轮"执行→反思→更新"螺旋。
ALFWorld(具身家务任务):
EmbodiSkill 超过 GPT-5.2 直接执行 31.58%,超过 G-Memory 25.01%,比技能无感知进化方法相对提升 19.04%。
SkillEvolver 的定位更狠——它本身就是一个元技能,一个管理其他技能进化的技能。它的设计有两个关键创新:
策略多样化探索:每次迭代不只有一个方案,而是生成 K=4 个不同执行策略的并行试验。有的激进,有的保守,有的走不同路径。这样避免 Agent 陷入"每次都用同一个方式失败"的困境。
对比技能更新:把成功轨迹和失败轨迹摆在一起对比,从差异中提炼改进点。然后交给一个独立 Auditor,执行 9 项机械检查(格式完整性、一致性、可执行性等),拦截了 17% 的有害更新。
重要的是,SkillEvolver 更新的是技能的文字和代码,不是模型权重。这意味着不需要 GPU 训练,任何 Agent 都能装上用。
SkillsBench(83个任务,15+领域):
SkillEvolver 比人类精心整理的技能高出 13.3 个百分点,比无技能基线高出 27.0 个百分点。
真实场景验证(KernelBench + Claude Code):
SkillEvolver 还和 Claude Code 做了真实集成测试。在 GPU 内核优化任务上:
EmbodiSkill 在具身场景(机器人做家务、环境导航)证明了有效,SkillEvolver 在代码优化等真实开发场景也跑通了。而且 SkillEvolver 已经和 Claude Code 这样的生产级工具做了集成验证。
Skill技能进化更新的是文字和代码,不是模型权重——这意味着不需要 GPU 训练,不需要重新微调,任何 Agent 都能装上这个自进化能力。从"人教 Agent 做事"到"Agent 自己教自己做事",这件事已经不是未来时了。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-05-22
我们用150个任务测试了30个skill,跑出7个反直觉结论
2026-05-22
Harness Engineering 实践与 Skills 打磨心得|开发者说
2026-05-22
怎么让 Agent Skills 自进化?Agent 回答质量翻倍
2026-05-21
我把Markdown转知识图谱,做成了Skill
2026-05-21
3张图5000字,认真聊聊什么才是好的Skill
2026-05-20
网盘存量代码迁移实战:我们如何用三层架构管住 AI 的输出
2026-05-20
从手写 Prompt 到可复用 Skills:AI Agent 的“技能包”
2026-05-20
重新定义Skill开发:保姆级教程&一站式开发助手发布
2026-04-05
2026-03-04
2026-03-05
2026-03-17
2026-03-03
2026-03-03
2026-03-17
2026-03-10
2026-03-26
2026-03-05