清华连发2篇自进化Skill，Agent彻底活了

发布日期：2026-05-22 09:35:48 浏览次数： 2293

作者：PaperToday

微信搜一搜，关注“PaperToday”

当你雇了一个AI助手，给它写了一份详细的工作手册。开始还不错，但遇到手册没覆盖的新情况就犯错——而且每次犯的都是同一个错。你只能不断手动更新手册。文末分享了一些资源，关于Agent和SCI写作实体书籍。

清华两个团队同时给出了同一个答案：别写手册了，让Agent自己写，自己改，自己进化。而且结果出人意料——Agent自己写的Skill技能说明书，比人类精心整理的还好13.3个百分点。

EmbodiSkill 动机对比：无技能 vs 静态技能 vs 无感知进化 vs 技能感知进化

这两篇论文从不同角度攻克同一个问题：让技能自进化成为一等公民。

EmbodiSkill 聚焦具身智能场景（机器人做家务、导航），设计了一套技能感知反思机制
SkillEvolver 做成了一个可插拔的"元技能"，任何 Agent 都能装上用，不挑场景

EmbodiSkill：让Agent学会区分我到底哪里出了问题

EmbodiSkill 的核心创新是四种技能感知反思类型：

Discovery Reflection：任务成功了，但发现了一个新技能的苗头——记下来
Optimization Reflection：任务成功了，但效率不高——优化已有技能
SkillDefect Reflection：任务失败了，是技能本身有缺陷——改技能
ExecutionLapse Reflection：任务失败了，但技能没问题，是执行环节出了岔子——不改技能，下次执行注意

这四类反思最关键的区别在于第三和第四种：Agent 失败后不是无脑改技能，而是先判断"是手册写错了，还是我没按手册做"。消融实验证明，去掉任何一种反思都会导致性能明显下降。

技能被组织成 (S_body, S_appendix) 结构——S_body 是核心操作步骤，S_appendix 是踩坑记录和注意事项。每次反思后，Agent 更新技能的对应部分，进入下一轮"执行→反思→更新"螺旋。

ALFWorld（具身家务任务）：

EmbodiSkill 超过 GPT-5.2 直接执行 31.58%，超过 G-Memory 25.01%，比技能无感知进化方法相对提升 19.04%。

SkillEvolver：一个插上去就管用的自进化引擎

SkillEvolver 的定位更狠——它本身就是一个元技能，一个管理其他技能进化的技能。它的设计有两个关键创新：

策略多样化探索：每次迭代不只有一个方案，而是生成 K=4 个不同执行策略的并行试验。有的激进，有的保守，有的走不同路径。这样避免 Agent 陷入"每次都用同一个方式失败"的困境。

对比技能更新：把成功轨迹和失败轨迹摆在一起对比，从差异中提炼改进点。然后交给一个独立 Auditor，执行 9 项机械检查（格式完整性、一致性、可执行性等），拦截了 17% 的有害更新。

重要的是，SkillEvolver 更新的是技能的文字和代码，不是模型权重。这意味着不需要 GPU 训练，任何 Agent 都能装上用。

SkillsBench（83个任务，15+领域）：

SkillEvolver 比人类精心整理的技能高出 13.3 个百分点，比无技能基线高出 27.0 个百分点。

真实场景验证（KernelBench + Claude Code）：

SkillEvolver 还和 Claude Code 做了真实集成测试。在 GPU 内核优化任务上：

平均加速比从 1.16 提升到 1.51
每个任务成本仅 $3.92
下游 Agent 的 token 消耗减少 19.4%
对话轮次减少 15.3%
实际运行时间减少 23.8%

这意味着什么

EmbodiSkill 在具身场景（机器人做家务、环境导航）证明了有效，SkillEvolver 在代码优化等真实开发场景也跑通了。而且 SkillEvolver 已经和 Claude Code 这样的生产级工具做了集成验证。

Skill技能进化更新的是文字和代码，不是模型权重——这意味着不需要 GPU 训练，不需要重新微调，任何 Agent 都能装上这个自进化能力。从"人教 Agent 做事"到"Agent 自己教自己做事"，这件事已经不是未来时了。

如果你想顺着往下挖Agent，有两本免费书顺手推荐给大家：

想搞懂 Agent 在工程里怎么落地、怎么和真实工具链配合，可以读 Manning 的《AI Agents in Action》（Micheal Lanham 著）。它不讲空泛概念，而是从实践出发讲智能体怎么设计、怎么跑起来——和 SkillEvolver 这类「技能可进化、可集成」的方向很合拍。

技术跑通了，若果你也想把成果写成别人能引用的 SCI 论文可以看看张俊东等编著的《SCI 论文写作和发表：You Can Do It》（第三版）汇总了 1.5 万余篇 SCI 论文的写作经验，从标题、摘要、引言到 Results/Discussion 都有示例，投稿信、修回信、答复信也单独讲——Agent 能自己进化技能，但把你的突破写清楚、发出去，这本还是刚需手册。