微信扫码
添加专属顾问
我要投稿
想让AI技能像人一样自我进化?腾讯云开发者团队提出8阶段循环与自进化机制,让技能在试错中成长,自动修复隐藏Bug。 核心内容: 1. 当前技能开发的痛点与自进化机制的必要性 2. 核心架构:三大思想的结合与Skill-Evolver的诞生 3. 8阶段循环的详细拆解与运作流程
你总想着“授它以鱼”,像个操心的妈妈一遍遍对着 AI 说教:“记住!你不许这样!”但好的教育难道不是授人以渔,给它一本书、一个目标,让它自己实践、碰壁、改错么?腾讯云开发者团队分享了一种像训练神经元一样训练 Skill 的机制——8 阶段 Loop 、 3 层评测、 5 维 AND 门控, 19 轮自进化自动找出隐藏 Bug 。
当前的 Skill 开发是“手工作坊式”的:写 Prompt → 测几个 Case → 发现不完美 → 改几行 → 再测。
这有几个致命痛点:
git 状态不干净就拒绝),结果在新目录直接报错。你加了清理函数,结果第 10 轮把最新结果删了。规则越多,行为越不可控。自进化机制的目标是:让 Skill 在执行中收集数据,自动分析失败原因,生成 Patch ,并通过严格测试后回写自身。
这其实是三个已被证明有效的思想的结合:
1. Karpathy 的 autoresearch:外层 Loop 不断试错,跑 700 个实验找出 20 个优化,性能提升 19%。
2. Anthropic 的 skill-creator:提供结构化的评测底座(quick_validate, grader, comparator)。
3. 斯坦福 Meta-Harness 论文:给 AI 看完整的原始执行轨迹( Trace )比只看分数效果好 44%。就像医生看完整病历比看 300 字摘要诊断更准。
于是,Skill-Evolver 诞生了:外层用 AutoResearch 试错,内层用 Creator 评测,用 Meta-Harness 的 Trace 做诊断。
每一轮迭代不是瞎改,而是严格遵循 8 个阶段:
检查环境、准备 GT (标准答案)数据,自动生成 evolve_plan.md(包含评测策略、门控阈值)。
读取最近的 git log、results.tsv、失败 Case 。提取信号:哪些改法成功过?哪些 Case 持续失败?
从 Trace 诊断失败根因(是 Prompt 不清? Tool 定义缺失?)。提出原子化改动方案。
执行 ONE 个改动。分层 Mutation :
- Layer 1 :改触发关键词(最便宜)。
- Layer 2 :改 SKILL.md 正文(中等)。
- Layer 3 :改辅助脚本和 references (最贵)。
先 git commit 再验证。保留每一次尝试的历史,方便回滚。
跑测试集,看 Pass/Fail 。
只有 5 个维度全 Pass 才保留(详见下文)。
写入日志,更新实验记录。
继续下一轮,或者升层,或者停止。
怎么保证“越改越好”而不是“越改越烂”?
3 层评测体系:
- L1 单元测试: Binary Eval ( Pass/Fail )。 6 种程序直接判(如 contains, script_check), 2 种 LLM 判(事实覆盖)。
- L2 集成测试:模拟完整任务链。
- L3 用户验收:真实业务效果反馈。
5 维 AND 门控(防退化机制):
任何 Patch 必须同时满足:
1. 格式门:输出符合 Schema 。
2. 内容门:关键参数准确。
3. 行为门:工具调用序列符合预期(不跳过鉴权)。
4. 性能门:耗时不超过基准 1.5 倍。
5. 安全门:无敏感操作。
只要一个 Fail ,立即回滚。 这就是为什么它能跑 19 轮而不崩的原因。
作者让这个机制跑了 19 轮,结果令人惊讶:
- 每一轮都揪出了至少一个之前没看见的问题。
- 有的是真 Bug ,有的是边界补全,有的是整块代码的职责重构。
- 它甚至优化了 iteration-10 排序导致 cleanup 误删最新结果这种人类极难察觉的边界条件。
这不仅仅是技术升级,更是开发思维的升级。
你从 Prompt 工程师变成了 Skill 教练。你定义目标,提供反馈,监控进化曲线,而 AI 自己在实践中摸索出最佳路径。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-05-29
微软悄然开源了一款 Skill 神器
2026-05-29
人才+1,有人把申请专利也做成了skill,知识产权的普及度再次增加
2026-05-29
手搓Skill串联成专属 SubAgent:打造前端代码审查→修复→提交自动化流水线
2026-05-29
Codex 必装十大 Skills,我挨个翻车之后,重新排了一次顺序
2026-05-29
如何评估你写的 SKILL.md 质量?一套完整的 Eval 方法论
2026-05-28
小红书支持上传 skill 了,AI 创作者赚钱的时机到了
2026-05-28
大模型的Agent Skill功能,在LLM HTTP底层交互流中是怎么承载的?
2026-05-27
Skill越详细Agent越傻!砍到40词一次选对
2026-04-05
2026-03-05
2026-03-17
2026-03-04
2026-03-03
2026-03-03
2026-03-17
2026-03-26
2026-03-10
2026-03-05