2026年5月28日 周四晚上19:30,报名腾讯会议了解“如何转型成为前线部署工程师(FDE)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


我要投稿

Harness|15 Skills生态——从人工写skill到AI自己生成自己的知识资产

发布日期:2026-05-24 09:39:36 浏览次数: 1523
作者:与AI同行之路

微信搜一搜,关注“与AI同行之路”

推荐语

本文深入剖析Skill的本质与五种形态,揭示AI知识资产从人工编写到自动生成的演进趋势。

核心内容:
1. Skill的本质:可复用的知识单元与未来设计理念
2. 五种Skill形态对比:从基础设施到分层沉淀
3. Skill生态演进:从人工编写到AI自动生成

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

 

案例解剖板块到这里收尾。八个项目挨个看完,你心里应该已经形成了感觉——每家都在不同程度地实现"Thin Harness, Fat Skills",差别就在哪一层做厚、哪一层做薄、用什么方式做

这一篇从案例里抽出来一条横切面——专门讲skills本身。不是"某家的skill怎么做",是"skills这件事整体往哪走"。

—— Skill的本质

先把根上的事捋清楚。

Skill不是prompt。prompt是当下要传给模型的那段文本,每次调用一次性消耗。skill是被存起来、可复用、可被多个Agent读取的文档。

Skill不是工具。工具是确定性的可执行函数——参数确定、输出确定。skill是概率性的判断和流程描述——参数一样,不同时候、不同上下文、不同模型执行结果都会有差异。

Skill是"可复用的知识单元"。它把"如何做某类任务"的判断和流程编码成文档,让agent读了就能照着做。

那skill跟function最本质的区别在哪——function的弹性来自参数,skill的弹性来自模型。同一个skill被不同代的模型读,效果会不一样——更强的模型能把skill的指令落得更精准、把判断做得更细腻。

这就是Garry Tan说"模型升级时skill自动变强"的底层机制——skill是描述性的、不锁死实现细节,所以模型越强,skill的"潜力上限"越高

而工具不是这样——工具的实现固定,模型再强也不会让一个错误的SQL查询自动变对。

理解了这一层,你就明白为什么"Thin Harness, Fat Skills"是面向未来的设计——harness绑定具体实现,会被时代淘汰;skill是描述性资产,跟着模型一起增值

—— 五种Skill形态

八个项目里我数了下,skill其实有五种主要形态。横向比一下,你心里就有数了——

Anthropic官方SKILL.md——基础设施。

YAML frontmatter加markdown主体内容。这是Claude Code原生的skill格式,也是整个生态的事实标准。Superpowers和ECC进了官方Plugin Marketplace,本质上都是在这套格式上建立的社区层。学skills先学这个格式,是绕不过去的基础

Superpowers的mandatory trigger skill——强制执行。

每个skill有明确的触发条件——"在code被写之前触发"、"在design被approved之后触发"。这不是suggestion,是harness强制读的。最特别的——它把"不该做什么"也写成skill。testing-anti-patterns这种negative skill在其他形态里很少见,但效果出奇地好。

ECC的SKILL.md加Instinct系统——分层沉淀。

SKILL.md是静态定义的、经过审核的skill。Instinct是动态学到的"前体"——有confidence scoring、可以evolve聚合成正式SKILL.md。这是static和learned两层并存的设计——也是目前最完整、最工程化的skill pipeline。

Hermes的Auto-generated Skill——完全自动。

5次以上tool call后自动生成,使用时自动patch更新。最轻量,但也最缺confidence控制。适合个人快速积累、不适合团队强一致性场景。

gbrain的Fat Skill——重度封装。

把一个完整工作流编码进去(when to fire、what to check、how to chain、what quality bar)。同时skill里可以调deterministic TypeScript code做"不该交给LLM判断的部分"。"Thin Harness, Fat Skills"那个"fat"就是这个意思——skill不只是prompt,是workflow加代码的组合

五种形态没有谁绝对好——取决于你的场景对"自动化程度"和"质量保证"的相对优先级

个人快速试错——Hermes auto-gen最快。
团队协作沉淀——ECC的Instinct加SKILL两层最稳。
强制工程纪律——Superpowers的mandatory最有效。
重度业务逻辑——gbrain的fat skill最能装。
跨生态分发——Anthropic官方SKILL.md兼容性最好。

Skill 的五种主要形态

—— Skill的生命周期管理

你做企业项目,会发现skill不只是"写完就完了",是有完整生命周期的——

——SKILL.md格式规范要遵守。Superpowers有个writing-skills skill专门教你怎么写好skill。ECC有个skill-stocktake审计现有skill的质量——找出过时的、重复的、低质量的。这些"写skill的skill"听着套娃,但确实管用。

——skill不是纯文档,是agent行为的依据,必须验证。Superpowers的writing-skills本身就有TDD方法论——给skill写测试用例,agent按skill干活时跑这些用例验证。ECC有997 internal tests,覆盖整个skill库的核心行为。

分发——做完skill怎么让别人用上。Anthropic官方Plugin Marketplace是大众路径,一行命令安装。ECC的Skill Creator GitHub App可以从git history批量生成SKILL.md,自动化程度更高。

复用——团队场景下skill共享。ECC的/instinct-export/instinct-import让团队间skill能流通。pi-mono的awesome-pi-agent是社区生态的中心仓库。

淘汰——skill不是越多越好,过期的、错的要清。ECC的/prune命令清过期instinct(默认30天TTL)。Hermes的skill auto-patch机制避免手动维护过时skill。

这五个环节都要管,skill库才是健康的。只写不淘,就跟代码不删一样,越积越乱

Skill 的生命周期五环节

—— 三种Skill自动生成路径

skill到底从哪儿来——这件事八个项目给了三种不同回答。

ECC Skill Creator——基于git history的反向工程

从历史的commit message、PR description、代码变更里抽取pattern,生成SKILL.md。这是"从你已经做过的事情里学"

适用于团队已经积累了几年代码、有大量历史经验沉淀但没文档化的场景。把隐性知识从git history里挖出来变成显性skill,特别适合那种"老员工脑子里很多东西、但没人写下来"的团队。

Hermes的auto-generation——基于tool call trace的在线学习

agent干活的过程中自己发现pattern并生成skill。这是"从你正在做的事情里学"

适用于快速迭代的个人开发场景——你在用agent干活儿,agent顺手把经验沉淀下来。但要做好"质量参差"的预期——前期生成的skill经常需要返工。

gbrain的dream cycle——基于所有积累内容的离线综合

agent在你睡觉的时候扫描所有conversation、enriching missing entities、fixing broken citations、consolidating memory。这是"从你已经积累的所有知识里综合"

适用于知识资产已经积累了一段时间、需要做periodic整理和升级的场景。这种异步、批量的处理方式适合大规模知识系统。

三种路径代表三种"skill从哪里来"的哲学——过去的记录、当前的行为、存量的知识。最终都在服务"thin harness fat skills"这个命题——让skill库不依赖人工持续投入也能成长。

三种 Skill 自动生成路径

—— Skills生态的下一步

skill生态接下来会往哪走,我自己的几个预测——

从个人skill到团队skill到组织skill。现在大部分skill是个人开发者写给自己用的、或者是开源社区给所有人用的。下一步会出现"团队私有skill库"——一个公司内部按业务领域、按团队角色组织的skill资产,有完整的访问控制、版本管理、变更审计。

从platform-specific到跨harness标准格式。目前Claude Code的SKILL.md、OpenCode的format、Cursor的plugin格式互不通用。ECC已经在做DRY adapter、Superpowers已经在做跨平台skill。下一步会出现公认的"跨harness skill标准"——可能是Anthropic的SKILL.md胜出,也可能是个新的中立格式。

Skill的版本管理和diff。现在skill更新基本就是覆盖。下一步会有skill的semantic versioning、变更diff、回滚能力。当skill是企业资产,它必须像代码一样被严格版本管理

Skill的A/B测试和eval。现在skill效果好不好基本靠感觉。下一步会有标准的skill eval套件——同一个任务用skill A和skill B各跑20次,统计成功率、token、cost。没有eval的skill就是没有数据的代码,谈不上工程化

Skill和MCP server之间的边界重新划定。当skill里的代码越来越多——比如gbrain的fat skill里大量deterministic code——它跟MCP server的差异在哪——MCP server是独立运行的进程提供工具能力,fat skill是文档形式调用代码描述工作流。两者会逐渐有融合,可能出现"可执行skill"或"可声明MCP"这种中间形态。

—— 案例板块和这一篇的总结

回看整个案例解剖板块加这一篇横切面——

八个项目展示了harness生态当下的多元状态。这一篇把skills这条主线从八家里抽出来横向比较。

结论是清晰的——skills是harness这一年沉淀下来最有共识的"知识资产形式"。不管你用哪家harness,能写好skill库,就有了不可剥夺的资产;harness再换、模型再升级、平台再变迁,skill库都在。

最后用Garry Tan那句话再点一次题——Harness是借来的,Skill是自己的

下一篇换轨道,讲orchestration——multi-agent还是single-agent,这是harness工程化最容易踩坑的地方。八个案例里每家的多agent设计哲学都不一样,正好做横向对比。然后会引出几条很硬的"什么时候不要上多agent"原则——这一篇基调偏批判,因为业内有太多团队在不该上多agent的场景上多agent,最后系统跑不起来

 

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询