微信扫码
添加专属顾问
我要投稿
Anthropic创新推出Skill Creator三大利器,让非技术人员也能轻松测试和优化Agent Skills,解决技能触发难题。核心内容: 1. Agent Skills的两大分类及评测意义 2. Skill Creator的三大核心功能:评测系统、多智能体测试、触发器调优 3. 未来Skills发展方向与自动化优化潜力
诗与沅方
知行合一
大家好,我是诗沅Flora。
当你在给Agent接入Skills时,有没有遇到Skills并不是每次都有效的烦恼呢。
那么如何去验证Skills是否能在合适的时候触发?在编辑后效果是否提升?以及在新模型上是否依然有效?
针对这些问题,Anthropic敏锐地捕捉到了大家的痛点,将软件工程中严谨的「测试、基准跑分、迭代」理念引入到了skill-creator中,让非技术人员也可以去测试、衡量和优化Agent Skills。
Skills 分类与评测
目前,Agent Skills可以分成两类,这决定了为什么要测试它们:
能力提升型(Capability uplift skills)
这类Skills用来教大模型做它原来做不到或做不好的事情,比如极其复杂的PDF表格排版。
但是随着大模型能力越来越强,很可能模型自身就学会了这项能力,那么这类skill的评测主要用来判断,当前Agent接入的这个Skill还有没有存在的必要了。
偏好编码型(Encoded preference skills)
这类Skills主要是用来固化独有的SOP,比如你们公司的NDA审查流程、你每周从多个工具拉取数据进行汇总分析的业务流程。
这类Skills对于你和你团队来说很重要,评测主要是为了确保Agent能够严格遵守业务流程。
Skill Creator的三大利器
利器1:引入评测(Evals)
Skill-creator现在可以帮你做评测了!
你来为Skill定义测试标准,Skill-creator会帮你跑这份测试集,告诉你这项Skill是否合格。
主要有两个用途:及时发现质量退化、理解模型进展。
此外,在模型更新或迭代内容后跑一遍基准测试(Benchmark),它会跟踪评估通过率、耗时、token消耗量三个关键指标。
这些结果你可以集成到数据看板中,或关联到CI系统。
利器2:支持多智能体评测与 A/B 测试
以前线性运行评测速度慢,而且上下文容易互相污染。
现在skill-creator支持同时启动多个独立智能体并行跑测试,每个智能体都在干净独立的上下文中,拥有自己的Token和计时指标。
此外,还新增了做A/B测试的比较智能体。
用来对比两个版本skill,或者对比有skill和无skill,并在不知情的情况下,客观评判谁更好,从而你可以知道更改是否真的有帮助。
利器3:触发器调优(Trigger optimization)
Skill再厉害,如果大模型“想不起来用”也白搭。
随着Skill数量增多,描述的精准性变得至关重要:
如果描述太宽泛,会导致误触发;
如果描述太局限,则导致漏触发。
Skill Creator会自动分析你当前的描述和示例提示,并主动建议如何修改,以减少误触和漏触。
洞察评测与skill未来
目前Skills本质上是一份操作指南,告诉模型一步一步 How to do。
但随着大模型越来越聪明,Anthropic认为:Skill描述和测试标准的界限会逐渐消失。
未来,你只需要定义评测标准,告诉模型“什么样是好结果”,这个评测标准本身就会直接成为Skill的全部。
如何使用呢?
Claude.ai和Cowork中可以直接使用最新的skill-creator,Claude Code需要安装skill-creator插件。
https://github.com/anthropics/claude-plugins-official/tree/main/plugins/skill-creator
最后,你有尝试构建自己的Agent Skills吗?
如果你对AI评测感兴趣,欢迎留言或添加我的微信(floracat2025)进行探讨!
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-03-31
京东科技发布ClawTip 业内首个纯正A2A微支付基础设施来了!
2026-03-31
MCP没死,CLI大兴,Skill通吃,GUI变形
2026-03-31
我用Harness Engineering实现【无人值守式】的产品开发运营
2026-03-30
我开发了一个 龙虾Skill,让亚马逊的五点描述从 54 分提升到了 98 分
2026-03-30
为什么一夜之间大家都在做 CLI?
2026-03-30
学习笔记:从 Agent 到 Skills — AI 智能体架构的范式转变
2026-03-30
飞书 CLI 开源了,为什么 AI Agent 时代,大家都在做命令行工具?
2026-03-29
值得用的Agentic Skills框架:Superpowers从安装到实战
2026-03-04
2026-03-03
2026-03-03
2026-03-10
2026-03-05
2026-03-04
2026-03-05
2026-03-02
2026-03-18
2026-03-17
2026-03-30
2026-03-30
2026-03-26
2026-03-23
2026-03-19
2026-03-17
2026-03-15
2026-03-05