2026年4月2日 19:30分,来腾讯会议(限30人)了解如何用Openclaw构建企业AI生产力
免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

如何评测Agent Skills?Anthropic给出了解决方案

发布日期:2026-03-31 18:13:13 浏览次数: 1523
作者:诗与沅方

微信搜一搜,关注“诗与沅方”

推荐语

Anthropic创新推出Skill Creator三大利器,让非技术人员也能轻松测试和优化Agent Skills,解决技能触发难题。

核心内容:
1. Agent Skills的两大分类及评测意义
2. Skill Creator的三大核心功能:评测系统、多智能体测试、触发器调优
3. 未来Skills发展方向与自动化优化潜力

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

诗与沅方   

    知行合一

大家好,我是诗沅Flora。

当你在给Agent接入Skills时,有没有遇到Skills并不是每次都有效的烦恼呢。

那么如何去验证Skills是否能在合适的时候触发?在编辑后效果是否提升?以及在新模型上是否依然有效?

针对这些问题,Anthropic敏锐地捕捉到了大家的痛点,将软件工程中严谨的测试、基准跑分、迭代」理念引入到了skill-creator中,让非技术人员也可以去测试、衡量和优化Agent Skills。

Skills 分类与评测


目前,Agent Skills可以分成两类,这决定了为什么要测试它们:

  能力提升型(Capability uplift skills)

这类Skills用来教大模型做它原来做不到或做不好的事情,比如极其复杂的PDF表格排版。

但是随着大模型能力越来越强,很可能模型自身就学会了这项能力,那么这类skill的评测主要用来判断,当前Agent接入的这个Skill还有没有存在的必要了。

  偏好编码型(Encoded preference skills)

这类Skills主要是用来固化独有的SOP,比如你们公司的NDA审查流程、你每周从多个工具拉取数据进行汇总分析的业务流程。

这类Skills对于你和你团队来说很重要,评测主要是为了确保Agent能够严格遵守业务流程。

Skill Creator的三大利器


  利器1:引入评测(Evals)

Skill-creator现在可以帮你做评测了!

你来为Skill定义测试标准,Skill-creator会帮你跑这份测试集,告诉你这项Skill是否合格。

主要有两个用途:及时发现质量退化、理解模型进展。

此外,在模型更新或迭代内容后跑一遍基准测试(Benchmark,它会跟踪评估通过率、耗时、token消耗量三个关键指标。

这些结果你可以集成到数据看板中,或关联到CI系统。

  利器2:支持多智能体评测与 A/B 测试

以前线性运行评测速度慢,而且上下文容易互相污染。

现在skill-creator支持同时启动多个独立智能体并行跑测试,每个智能体都在干净独立的上下文中,拥有自己的Token和计时指标。

此外,还新增了做A/B测试的比较智能体。

用来对比两个版本skill,或者对比有skill和无skill,并在不知情的情况下,客观评判谁更好,从而你可以知道更改是否真的有帮助。

  利器3:触发器调优(Trigger optimization

Skill再厉害,如果大模型“想不起来用”也白搭。

随着Skill数量增多,描述的精准性变得至关重要:

  • 如果描述太宽泛,会导致误触发;

  • 如果描述太局限,则导致漏触发。

Skill Creator会自动分析你当前的描述和示例提示,并主动建议如何修改,以减少误触和漏触。

洞察评测与skill未来


目前Skills本质上是一份操作指南告诉模型一步一步 How to do。

但随着大模型越来越聪明,Anthropic认为:Skill描述和测试标准的界限会逐渐消失。

未来,你只需要定义评测标准,告诉模型“什么样是好结果”,这个评测标准本身就会直接成为Skill的全部。


如何使用呢?

Claude.ai和Cowork中可以直接使用最新的skill-creator,Claude Code需要安装skill-creator插件。

https://github.com/anthropics/claude-plugins-official/tree/main/plugins/skill-creator


最后,你有尝试构建自己的Agent Skills吗?

如果你对AI评测感兴趣,欢迎留言或添加我的微信(floracat2025)进行探讨!

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询