如何评测Agent Skills？Anthropic给出了解决方案

发布日期：2026-03-31 18:13:13 浏览次数： 2202

作者：诗与沅方

微信搜一搜，关注“诗与沅方”

当你在给Agent接入Skills时，有没有遇到Skills并不是每次都有效的烦恼呢。

那么如何去验证Skills是否能在合适的时候触发？在编辑后效果是否提升？以及在新模型上是否依然有效？

针对这些问题，Anthropic敏锐地捕捉到了大家的痛点，将软件工程中严谨的「测试、基准跑分、迭代」理念引入到了skill-creator中，让非技术人员也可以去测试、衡量和优化Agent Skills。

Skills 分类与评测

目前，Agent Skills可以分成两类，这决定了为什么要测试它们：

能力提升型（Capability uplift skills）

这类Skills用来教大模型做它原来做不到或做不好的事情，比如极其复杂的PDF表格排版。

但是随着大模型能力越来越强，很可能模型自身就学会了这项能力，那么这类skill的评测主要用来判断，当前Agent接入的这个Skill还有没有存在的必要了。

偏好编码型（Encoded preference skills）

这类Skills主要是用来固化独有的SOP，比如你们公司的NDA审查流程、你每周从多个工具拉取数据进行汇总分析的业务流程。

这类Skills对于你和你团队来说很重要，评测主要是为了确保Agent能够严格遵守业务流程。

Skill Creator的三大利器

利器1：引入评测（Evals）

Skill-creator现在可以帮你做评测了！

你来为Skill定义测试标准，Skill-creator会帮你跑这份测试集，告诉你这项Skill是否合格。

主要有两个用途：及时发现质量退化、理解模型进展。

此外，在模型更新或迭代内容后跑一遍基准测试（Benchmark），它会跟踪评估通过率、耗时、token消耗量三个关键指标。

这些结果你可以集成到数据看板中，或关联到CI系统。

利器2：支持多智能体评测与 A/B 测试

以前线性运行评测速度慢，而且上下文容易互相污染。

现在skill-creator支持同时启动多个独立智能体并行跑测试，每个智能体都在干净独立的上下文中，拥有自己的Token和计时指标。

此外，还新增了做A/B测试的比较智能体。

用来对比两个版本skill，或者对比有skill和无skill，并在不知情的情况下，客观评判谁更好，从而你可以知道更改是否真的有帮助。

利器3：触发器调优（Trigger optimization）

Skill再厉害，如果大模型“想不起来用”也白搭。

随着Skill数量增多，描述的精准性变得至关重要：

如果描述太宽泛，会导致误触发；
如果描述太局限，则导致漏触发。

Skill Creator会自动分析你当前的描述和示例提示，并主动建议如何修改，以减少误触和漏触。

洞察评测与skill未来

目前Skills本质上是一份操作指南，告诉模型一步一步 How to do。

但随着大模型越来越聪明，Anthropic认为：Skill描述和测试标准的界限会逐渐消失。

未来，你只需要定义评测标准，告诉模型“什么样是好结果”，这个评测标准本身就会直接成为Skill的全部。

如何使用呢？

Claude.ai和Cowork中可以直接使用最新的skill-creator，Claude Code需要安装skill-creator插件。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-30

产品路线图AI自动生成：从战略到执行的可视化

2026-06-30

咨询｜相比于PPT的沉淀，咨询公司在AI时代更需要沉淀skills；和建立skills library

2026-06-29

Skill 正在重构 Agent 生态，但更危险的是认知负债

2026-06-29

AI 动画辅助实现（实践篇）：从 AE 到可运行代码的全链路方案

2026-06-28

我做了 6 个 Skill 后，才明白 AI 真正改变的不是效率

2026-06-28

字节面试题：Agent 里的 Skill 到底怎么做才算高质量？

2026-06-26

一个 Skill 搞定99%测试报告重复工作，单份数据一键产出4套差异化压测报告(第七篇)

2026-06-26

英伟达开源一款 Skill 神器，暴涨 1.1 万 Star！

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

26个PPT生成Skill，我做了一次系统梳理

2026-05-15

开源「女娲.skill」，你现在可以去蒸馏任何人！

2026-04-05

小红书开始内测Red Skill，笔记下面也能挂AI技能了！

2026-05-24

我做了个 Skill：让 AI 帮你生成 Logo 和图标

2026-04-16

做了3个 Skills，打通公众号自动排版发布流程。

2026-04-09

我把Google官方SEO文档蒸馏成了一个SEO.skill

2026-04-14

GitHub上最火的10个Claude Code Skills，装完效率翻倍

2026-05-06

从手写 Prompt 到可复用 Skills：AI Agent 的“技能包”

2026-05-20

40分钟学会Codex！“零基础”终级教程～【附完整文档】

2026-05-19

深度解析：Codex Pet Skill

2026-05-03

大家都在问

字节面试题：Agent 里的 Skill 到底怎么做才算高质量？

2026-06-28

如何高效管理多 Agent 散落各处的 Skills?

2026-06-23

同样是一个Skill，凭啥有的skill卖5万？有的免费都没有用？

2026-06-11

装了一堆 Skill，为什么最后都删了？

2026-06-11

如何更科学、方向可控的实现 Skill 的“自进化”?

2026-06-09

为什么各大公司开始大张旗鼓搞Skill中台？

2026-06-08

大模型的Agent Skill功能，在LLM HTTP底层交互流中是怎么承载的？

2026-05-28

当我们在管 Skill 时，我们到底在管什么？

2026-05-19

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw