我要投稿

谁是 Agent 最强守门员？首个 Agent 技能安全评测基准 SkillTrustBench 正式发布

发布日期：2026-06-12 17:48:28 浏览次数： 1521

作者：腾讯安全应急响应中心

微信搜一搜，关注“腾讯安全应急响应中心”

导语

随着 Agent 技能（Skills）快速融入 AI 应用生态，它正逐步成为全新的安全边界与供应链攻击入口。为了防范恶意 Skill 导致的数据泄露与 Agent 劫持，构建安全可信的 Skill 运行环境已成为行业共识。尽管 ClawHub 等主流技能市场已上线检测机制，开源社区也涌现出大量扫描工具，但在实际落地中，用户常面临两难境地。

一方面，部分扫描方案偏向高召回但频发误报，极易导致安全告警疲劳；另一方面，部分方案虽判定精准，却在面对隐蔽的对抗手法时容易漏报。此外，基于 LLM 的扫描器在切换底层模型时研判偏好差异显著。在缺乏系统性评估标准的当下，行业亟需客观的衡量标尺，既用于度量安全方案的检测效能，也用于评估 Skill 本身的安全可信度。

针对这些痛点，腾讯朱雀实验室联合香港中文大学（深圳）吴保元教授课题组正式发布 SkillTrustBench —— 首个面向真实落地场景、兼顾 Agent Skills 安全可信度与外部扫描方案检测效能的双重评测基准。该基准从主流技能市场的 62,652 个 Skill 中提炼出 5,520 个评测用例，涵盖九大类常见安全威胁，为评估并提升 Agent 技能的安全性提供客观参考。

从首期评测数据中，我们总结了几个关键点：

大模型底座表现：在本次评测中，Claude Opus 4.6 与 GLM 5.1 在安全扫描场景下展现出极强的语义推理与安全约束理解能力，处于第一梯队；DeepSeek V4 Flash 与 Hy3 preview 则在性能与成本之间取得了优异平衡，性价比优势显著。
开源工具效能：以 OpenClaw + Skill Vetter 为代表的轻量级开源审计方案，已具备发现多数恶意 Skill 风险的基础能力，但在复杂噪声干扰下的误报控制上仍有较大优化空间。
Skill 本身的安全可信度：评测发现大量非恶意 Skill 同样存在不可信隐患。诸如硬编码凭证、敏感权限滥用、以及易受命令注入等不安全编码缺陷广泛存在，这些行为虽主观无害，却因其自身的安全脆弱性，极易成为供应链劫持的二次攻击入口。

项目官网（点击阅读原文）：https://matrix.tencent.com/skilltrustbench
HuggingFace Dataset：https://huggingface.co/datasets/cuhk-zhuque/SkillTrustBench
HuggingFace Leaderboard：https://huggingface.co/spaces/cuhk-zhuque/SkillTrustBench-Leaderboard

01 Agent Skills的攻击面正在扩大

Agent Skills 的危险性来自它的复合性。Skill 同时跨越自然语言、代码、依赖、权限和运行时上下文。它既能在文档中直接向 Agent 下达指令、利用网络请求向外传输数据，也可以通过执行本地脚本、安装外部依赖或篡改会话记忆来实施隐蔽攻击。

在 2026 年 1 月底的 ClawHavoc 事件中，1,184 个恶意 Skill 被上架到 ClawHub 市场，涉及 24.7 万次安装。随后 Snyk 发布的 ToxicSkills 报告显示市场中 36.82%的 Skill 至少存在一个安全问题；论文 SkillProbe 审计发现，高下载量并不等于更安全，ClawHub 中超过 90% 的高热度 Skill 仍然存在风险。

2026 年 4 月，腾讯朱雀实验室使用 A.I.G （AI-Infra-Guard：https://github.com/Tencent/AI-Infra-Guard，腾讯朱雀实验室开源的一站式 AI 红队安全测试平台）对 ClawHub 上 Skill 进行了全量扫描。研究显示，ClawHub 在 90 天内从不足 2,000 个 Skill 增长到超 50,000 个；即便平台后续上线了安全检测机制， Skill 生态中的风险信号仍然密集。

第一，恶意 Skill 已呈现出规模化、矩阵化的生产迹象。五万个 Skill 背后共有 15,427 名开发者，但 Top 20 发布者合计发布 5,422 个 Skill，占总量 12.9%；极端账号 3 个月发布 955 个 Skill，日均 10.6 个。多组命名相近、发布时间交替的账号矩阵说明，Skill 生态已经具备批量制造、批量投放、批量伪装的条件。

第二，权限组合天然接近数据外泄链路。在近五万个 Skill 中，27,818 个声明了网络请求权限，占比 74.6%。联网本身不是问题，但当读文件 + 联网成为大量 Skill 的常见组合时，恶意外传就可以隐藏在正常功能流量中。

第三，外联通道已经非常分散。全量扫描共发现 246,378 条 URL，指向 29,196 个不同域名。它们既可能是正常 API、文档、依赖源，也可能成为远程控制、数据回传、链上交互或二阶段载荷下载的通道。

02 现有扫描与评测为什么不够

在年初的 ClawHavoc 事件之后，Skill 市场和安全厂商已经开始建设扫描机制。以 ClawHub 为例，平台新增了内置的 LLM 安全评估和 VirusTotal 的外联检测。这类机制能有效拦截大部分恶意指令直接写在 SKILL.md (https://SKILL.md)文档里和直接下载运行木马程序的粗暴攻击。

但攻击者很快进入下一阶段：不再把恶意逻辑写得明显，而是利用输入截断、文件类型盲区、源码与分发产物不一致、企业合规话术和社会工程解释来绕过扫描。

2026 年 6 月，Trail of Bits 针对 ClawHub、Cisco skill scanner以及 skills.sh 集成的多个扫描器进行了绕过测试。他们构造的样本包括：

这些不是极端高级攻击，而是利用了当前扫描方案的能力边界：文件是否完整读取，特殊文件是否展开分析，字节码是否反编译，LLM 是否会被合理解释说服。

另一个问题是当前行业中众多开源 Skill 安全扫描方案之间缺少共识。

2026 年 5 月底 OpenClaw 官方发布的 ClawHub Security Signals 数据集覆盖了 ClawHub 中 67,453 个公开 Skill ，并进一步对比分析了ClawHub 官方市场原有内置静态分析结果、VirusTotal 分析结果和 NVIDIA SkillSpector 扫描结果三类信号。结果显示，任意两类扫描的阳性样本重合度最多只有 10.4%；只有 0.69% 的恶意 Skill 被三类扫描方案同时发现；81.9% 的被标记样本只被单一扫描方案发现。

这意味着，不同扫描方案看到的是不同风险切面，甚至对同一批样本的判断也缺少稳定共识。因此，仅有众多的开源扫描器还不够，行业还需要一个公开、可复现、可持续更新的评测基准，回答几个更基础的问题：

哪个方案更能发现恶意 Skill？
哪个方案更容易误报正常 Skill？
同一个方案换不同底层模型会怎样？
哪些攻击类型最容易漏掉？
哪些正常行为最容易被误伤？

SkillTrustBench 正是围绕这些问题设计的。

03 SkillTrustBench：从真实Skill生态构建评测标尺

SkillTrustBench 当前版本从 62,652 个真实 Skill 出发，来源覆盖主流技能市场与开源社区。经过清洗、去噪、平衡采样和攻击注入，最终形成 5,520 个评测用例，覆盖九大类 Skill 常见威胁。

样本分布如下：

这里最关键的设计不是样本数量，而是样本结构。

如果一个评测集只包含显而易见的恶意样本，扫描方案很容易被引导为看到危险命令就告警的规则系统。这样的工具在测试里可能很好看，但进入真实平台后会制造大量误报：系统管理 Skill 需要调用 shell，文档处理 Skill 可能使用临时共享库，官方安装脚本可能出现 curl | bash，开发工具 Skill 可能需要拉取依赖或访问外部 API。

毕竟在实际场景中，调用敏感 API 不等于恶意，而看似合规的解释也可能是伪装。因此，SkillTrustBench 同时评估三类能力：

是否能抓住恶意 Skill；
是否能区分 suspicious 与 malicious；
是否能控制对安全样本的误报。

在风险分类上，SkillTrustBench 采用按攻击手段划分的 T01-T09 体系，而不是只按攻击后果分类：

此外，评估 Skill 本身的安全可信度，绝非简单的“非黑即白”恶意检测，我们在风险类别中特意引入了“ T09 不安全编码行为”。

我们发现在真实的 Agent 生态中，大量由正常工程人员开发的 Skill 主观上并无恶意，但由于缺乏安全编码规范，其代码中往往伴随着硬编码凭证、敏感权限过度声明、缺乏输入校验等不可信缺陷。这些缺陷如同软件供应链中的潜伏漏洞：即使开发者主观无害，其不安全的代码仍可能被黑客通过提示词注入或间接指令劫持，成为入侵系统的隐性通道。

04 首期评测发现：高召回不等于可落地

SkillTrustBench 首期评测包含两组核心榜单：一组比较不同扫描工具，一组比较同一扫描流程在不同底层模型上的表现。

首期横评对比了当前开源生态中关注度较高的几款开源 Skill 开源扫描方案：

Skill Vetter (OpenClaw / Hermes Agent)：当前下载量最高的安全审计 Skill，可以快速部署在各类 Agent 框架中，在 Skill 安装前检查风险并在对话中提示用户。(https://clawhub.ai/spclaudehome/skill-vetter)
Cisco Skill Scanner：Cisco AI Defense 开源的检测工具，结合了静态规则、LLM 语义分析与行为数据流分析，重点扫描提示注入、数据泄露及恶意代码。(https://github.com/cisco-ai-defense/skill-scanner)
NVIDIA SkillSpector：采用两阶段检测架构。第一阶段利用 AST 行为分析、依赖项校验、污点追踪及 YARA 规则进行快速初筛；第二阶段引入 LLM 进行上下文语义分析，用以过滤误报并输出解释。(https://github.com/NVIDIA/skillspector)

在扫描器横评中，统一使用 DeepSeek v4 Flash 作为底座模型。最新公开结果如下：

在最新榜单中，Skill Vetter + OpenClaw 的组合召回率与综合分值（F1）最高；Skill Vetter + Hermes Agent 组合综合排名第二，但误报最少。Cisco Skill Scanner的召回率不错，但误报率达到24%。NVIDIA SkillSpector 的误报较少，但漏报最多。

这组数据说明，安全检测不能只单看召回率或误报率。在真实 Skill 市场上架前审计、企业内部 CI/CD 流程和 Agent 平台里，高误报会直接损害 Skill 的可用性。一个扫描方案如果把大量正常 Skill 标成恶意，最终结果往往不一定是更安全，而是被用户选择忽略提示。能抓住恶意样本是第一步。能放过正常样本，才是进入生产流程的前提。

在模型底座评测中，SkillTrustBench 固定扫描器配置，仅替换底层推理模型，观察不同模型在以 A.I.G 最新内测版作为 Skill 安全扫描工具时的表现：

能力最强之选 Claude Opus 4.6 与 GLM-5.1 。两者在风险推断、指令关联分析和意图识别方面表现出较好的均衡性，综合分值最高；不过相比之下，GLM 5.1的评测 Token 成本相对更低（不到 Claude 4.6 Opus 的 10%）。
性价比之选 DeepSeek-V4-Flash 与 Hy3 Preview。整体表现相对均衡，误报控制较好，适合作为低成本的安全评测参照基线。适合在 Skill 市场上架前扫描这种任务较高的场景中落地使用。
偏向性特征表现：