我要投稿

2篇SkillGraph，一篇阿里，一篇腾讯

发布日期：2026-05-14 13:01:39 浏览次数： 1867

作者：PaperToday

微信搜一搜，关注“PaperToday”

给AI Agent派一个活儿：去厨房找到杯子，拿起来，放到微波炉里加热，最后端到餐桌上。Agent 学了不少Skill技能——找东西，操作家电，移动物品——但当它真正面对这个任务时，系统检索出一堆看起来相关的Skill，却完全不知道该先做哪一步、哪一步是哪一步的前提。一篇Agent Skills最新系统性综述

这就是当前几乎所有 Agent 技能库的通病：技能是平铺在列表里的，检索全靠语义相似度。能找到相关技能，但不知道执行顺序。

为了解决了这个问题，上个月腾讯混元发了一篇Skill Graphs论文，提出了一种SkillSynth，它把 AI 操作终端的过程抽象成"场景-技能"序列。

每个技能从一个前置场景指向一个后置场景，形成有向图。图中的一条路径，就对应一个真实的多步骤工作流。详情：腾讯混元干了件大事：Skill Graphs

今天，阿里也发了一篇SkillGraph，给技能库加上依赖关系图，让技能之间有明确的"谁先谁后"关系。

阿里SkillGraph：把扁平列表升级成依赖图

SkillGraph 的核心改动很简单：不再把技能平铺存储，而是组织成一张有向依赖图。

每个技能是图上的一个节点，节点之间有三种类型的边：

前置依赖（prerequisite）：技能 A 必须在技能 B 之前执行
增强关系（enhance）：通用技能 A 能提升特定技能 B 的效果
共现关系（co-occur）：技能 A 和 B 经常在同一次成功轨迹中一起出现

检索时，系统不做语义 Top-K，而是从和当前任务相关的"种子技能"出发，沿着图的边做双向扩展——回溯找前置技能，前向搜索相关后续技能——最后拓扑排序，输出一条依赖有序的技能链。Agent 拿到的不再是一堆零散提示，而是一个"先做 A 再做 B 再做 C"的清晰计划。

图不是静态的，它会跟着 Agent 一起进化

这是 SkillGraph 和之前图方法的一个关键区别：图在训练过程中持续进化。

节点层面，系统根据训练反馈自动执行四种操作：

新增：遇到现有技能覆盖不了的失败模式，生成针对性新技能
合并：图邻域高度重叠的冗余技能被合成一个
拆分：使用率高但成功率中等的"大而全"技能被分解成更精确的子技能
废弃：被频繁调用但持续失败的技能直接淘汰

边层面同样动态调整：成功路径上的边权重被强化，新发现的技能共现关系被添加为新的 co_occur 边，过时的边被衰减剪枝。

实验数据显示，节点数从约 20 个自动增长到约 140 个，但活跃节点数会因为废弃机制提前收敛——系统自动控制了技能库的质量，而不是无限膨胀。其中 co_occur 边增长最快，说明图能自动发现人类事先不知道的技能关联。

还有一个值得注意的设计：渐进解锁。一开始只开放最基础的 level-0 技能，等这些技能的平均成功率超过阈值后，才解锁更高层级的技能。相当于给 Agent 设置了一个自动课程表——先学走路再学跑步，避免还没掌握基础就被高级技能带偏。

结果：7B 模型碾压 GPT-4o，图结构本身是最大功臣

实验在三个场景展开：ALFWorld（家庭操作）、WebShop（网购导航）、七个搜索增强问答任务。

核心数字：

SkillGraph 用的是 Qwen2.5-7B-Instruct，一个 7B 开源模型。它在 ALFWorld 上比 GPT-4o 高出 42.6 个百分点，比 Gemini-2.5-Pro 高出 30.3 个百分点。在 WebShop 上比 GPT-4o 高出超过 48 分。甚至 Clean 和 Heat 这两个要求严格步骤顺序的子任务，达到了 100% 成功率。

比最强对手 SkillRL 也高了 11.7 分（WebShop），差距主要来自图演化持续发现的技能依赖链——比如"查询细化→属性匹配→价格比较"这种跨技能组合，扁平库捕捉不到。

消融实验更能说明问题：去掉图感知检索，ALFWorld 直接掉了 31.2 分。这不是靠更多技能或更强模型换来的提升——图结构本身就是最大的贡献因素。