免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

2篇SkillGraph,一篇阿里,一篇腾讯

发布日期:2026-05-14 13:01:39 浏览次数: 1512
作者:PaperToday

微信搜一搜,关注“PaperToday”

推荐语

解决AI Agent技能执行顺序混乱的问题,阿里与腾讯推出SkillGraph技术,让技能之间形成依赖关系图,实现清晰的任务规划。

核心内容:
1. 当前AI Agent技能库的痛点:技能平铺,检索靠语义相似度,无法确定执行顺序
2. SkillGraph的核心机制:将技能组织成有向依赖图,通过三种类型的边(前置依赖、增强关系、共现关系)明确技能间关系
3. 动态进化与渐进解锁:SkillGraph在训练中持续优化技能节点与边,并通过渐进解锁机制控制技能库质量

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

AI Agent派一个活儿:去厨房找到杯子,拿起来,放到微波炉里加热,最后端到餐桌上。Agent 学了不少Skill技能——找东西,操作家电,移动物品——但当它真正面对这个任务时,系统检索出一堆看起来相关的Skill,却完全不知道该先做哪一步、哪一步是哪一步的前提一篇Agent Skills最新系统性综述

这就是当前几乎所有 Agent 技能库的通病:技能是平铺在列表里的,检索全靠语义相似度。能找到相关技能,但不知道执行顺序

为了解决了这个问题,上个月腾讯混元发了一篇Skill Graphs论文,提出了一种SkillSynth,它把 AI 操作终端的过程抽象成"场景-技能"序列。

每个技能从一个前置场景指向一个后置场景,形成有向图。图中的一条路径,就对应一个真实的多步骤工作流。详情: 腾讯混元干了件大事:Skill Graphs

今天,阿里也发了一篇SkillGraph,给技能库加上依赖关系图,让技能之间有明确的"谁先谁后"关系。

阿里SkillGraph:把扁平列表升级成依赖图

SkillGraph 的核心改动很简单:不再把技能平铺存储,而是组织成一张有向依赖图

每个技能是图上的一个节点,节点之间有三种类型的边:

  • 前置依赖(prerequisite):技能 A 必须在技能 B 之前执行
  • 增强关系(enhance):通用技能 A 能提升特定技能 B 的效果
  • 共现关系(co-occur):技能 A 和 B 经常在同一次成功轨迹中一起出现

检索时,系统不做语义 Top-K,而是从和当前任务相关的"种子技能"出发,沿着图的边做双向扩展——回溯找前置技能,前向搜索相关后续技能——最后拓扑排序,输出一条依赖有序的技能链。Agent 拿到的不再是一堆零散提示,而是一个"先做 A 再做 B 再做 C"的清晰计划。

图不是静态的,它会跟着 Agent 一起进化

这是 SkillGraph 和之前图方法的一个关键区别:图在训练过程中持续进化

节点层面,系统根据训练反馈自动执行四种操作:

  • 新增:遇到现有技能覆盖不了的失败模式,生成针对性新技能
  • 合并:图邻域高度重叠的冗余技能被合成一个
  • 拆分:使用率高但成功率中等的"大而全"技能被分解成更精确的子技能
  • 废弃:被频繁调用但持续失败的技能直接淘汰

边层面同样动态调整:成功路径上的边权重被强化,新发现的技能共现关系被添加为新的 co_occur 边,过时的边被衰减剪枝。

实验数据显示,节点数从约 20 个自动增长到约 140 个,但活跃节点数会因为废弃机制提前收敛——系统自动控制了技能库的质量,而不是无限膨胀。其中 co_occur 边增长最快,说明图能自动发现人类事先不知道的技能关联。

还有一个值得注意的设计:渐进解锁。一开始只开放最基础的 level-0 技能,等这些技能的平均成功率超过阈值后,才解锁更高层级的技能。相当于给 Agent 设置了一个自动课程表——先学走路再学跑步,避免还没掌握基础就被高级技能带偏。

结果:7B 模型碾压 GPT-4o,图结构本身是最大功臣

实验在三个场景展开:ALFWorld(家庭操作)、WebShop(网购导航)、七个搜索增强问答任务。

核心数字:

SkillGraph 用的是 Qwen2.5-7B-Instruct,一个 7B 开源模型。它在 ALFWorld 上比 GPT-4o 高出 42.6 个百分点,比 Gemini-2.5-Pro 高出 30.3 个百分点。在 WebShop 上比 GPT-4o 高出超过 48 分。甚至 Clean 和 Heat 这两个要求严格步骤顺序的子任务,达到了 100% 成功率

比最强对手 SkillRL 也高了 11.7 分(WebShop),差距主要来自图演化持续发现的技能依赖链——比如"查询细化→属性匹配→价格比较"这种跨技能组合,扁平库捕捉不到。

消融实验更能说明问题:去掉图感知检索,ALFWorld 直接掉了 31.2 分。这不是靠更多技能或更强模型换来的提升——图结构本身就是最大的贡献因素。

训练动态对比
训练动态对比

训练过程的对比也很有说服力:SkillGraph 大约 50 步后就超过了 SkillRL,而且图引导检索的 prompt 始终比扁平检索更短——因为图遍历只保留拓扑相关的技能,不像语义检索把所有"沾边"的条目都塞进去。

上下文效率对比
上下文效率对比

在搜索增强问答上,SkillGraph 只在 NQ 和 HotpotQA 两个数据集上训练,零样本泛化到另外五个数据集仍然拿到了最高均值 48.9

最后

SkillGraph 的核心信息不是"图比列表好"这么简单,而是:决定 Agent 能力的不是技能数量,而是技能之间的结构关系。

对于做 Agent 系统的团队来说,这意味着一个重要的设计优先级调整——与其花精力往技能库里塞更多条目,不如先把技能之间的依赖关系搞清楚。消融实验已经证明,图结构的收益远大于增加技能数量。

论文标题: SkillGraph: Skill-Augmented Reinforcement Learning for Agents via Evolving Skill Graphs
论文链接: https://arxiv.org/abs/2605.12039

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询