免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

别再存轨迹了:SkillRL 让 Agent 把经验炼成技能,还会自我进化

发布日期:2026-02-11 22:11:42 浏览次数: 1519
作者:SparksofAGI

微信搜一搜,关注“SparksofAGI”

推荐语

SkillRL突破传统轨迹存储方式,将经验提炼为可复用技能库,实现智能体自我进化与决策效率10-20倍提升。

核心内容:
1. 传统轨迹存储的局限性及技能抽象的必要性
2. SkillRL三件套:技能蒸馏、层级技能库与递归进化机制
3. 在多个基准测试中验证的显著性能提升与消融实验结果

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家


paper2md/202602/2602.08234_SkillRL _ Evolving <a href=Agents via Recursive Skill-Augmented Reinforcement Learning/Attachments/cover_top.png" class="rich_pages wxw-img" data-aistatus="1" data-ratio="0.42685185185185187" src="https://api.ibos.cn/v4/weapparticle/accesswximg?aid=134184&url=aHR0cHM6Ly9tbWJpei5xcGljLmNuL3N6X21tYml6X3BuZy9rZW9VZjVoakFPOERmbm1YZ2NPS054N3VBamhUUkhIbWRzTmRCY1dpY29ETEFvdEcxZWljdVJ2MTBiZ2phR1NSc29DeU1ocElpYjNQUlNldXl4WDY3R2gxZnBsSkdQekJpYTAwc2IzS2lieTA3MmlhUS82NDA/ZnJvbT1hcHBtc2c=" data-w="1080" style="border-radius: 4px;border-width: 0px;border-style: solid;border-color: transparent;box-shadow: rgba(0, 0, 0, 0.1) 0px 0px 5px;margin: 0px;max-width: 100%;height: auto;display: block;">

SkillRL : Evolving Agents via Recursive Skill-Augmented Reinforcement Learning
别再存轨迹了:SkillRL 让 Agent 把经验炼成技能,还会自我进化
Takeaways
  • 论文提出 SkillRL:把交互轨迹“蒸馏”为可检索、可复用的技能(SkillBank),再在强化学习过程中按验证失败递归扩展技能库,实现“策略—技能库”协同进化。
  • 相比存原始轨迹的记忆方法,技能抽象带来约 10–20× 的上下文压缩,同时提升决策可用性,缓解“冗余/噪声”与“信息密度”的矛盾。
  • 在 ALFWorld、WebShop 与 7 个检索增强 QA 任务上取得 SOTA;消融显示:去掉冷启动 SFT 或用原始轨迹替代技能库会显著掉点。
    截屏2026-02-11 21.20.56.png
问题背景:为什么“存轨迹”不够

现有 LLM Agent 的“经验”常以外部记忆形式保存原始轨迹,但轨迹往往冗长、包含探索回退与噪声,导致相似检索时上下文开销高、关键信号稀释,甚至性能随任务复杂度上升而退化。论文主张有效迁移需要“抽象”:类似人类不记每一步,而是形成可复用的技能规则。

方法总览:SkillRL 三件套
截屏2026-02-11 21.21.09.png

SkillRL 由三部分构成(框架概览见 Figure 2):
  1. 经验驱动的技能蒸馏:用教师模型将成功/失败轨迹分别提炼为“成功策略技能”和“失败教训技能”。  
  2. 层级技能库 SkillBank:区分通用技能  与任务类型相关技能 ,并定义结构化字段(名称、原则、when_to_apply)以便检索与执行。  
  3. 递归技能进化:在 RL 训练中周期性分析验证失败轨迹,生成新技能并更新 SkillBank,使其随策略提升而扩展。
3.1 经验蒸馏:成功保留、失败转为“反例原则”

在环境  中用基座策略采样轨迹 

对成功集  直接提炼关键决策点与可迁移模式;对失败集  不直接入库,而让教师模型总结“失败发生点、错误原因、正确做法、可泛化规避原则”,把冗长失败轨迹压缩为可执行的“边界条件/反例规则”。

3.2 SkillBank:通用技能 + 任务技能的层级组织
  • 通用技能 :跨任务通用的探索、状态校验、目标跟踪与纠错等原则(如系统化探索、动作前检查、避免循环)。  
  • 任务技能 :面向某类任务的领域序列与启发式(如 WebShop 的“先选变体再确认价格”、ALFWorld 的“先找参照物建立空间关系再执行”)。
    这种层级设计用于同时覆盖“基础策略”与“任务特化”,并降低仅靠任务技能导致的泛化不足。
3.3 检索与冷启动:先教会模型“怎么用技能”,再做 RL

推理/训练时,通用技能始终加入上下文;任务技能按语义相似度检索 Top-K:

截屏2026-02-11 21.23.13.png

策略在技能条件下生成动作:
截屏2026-02-11 21.23.41.png

论文强调:仅把技能塞给未适配的基座模型收益有限,因此引入冷启动 SFT:教师生成技能增强的示范轨迹集合 ,用交叉熵目标
截屏2026-02-11 21.24.11.png

让模型学会“检索—解释—应用”技能;该模型也作为 KL 参考策略 
3.4 递归进化:用验证失败驱动技能库生长

静态技能库难覆盖训练中不断出现的新状态区域。SkillRL 在验证阶段按任务类别监控成功率 ,当  时触发进化:收集失败轨迹 (分层、按失败严重度优先、轮转采样以保持类别多样性),教师生成新增/修订技能:

Pasted image 20260211212518.png

并更新 ,形成“遇到新失败→补技能→再优化”的闭环。
强化学习优化:以 GRPO 为底座

论文采用 GRPO(无 critic、组内相对优势)优化技能增强策略;每个任务采样  条轨迹,二值奖励 ,优势为标准化形式,目标函数为 PPO 风格裁剪项加 KL 正则,KL 参考为冷启动后的 ,以避免 RL 破坏“会用技能”的能力。

实验结果:ALFWorld、WebShop 与检索增强 QA
  • 主结果(Table 1):SkillRL 在 ALFWorld 总成功率 89.9%,WebShop 成功率 72.7%,显著超过多类基线(提示式、RL、记忆增强 RL),并在若干高难子任务(如 Cool、Pick2)对 GRPO 有更大优势。  
  • 检索增强 QA(Table 2):在 7 个数据集上平均 47.1%,优于 Search-R1(38.5%)与 EvolveR(43.1%);在多跳与强组合推理任务(如 Bamboogle)提升更明显。  
  • 消融(Table 3):去掉层级结构、用原始轨迹替代技能库、去掉冷启动 SFT、去掉动态进化都会掉点;其中“原始轨迹替代技能库”和“去掉冷启动 SFT”降幅最大,显示抽象与“可用技能的初始化”是核心。  
  • 技能库增长(Figure 3):初始约 55 个技能(通用 12、任务 43),训练中增长到约 100(通用 20、任务 80),以任务技能增长为主。  
  • 上下文效率(Figure 4):相较原始记忆检索,技能抽象显著减少 prompt tokens,同时保持推理效用。  
  • 收敛(Figure 5):递归进化带来更快收敛与更高上限。
    截屏2026-02-11 21.21.22.png
可复用的“技能”长什么样

附录示例表(如 Table 5–8)展示 SkillBank 的具体形态:既有“系统化探索、动作前检查、循环逃逸”等通用规则,也有 WebShop 的“先核验约束、变体切换后复查价格、发现不匹配立即返回搜索”等细粒度流程技能;同时配套错误分类(如“遗漏约束”“变体导致价格漂移未复查”“过早购买”),用于把失败轨迹转成可执行的防错原则。

运行与复现信息(摘录)

实现使用 Qwen2.5-7B-Instruct 作为基座,教师用于蒸馏与 SFT 数据生成;检索参数示例:,进化触发阈值 ;训练采用 GRPO,学习率  等(更细见超参表 Table 4)。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询