微信扫码
添加专属顾问
我要投稿
SkillRL突破传统轨迹存储方式,将经验提炼为可复用技能库,实现智能体自我进化与决策效率10-20倍提升。 核心内容: 1. 传统轨迹存储的局限性及技能抽象的必要性 2. SkillRL三件套:技能蒸馏、层级技能库与递归进化机制 3. 在多个基准测试中验证的显著性能提升与消融实验结果
现有 LLM Agent 的“经验”常以外部记忆形式保存原始轨迹,但轨迹往往冗长、包含探索回退与噪声,导致相似检索时上下文开销高、关键信号稀释,甚至性能随任务复杂度上升而退化。论文主张有效迁移需要“抽象”:类似人类不记每一步,而是形成可复用的技能规则。
在环境 中用基座策略采样轨迹 。
对成功集 直接提炼关键决策点与可迁移模式;对失败集 不直接入库,而让教师模型总结“失败发生点、错误原因、正确做法、可泛化规避原则”,把冗长失败轨迹压缩为可执行的“边界条件/反例规则”。
推理/训练时,通用技能始终加入上下文;任务技能按语义相似度检索 Top-K:
静态技能库难覆盖训练中不断出现的新状态区域。SkillRL 在验证阶段按任务类别监控成功率 ,当 时触发进化:收集失败轨迹 (分层、按失败严重度优先、轮转采样以保持类别多样性),教师生成新增/修订技能:
论文采用 GRPO(无 critic、组内相对优势)优化技能增强策略;每个任务采样 条轨迹,二值奖励 ,优势为标准化形式,目标函数为 PPO 风格裁剪项加 KL 正则,KL 参考为冷启动后的 ,以避免 RL 破坏“会用技能”的能力。
附录示例表(如 Table 5–8)展示 SkillBank 的具体形态:既有“系统化探索、动作前检查、循环逃逸”等通用规则,也有 WebShop 的“先核验约束、变体切换后复查价格、发现不匹配立即返回搜索”等细粒度流程技能;同时配套错误分类(如“遗漏约束”“变体导致价格漂移未复查”“过早购买”),用于把失败轨迹转成可执行的防错原则。
实现使用 Qwen2.5-7B-Instruct 作为基座,教师用于蒸馏与 SFT 数据生成;检索参数示例:,进化触发阈值 ;训练采用 GRPO,学习率 等(更细见超参表 Table 4)。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-29
Loop Engineering 具体做些什么
2026-06-28
字节跳动最新AI Coding实践曝光,我总结了7 条反常识的结论
2026-06-28
企业级AI的核心不是Agent,而是让Agent变得不重要的Skills
2026-06-27
OpenAI深夜引爆GPT-5.6,三箭齐发全面围剿Anthropic
2026-06-27
Agent 发邮件踩坑全记录:从 SMTP 翻车到 Agently Mail
2026-06-27
AgentTeams 和 Claude Tag 都进入群聊模式,是新范式还是新叙事?
2026-06-27
GPT-5.6 Sol深夜炸场发布!OpenAI最强模型碾压Claude 5!
2026-06-26
腾讯混元AI Infra如何优化Hy3 Preview:一次大模型推理性能提升的技术拆解
2026-04-15
2026-04-07
2026-04-07
2026-04-24
2026-04-17
2026-03-31
2026-04-05
2026-04-02
2026-04-05
2026-03-31
2026-06-27
2026-06-26
2026-06-25
2026-06-18
2026-06-18
2026-06-10
2026-06-10
2026-06-07