微信扫码
添加专属顾问
我要投稿
SkillRL突破传统轨迹存储方式,将经验提炼为可复用技能库,实现智能体自我进化与决策效率10-20倍提升。 核心内容: 1. 传统轨迹存储的局限性及技能抽象的必要性 2. SkillRL三件套:技能蒸馏、层级技能库与递归进化机制 3. 在多个基准测试中验证的显著性能提升与消融实验结果
现有 LLM Agent 的“经验”常以外部记忆形式保存原始轨迹,但轨迹往往冗长、包含探索回退与噪声,导致相似检索时上下文开销高、关键信号稀释,甚至性能随任务复杂度上升而退化。论文主张有效迁移需要“抽象”:类似人类不记每一步,而是形成可复用的技能规则。
在环境 中用基座策略采样轨迹 。
对成功集 直接提炼关键决策点与可迁移模式;对失败集 不直接入库,而让教师模型总结“失败发生点、错误原因、正确做法、可泛化规避原则”,把冗长失败轨迹压缩为可执行的“边界条件/反例规则”。
推理/训练时,通用技能始终加入上下文;任务技能按语义相似度检索 Top-K:
静态技能库难覆盖训练中不断出现的新状态区域。SkillRL 在验证阶段按任务类别监控成功率 ,当 时触发进化:收集失败轨迹 (分层、按失败严重度优先、轮转采样以保持类别多样性),教师生成新增/修订技能:
论文采用 GRPO(无 critic、组内相对优势)优化技能增强策略;每个任务采样 条轨迹,二值奖励 ,优势为标准化形式,目标函数为 PPO 风格裁剪项加 KL 正则,KL 参考为冷启动后的 ,以避免 RL 破坏“会用技能”的能力。
附录示例表(如 Table 5–8)展示 SkillBank 的具体形态:既有“系统化探索、动作前检查、循环逃逸”等通用规则,也有 WebShop 的“先核验约束、变体切换后复查价格、发现不匹配立即返回搜索”等细粒度流程技能;同时配套错误分类(如“遗漏约束”“变体导致价格漂移未复查”“过早购买”),用于把失败轨迹转成可执行的防错原则。
实现使用 Qwen2.5-7B-Instruct 作为基座,教师用于蒸馏与 SFT 数据生成;检索参数示例:,进化触发阈值 ;训练采用 GRPO,学习率 等(更细见超参表 Table 4)。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-04-20
外企测开实战:我把40页PRD扔给Claude,3分钟生成80条测试用例
2026-04-20
懂方言,通诗词,精通30国语言,阿里发布语音识别大模型Fun-ASR1.5
2026-04-20
MCP未来会死?Anthropic工程师:2026,Agent的核心能力是连接!三大改进解决MCP上下文膨胀问题,自曝MCP应用:Agent不再寄生,可自带UI
2026-04-20
「想到」就能「得到」:灵光圈,把 Coding Agent 交到普通人手里
2026-04-20
我给了他一个梦想:超越 Claude Code
2026-04-20
深度解析 Claude Code 在 Prompt / Context / Harness 的设计与实践
2026-04-20
AI大家说 | AI落地的实践分享:从大模型盈利到新工作方式
2026-04-20
大神 Karpathy 说破了大模型的真相:不是智力不够,是垃圾数据太多
2026-01-24
2026-04-15
2026-01-23
2026-01-26
2026-03-31
2026-03-13
2026-01-21
2026-02-14
2026-02-03
2026-02-03