微信扫码
添加专属顾问
我要投稿
SkillRL突破传统轨迹存储方式,将经验提炼为可复用技能库,实现智能体自我进化与决策效率10-20倍提升。核心内容: 1. 传统轨迹存储的局限性及技能抽象的必要性 2. SkillRL三件套:技能蒸馏、层级技能库与递归进化机制 3. 在多个基准测试中验证的显著性能提升与消融实验结果
现有 LLM Agent 的“经验”常以外部记忆形式保存原始轨迹,但轨迹往往冗长、包含探索回退与噪声,导致相似检索时上下文开销高、关键信号稀释,甚至性能随任务复杂度上升而退化。论文主张有效迁移需要“抽象”:类似人类不记每一步,而是形成可复用的技能规则。
在环境 中用基座策略采样轨迹 。
对成功集 直接提炼关键决策点与可迁移模式;对失败集 不直接入库,而让教师模型总结“失败发生点、错误原因、正确做法、可泛化规避原则”,把冗长失败轨迹压缩为可执行的“边界条件/反例规则”。
推理/训练时,通用技能始终加入上下文;任务技能按语义相似度检索 Top-K:
静态技能库难覆盖训练中不断出现的新状态区域。SkillRL 在验证阶段按任务类别监控成功率 ,当 时触发进化:收集失败轨迹 (分层、按失败严重度优先、轮转采样以保持类别多样性),教师生成新增/修订技能:
论文采用 GRPO(无 critic、组内相对优势)优化技能增强策略;每个任务采样 条轨迹,二值奖励 ,优势为标准化形式,目标函数为 PPO 风格裁剪项加 KL 正则,KL 参考为冷启动后的 ,以避免 RL 破坏“会用技能”的能力。
附录示例表(如 Table 5–8)展示 SkillBank 的具体形态:既有“系统化探索、动作前检查、循环逃逸”等通用规则,也有 WebShop 的“先核验约束、变体切换后复查价格、发现不匹配立即返回搜索”等细粒度流程技能;同时配套错误分类(如“遗漏约束”“变体导致价格漂移未复查”“过早购买”),用于把失败轨迹转成可执行的防错原则。
实现使用 Qwen2.5-7B-Instruct 作为基座,教师用于蒸馏与 SFT 数据生成;检索参数示例:,进化触发阈值 ;训练采用 GRPO,学习率 等(更细见超参表 Table 4)。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-11
Claude Code 源码揭秘:为什么它能无感切换 AWS、Google、Azure
2026-02-11
全新DeepSeek发布!上下文扩展至1M
2026-02-11
刚刚,DeepSeek悄悄测试新模型:百万token上下文、知识库更新,V4要来了?
2026-02-11
DeepSeek V4 悄咪咪上线了?1M 上下文简直爽翻!
2026-02-11
2026 企业级AI(Agentic AI for Enterprise),是新大陆
2026-02-11
深度求索突然出手!1M上下文碾压GPT-4?国内AI迎来全新突破
2026-02-11
从 Clawdbot 到 OpenClaw :揭秘 AI Agent 的三重生态系统供应链风险
2026-02-11
当 AI Agent 接管手机:移动端如何进行观测
2026-01-24
2026-01-10
2025-11-19
2026-01-26
2026-01-01
2025-12-09
2025-12-21
2026-01-09
2025-11-15
2026-01-09
2026-02-11
2026-02-11
2026-02-11
2026-02-11
2026-02-07
2026-02-04
2026-02-03
2026-02-03