微信扫码
添加专属顾问
我要投稿
训练任务不足:离线数据集通常提供了人类注释的轨迹,便于在预定义任务上训练和评估智能体。但像WebArena这样的在线网页环境通常只提供有限的测试集用于评估。这种缺乏预定义训练任务和训练数据的情况显著阻碍了在这些环境中对智能体的有效训练。
反馈信号的稀疏性:在没有任务特定评估函数的情况下,评估任意网页浏览任务的成功与否较为困难。此外,不同于某些图形用户界面数据集中的任务(如 AITW 和 WebShop),WebArena中的任务通常具有较长的步骤序列,最优解平均需要约10步。这一特点在在线探索过程中导致了反馈信号的严重稀疏性。
在线学习中的策略分布漂移:由于缺乏预定义的训练集,在线探索成为必要,然而这不可避免地导致智能体策略的分布漂移。这一现象可能会引发灾难性遗忘,并导致性能随时间下降。
Llama3.1-8B 在 WebRL 训练下,平均准确率达到 42.4%,超越所有基线方法,尤其在Gitlab(46.7%)和CMS(54.3%)等复杂任务上表现出色。
WebRL 在不同模型架构中效果一致,如 GLM-4-9B 也展现了相似的性能提升,达到了 43% 的平均准确率,证明了 WebRL 的鲁棒性和适应性。
WebRL 在更大规模模型上仍具有有效性。Llama3.1-70B 在 WebRL 训练后的平均准确率达到了 49.1%。
在具有各种数量的步骤需求的任务上,WebRL 都有优秀的表现。尤其在需要更长步骤数量的任务上(步骤数 >= 6),WebRL 的表现明显优于其他方法。WebRL 通过课程学习逐步增加任务难度,提高了对复杂任务的处理能力,在需要长期规划的任务上表现优于其他方法。
WebRL 在不同复杂度的指令上表现良好,尤其在更复杂的指令上表现出色。WebRL 采用的自我进化课程学习策略能够基于模型能力逐步提升任务复杂度,从而在复杂任务上表现更佳,展现了其适应不同复杂度指令的有效性。
相比基线方法,使用 WebRL 训练的模型在“中途卡住(Get Stuck Midway)”错误上表现更好,成功减少了陷入重复操作的循环的情况。
WebRL 通过课程学习提升了模型应对“无法恢复错误(Fail to Recover)”的能力,使其在遭遇失败时能更灵活地调整操作。
WebRL 训练的模型在“错误页面停留”和“未尝试合理行动”错误上表现最优,表现出对任务与网页之间关系的更深层理解。这使模型能够更准确地识别完成特定任务所需的正确页面,从而减少误停错误页面或导航至不相关页面的概率。
WebRL 与 DigiRL 对比,证明了通过自我进化的课程学习策略可以实现更加持续的性能提升。
WebRL w/o replay buffer 与 WebRL w/o KL & replay buffer 对比,证明了 KL 散度约束的策略更新算法在减轻知识遗忘上的有效性。
WebRL 与 WebRL w/o replay buffer 对比,证明了重放缓冲区在实现模型能力稳定提升上的有效性。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-09-03
三重Reward驱动的运维智能体进化:多智能体、上下文工程与强化学习的融合实践
2025-09-03
AI流量入口被抢疯了!友商靠GEO让品牌进入AI推荐TOP3了,你的认知却还停留在把它当AISEO?
2025-09-03
揭秘「零故障」运维:Prophet 时序预测与 AI 模型如何联手驯服服务器风险?
2025-09-03
RAGFlow:让大模型真正读懂公司所有文档的开源 RAG 引擎
2025-09-03
生成式AI超越确定性:企业结构化数据在不确定性管理中的新范式
2025-09-02
初步调研|基于AI的自动化脚本自愈方案
2025-09-02
腾讯 ima 上新:1.11.0 AI播客音色优化和知识库导入网页链接
2025-09-02
阿里云 CIO 蒋林泉:AI 大模型时代,我们如何用 RIDE 实现 RaaS 的首次落地?
2025-08-21
2025-06-21
2025-08-21
2025-08-19
2025-06-07
2025-06-12
2025-06-19
2025-06-13
2025-07-29
2025-06-15
2025-09-03
2025-09-03
2025-09-02
2025-08-28
2025-08-28
2025-08-28
2025-08-28
2025-08-27