微信扫码
添加专属顾问
我要投稿
阿里开源WebSailor突破开源Agent瓶颈,赋予模型处理高不确定性任务的强大能力! 核心内容: 1. WebSailor解决开源Agent在复杂信息任务中的表现不足问题 2. 创新性提出大规模训练数据合成和冷启动强化学习方法 3. 实验结果验证其在BrowseComp基准测试中的卓越性能
随着大语言模型(LLMs)训练的不断深入,如何跨越人类认知局限性已成为一个重要前沿。现有研究表明,专有 agentic 系统,如 DeepResearch,已在 BrowseComp(专门用于评测浏览器Agent的测试基准)等极其复杂的信息搜索基准测试中展现出超人能力,这在以往是无法实现的。研究人员普遍认为,其成功源于多数开源模型所不具备的复杂推理模式:即在广阔信息环境中系统性地降低极端不确定性的能力。为此,阿里巴巴通义实验室提出了 WebSailor,一个完整的后训练方法,旨在赋予开源 agent 这种关键能力。
原始论文: https://arxiv.org/abs/2507.02592
GitHub仓库: https://github.com/Alibaba-NLP/WebAgent/
PS:WebAgent项目下还有WebWalker和WebDancer,后续补充解读,感兴趣的小伙伴可以留意公众号"小窗幽记机器学习":
赶时间的小伙伴可以通过以下QA问答的方式快速了解WebSailor的重点。
Q1: 这篇文章想要解决什么问题?
文章旨在解决当前开源 LLMs 和 web agent 在复杂信息寻求任务(如 BrowseComp-en/zh)上表现不足的问题,它们在此类基准测试中通常准确率接近于零。真的是难于上青天!
那为啥普遍表现如此差强人意? 一句话,没学过,太难了!现有的训练范式主要关注 Level 1(低不确定性)和 Level 2(有明确解决路径)的任务,未能让模型接触到 Level 3 的挑战。Level 3 任务要求在复杂的、没有预定义解决方案路径的信息环境中进行鲁棒的组合泛化。因此,模型未能发展出处理这些复杂任务所需的多步骤推理能力。
因此,研究的核心问题是如何向开源 agent 灌输这种高级的、降低不确定性的推理能力。
Q2: 这篇文章如何解决这些问题?
文章提出 WebSailor,一个全面的后训练方法,旨在向Agent灌输这种在海量信息中系统性降低极端不确定性的关键能力。
WebSailor 的核心方法包括:
Agent 采用 ReAct 框架,在每次迭代中生成 Thought、执行 Action(工具调用)并接收 Observation。它使用 search
工具(访问 Google 搜索引擎)和 visit
工具(访问特定网页并提取相关信息)进行信息检索。
Q3: 文章所提出方法的效果如何?
Q4: 文章所提方法还有哪些不足?
更多大模型相关欢迎关注公众号"小窗幽记机器学习"。
WebSailor 涵盖了从数据构建到训练优化的完整流程,为 LLM agent 注入了强推理能力。
WebSailor 采用 ReAct 框架,该框架允许 agent 在接收问题后进行多次 Thought-Action-Observation 迭代。在每次迭代中,LLM 根据现有 context 生成一个 Thought,然后执行一个可解析的 Action(工具调用),环境随后返回一个 Observation。
Action 空间包括生成最终答案和调用两种工具:
Search 工具: 用于访问 Google 搜索引擎进行信息检索。它允许同时搜索多个查询,并为每个查询返回前 10 个结果,包括标题、摘要和对应的 URL。
Visit 工具: 用于访问特定网页。输入包括多个网页及其对应的访问目标。首先,利用 Jina 获取网页的完整内容,然后使用 Qwen-2.5-72B 作为摘要模型,根据目标提取相关信息。
一次完整的 agent 轨迹定义为:
其中 分别表示第 i 轮的 thought、action 和 observation。对于step t,是策略模型基于过往上下文的采样结果:
论文根据信息寻求任务的内在不确定性及降低不确定性的复杂性,将其分为三个等级:
Figure 2:信息检索任务可以分为三个层级。第1级具有相对简单的逻辑结构,可以直接回答,或通过一次简单的工具调用得到答案。第2级类似于多跳问题,需要通过一系列固定的推理步骤来获得解决方案。第3级在经过混淆处理后,表现出最复杂且多变的结构,这使得其难以通过人工方式进行定义,并且其固有的不确定性也难以降低。
SailorFog-QA 是一个用于训练模型处理高不确定性和难以降低不确定性的复杂信息查找任务(即 Level 3 任务)的数据集。其合成过程主要包括两个方面:构建复杂的信息图谱作为结构基础,以及通过子图采样和信息模糊化生成高不确定性问题。
具体合成步骤如下:
构建难以降低不确定性的结构基础:
通过子图采样和模糊化生成高不确定性问题:
这些生成的 Level 3 任务非常具有挑战性,即使是强大的专有模型(如 o3)也可能需要多达40次工具调用才能解决,并且人工研究人员在常规时间限制内也难以解决,因为它们缺乏明确的搜索起点,需要进行广泛的非线性探索。
虽然开源的大型推理模型(LRMs)如 QwQ-32B 可以解决一些复杂问答,但直接使用其原始输出进行微调效果不佳。存在两大问题:
如何解决?首先,通过提示的方法让开源 LRM 生成完整的解决方案轨迹,包括其原始 thought。然后,选择性地丢弃其的冗长 thought,仅保留成功的 Action-Observation 序列。接着,对动作序列中的每一步,利用另一个强大的指令遵循模型 (原文未明确说明具体是哪个模型),根据历史 context、专家选择的 action 和随后的 observation,重建简洁、面向行动的 thought)。这种方法通过强制使用“short-CoT”风格,确保最终的推理链足够紧凑,适用于长时任务,从而可扩展地生成高质量监督数据,灌输复杂推理模式而无直接模仿的副作用。
WebSailor 使用两阶段训练。首先采用了一个适度的Rejection Sampling Fine-Tuning (RFT)阶段作为“冷启动”。这一初始阶段旨在使模型具备基本的工具使用能力,并遵循长程推理的基本框架。随后,利用强化学习(RL)进一步提升其推理能力,提高其样本效率,并使其能够更充分地利用高质量、复杂的训练数据。
训练细节: SFT 阶段使用 Megatron ,RL 训练使用 verl 。具体超参数设置在附录中详细给出。
在 RFT 冷启动之后,DUPO 用于进一步提升 agent 的推理能力和样本效率。RL agent 的 rollout 涉及与环境的多轮交互,导致其速度远慢于标准 RL。DUPO 引入了两种动态采样策略来解决这一问题:
损失计算:在计算策略损失时,与监督微调(SFT)类似同样会 mask 掉 observation。
优势估计:DUPO遵循GPRO(Group-Relative Policy Optimization)方法来估计组内相对优势
策略梯度损失:采用了DAPO中的token级别的策略梯度损失和更高的clip技术
DUPO的训练目标:DUPO的训练目标是帮助模型发现并内化超越直接模仿的复杂问题解决策略
DUPO的奖励机制:为了避免奖励作弊(reward hacking),WebSailor采用了基于规则的奖励机制。这个奖励机制结合了两个部分:
<think>
和<tool_call>
等标签包裹,以及序列是否符合ReAct框架。这2阶段的收益可以通过Figure 5:
从Figure 5可以看出,RL阶段(绿色部分注明了提升幅度)对模型的性能,尤其是在BrowseComp这种高难度任务上,带来了巨大的提升。
文章在多个挑战性基准测试上对 WebSailor 进行了全面评估,并与多种基线方法进行比较。
1、模型与基准测试:WebSailor 在 Qwen-2.5-3B, Qwen-2.5-7B, Qwen-2.5-32B 和 Qwen-2.5-72B 模型上进行了 RFT 和 RL 训练。 主要评估基准包括:
2、基线方法:
3、评估指标: 默认使用 pass@k 评估,并报告 pass@1。准确率通过 LLM 作为判断器来确定。
1、SailorFog-QA 的复杂性 (Figure 3): 对工具调用次数的定量分析显示,WebSailor 的专家生成训练数据呈现出长尾分布,大量样本需要超过 5 次甚至 20 次以上的工具调用。这种分布与 BrowseComp-en 基准本身的复杂性特征紧密匹配,而 WebDancer 数据集则严重偏向简单性(超过 50% 的轨迹只要求两次工具调用,几乎没有超过十次的)。
2、SailorFog-QA 的通过率 (Table 2): 在过滤之前,SailorFog-QA 的数据难度显著高于 WebDancer 训练集。尽管难度低于 BrowseComp-en,但 SailorFog-QA 的低准确率部分归因于其固有的难度,也因为信息歧义可能导致没有唯一的确定答案。
3、与简单任务的兼容性 (Figure 4): 尽管 WebSailor 专门在高难度数据上训练,但它在 SimpleQA (Level 1 任务) 基准测试中的表现超越了所有其他方法,这表明其具有良好的向下兼容性和在更简单任务上的有效性。
4、Pass@1 与 Pass@3 的比较 (Figure 5): RL 训练对所有基准都带来了显著提升,尤其是在高难度 BrowseComp-en/zh 任务上增益最大。RL 训练通过强化成功策略和裁剪无效策略,直接解决了这些复杂任务中 agent 轨迹长且复杂导致的不稳定问题,从而显著增强了模型的稳定性。Pass@1 的提升比例远大于 Pass@3,表明 RL 显著提高了样本效率。
5、冷启动的影响 (Figure 6): RFT 冷启动策略被证明是至关重要的。尽管直接 RL 训练在 Pass@1 准确率上显示出较大的增长,但经过 RFT 冷启动的模型最终收敛性能显著更优。这种性能差距在 BrowseComp-en 上更为明显,表明如果没有 RFT 冷启动,模型极难通过自我探索获得复杂推理模式。
WebSailor 从信息寻求中不确定性降低的角度,深入分析了以往开源 web agent 未能达到专有系统水平的原因。该论文的贡献涵盖了全面的训练数据合成、RFT 冷启动以及 RL 算法效率提升,形成了一个完整的 agentic 后训练流程。WebSailor 在简单和复杂信息寻求基准测试上均表现出强大的性能,其推理和工具使用能力超越了人类水平。
未来,agentic 后训练的关键在于进一步定义更复杂、不确定性更高的任务,以及实现更有效和高效的 RL 训练。如何自动化构建更难、更复杂的数据,将是后续巨头逐鹿AGI的一个关键点。
为了克服当前同步 RL 框架的效率瓶颈,未来的工作可以考虑向异步训练框架迁移。此外,可以探索如何进一步增强开源 agent 在信息寻求领域之外的通用“超人”能力。针对模型在长 inference 长度下性能下降以及“过度思考”的倾向,也是未来值得关注的改进方向。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-07-21
AI操作网页:browser-use和AI大模型互动解析
2025-07-20
从PromptPico到ContextPico:我的心路
2025-07-19
AI 产品的大众点评,「观猹」今日上线
2025-07-18
MinerU | 高精度文档解析工具:从PDF到结构化数据的智能桥梁
2025-07-18
看了这个开源的可以操作手机电脑的Agent框架,感觉AI黑灯办公室也马上出现了。
2025-07-18
00 后天才团队,发布全球首个 A 股金融博弈智能体应用
2025-07-17
基于Dify动态解析异构银行流水:架构拆解→风控报告生成
2025-07-17
亚马逊最新编程智能体Kiro系统提示词揭秘
2025-06-17
2025-06-17
2025-04-29
2025-07-14
2025-04-29
2025-04-29
2025-07-12
2025-05-29
2025-05-12
2025-05-14
2025-07-16
2025-07-15
2025-07-13
2025-07-08
2025-07-04
2025-07-03
2025-06-28
2025-06-25