微信扫码
添加专属顾问
我要投稿
阿里开源WebDancer智能体:重新定义信息检索的未来,通过数据中心化训练方案解决复杂现实问题。核心内容: 1. WebDancer的四大关键构建阶段:数据构建、轨迹采样、监督微调和强化学习 2. 在GAIA和WebWalkerQA等基准测试中的优异表现 3. 与WebSailor等同类智能体的对比分析
梅子金黄杏子肥,麦花雪白菜花稀。小伙伴们好,今天继续Agent智能体专题。前文已经介绍阿里通义实验室WebAgent项目下的一项成果:WebSailor。今天继续追踪其之前的工作成果:WebDancer。在WebDancer中提出了一种构建端到端Agentic信息检索agent范式,该范式以数据中心并结合特定的训练方案,旨在解决现实世界中复杂问题所需的深入信息检索和多步推理能力。后文会继续补充通义实验室WebAgent项目下更早期的WebWalker,并对比WebWalker、WebDancer和WebSailor。感兴趣的小伙伴可以留意公众号"小窗幽记机器学习"。
论文: https://arxiv.org/abs/2505.22648
GitHub仓库: https://github.com/Alibaba-NLP/WebAgent/
更多AI相关欢迎关注公众号"小窗幽记机器学习":
解决复杂的现实世界问题需要深入的信息检索和多步推理。尽管Agentic系统(例如Deep Research)在自主多步研究方面展现了潜力,但仍存在挑战。WebDancer提出了一种连贯的范式来构建端到端Agentic信息检索agent,该范式从数据和训练方法出发。具体来说,该方法包含四个关键阶段:
WebDancer作为一个基于ReAct框架的web agent(WebSailo也是基于ReAct框架),在GAIA和WebWalkerQA等挑战性信息检索基准测试中表现出色,从而验证了其训练范式的有效性。
赶时间的小伙伴可以通过以下QA方式快速了解WebDancer的核心:
Q1: 这篇文章想要解决什么问题?
A1: 这篇文章旨在解决构建自主信息检索agent所面临的一系列挑战。具体包括:
(1) 现有训练数据质量和复杂度不足。如何获取高质量、细粒度的浏览数据?这些数据需要反映多样化的用户意图和丰富的交互上下文;
(2) 难以构建支持长期推理和任务分解的可靠轨迹数据。为此需要构建支持长周期推理和任务分解的可靠轨迹;
(3) 现有训练范式在泛化能力和效率方面的局限性。为此需要设计可扩展和泛化能力强的训练策略,以使web agent在分布外(out-of-distribution)的web环境、复杂的交互模式和长期目标下表现稳健。传统的信息检索方法,无论是直接使用prompting engineering技术还是通过SFT或RL整合搜索/浏览器能力,都未能有效捕捉真实世界的复杂挑战,且训练和评估数据集相对简单。
Q2: 这篇文章如何解决这些问题?
A2: 通过WebDancer提出以数据为中心并与特定训练方法相结合的协同范式来解决构建端到端智能信息检索时面临的问题。
1、浏览数据构建针对现有Web QA数据集深度不足和规模较小的问题,WebDancer通过两种方式自动合成高质量数据集:
2、轨迹采样(Trajectories Sampling)为构建支持长期推理和任务分解的可靠轨迹数据。
3、训练角度: 针对现有SFT和off-policy RL泛化问题及on-policy RL早期训练仅关注工具使用的问题,WebDancer采用两阶段训练方法:
第一阶段:拒绝采样微调(Rejection Sampling Fine-Tuning, RFT)进行冷启动,以适应agentic任务和环境的格式指令遵循。
第二阶段:on-policy强化学习,采用Decoupled Clip and Dynamic Sampling Policy Optimization (DAPO) 算法,该算法的动态采样机制能有效利用SFT阶段未充分利用的QA对,提高数据效率和策略鲁棒性。
Q3: WebDancer效果如何?
A3: 实验评估显示,WebDancer在GAIA和WebWalkerQA等挑战性信息检索基准测试中表现出强大的性能。
Q4: WebDancer还有哪些不足?
A4: 尽管WebDancer框架取得了可喜的成果,但仍存在以下局限性:
WebDancer的构建遵循一个系统的4阶段pipeline。
第一步:构建多样且具挑战性的深度信息检索QA对。对这些问答对的主要有如下要求:(1)问题类型的多样性,以及(2)任务复杂度的提升,这可以通过解决问题所需的交互步骤数量来衡量。与以往主要包含2-3步即可解决的浅层查询的数据集不同,WebDancer的目标是同时提升多跳推理的规模和深度。为此,开发了以下两个数据集:
CRAWLQA:从ArXiv、GitHub、Wiki等官方和知识型网站收集根URL。通过递归地跟随每个根站点上的可访问超链接来模仿人类浏览行为,并利用GPT-4o从收集到的内容中合成QA对。为确保问题质量和相关性,LLM被提示生成特定类型的问题,如COUNT(计数)、MULTI-HOP(多跳)和INTERSECTION(交集)问题。
E2HQA:类似于反向构建策略,从SimpleQA风格的大型QA对开始,其中每个答案都是一个简洁的事实性实体。通过迭代地使用LLMs和搜索引擎将简单问题重构为需要多步推理的复杂问题,同时确保答案在问题重构过程中不变,以保持QA对的有效性。具体是首先从问题 中选择一个实体 ,其中 表示细化迭代的次数。然后,利用大模型基于该实体构建查询,通过搜索引擎 检索与 相关的信息 。之后,用大模型 将获得的内容重构为新查询 ,以替换原问题中的实体。该过程可表示为:。这样,新的问题 需要先解决构建的子问题,才能找到原问题的答案。通过不断搜索,可以将最初的简单问题逐步转化为更复杂的多步问题。这种方法允许通过调整重构次数来控制解决问题所需的步骤数。
Figure 1:两种网页数据生成流程。对于CRAWLQA,首先收集权威网站的根URL,然后通过系统性点击和收集根页面下的子链接,模拟人类行为,收集子页面。根据预设规则,利用 GPT-4o 基于收集到的信息生成合成问答对。对于E2HQA,初始问题 Q1 会在每次迭代 i 时,利用从实体 Ei 检索到的新信息 Ci 进行演化,使任务复杂度逐步提升,从简单实例扩展到更具挑战性的实例。使用 GPT-4o 重写问题,直到迭代达到 n 次。
第二步:从QA对中采样高质量轨迹。具体来说,WebDancer 的轨迹采样过程主要包括以下几个方面:
1、智能体设置
WebDancer基于ReAct,ReAct轨迹由多轮“思考-动作-观察”(Thought-Action-Observation)组成,其中大模型会生成自由形式的“思考”(Thought)以实现多种目的,并生成结构化的“动作”(Action)与环境(工具)交互,进而获得“观察”(Observation)反馈。假设智能体在时间的执行循环可表示为,其中表示思考,表示动作,表示观察。可以进一步表示为,其中是动作名称,是执行该动作所需的参数。,对应于深度信息检索中最重要的两类智能体工具。对于search动作,包括query和filter_year;对于visit动作,包括goal和url_link。search动作的观察结果包括前10条标题和摘要,而visit动作的观察结果是由摘要模型生成的证据和摘要。当动作为answer时,迭代终止。
历史轨迹可表示为:
在时间步,智能体从网页环境接收观察,并生成思考,采取动作,遵循策略。
2、思维链(CoT)方法
思维链(Chain-of-Thought, CoT)方法通过逐步推理过程显著提升了大模型的推理能力,这对应于智能体系统中的思考部分。该过程对于智能体执行至关重要,使其能够进行高级工作流规划、自我反思、信息提取、自适应动作规划和精准的动作(工具使用)。
3、短CoT与长CoT的构建
智能体模型将CoT生成能力内化为模型的主动行为组件。CoT的长度及其思维模式对性能起着关键作用。分别提出了两种简单而有效的方法来构建短CoT和长CoT。
对于短CoT,直接利用ReAct框架,使用强大的模型GPT-4o收集轨迹。对于长CoT,为大推理模型(LRM)QwQ-Plus在每一步顺序提供历史动作(actions)和观察(observations),使其能够自主决定下一步动作。值得注意的是,在进一步推理时,不提供之前的思考内容,因为LRM QwQ-Plus在训练时未接触过多步推理输入。然而,在生成的轨迹中,保留每一步的思考内容,因为它们是有价值的监督信号。LRM的中间推理过程,记为<reasoning_content>
,被记录为当前步骤的思考。每个构建的QA实例会进行最多N次拒绝采样,以确保质量和连贯性。
4、轨迹过滤
采用三阶段漏斗式轨迹过滤框架,包括有效性控制、正确性验证和质量评估。
在SFT数据集中未出现的QA对,可以在强化学习阶段有效利用。
在获取ReAct格式的高质量轨迹后,可将其无缝整合到SFT(监督微调)训练阶段。此外,在早期阶段被过滤掉的、不含轨迹的问答(QA)数据,可以在强化学习(RL)阶段得到有效利用。首先通过SFT冷启动训练一个策略模型 ,然后通过RL进行泛化。整体训练框架如图2所示。
Figure 2:训练框架概览。(I) 用于冷启动的SFT阶段利用了重构格式的ReAct数据集,其中的思考部分分别包含了短链和长链的思维链(CoT)。(II) RL阶段在SFT阶段未使用的QA对上,通过工具调用执行推演(rollouts),并使用DAPO算法优化策略。
为捕获完整的智能体轨迹,通过在获取的决策轨迹上进行监督微调来训练策略模型 。冷启动增强了模型耦合多个推理和动作步骤的能力,向其传授一种推理与动作交替的行为范式,同时尽可能保留其原有的推理能力。
<think>
和</think>
包围,Action部分被<tool_call>
和</tool_call>
包围,Observation部分被<tool_response>
和</tool_response>
包围,最终的Answer被<answer>
和</answer>
包围。SFT阶段的基础上,RL采用解耦裁剪与动态采样策略优化(Decoupled Clip and Dynamic Sampling Policy Optimization,DAPO)算法,来改进和激励策略模型 交错执行“思考-动作-观察”序列的能力。
RL阶段旨在将agency能力内化到推理模型中,通过基于结果的奖励来增强其多轮、多工具使用能力。
采用解耦裁剪与动态采样策略优化(DAPO)算法,以优化策略 ,使其在奖励模型 下能产生更高奖励的输出。DAPO算法通过最大化特定目标函数来优化策略 。对于数据分布 中的每个问答对 ,DAPO会采样一组候选的智能体执行 ,然后更新策略以最大化目标函数。 动态采样机制对准确率等于1和0的提示进行过采样和过滤,确保agent从高质量信号中学习,并有效忽略无效或嘈杂的合成样本。
Agentic Action Rollout:在ReAct框架内,每个agentic执行回合从生成Thought(由<think>
和 </think>
包围)开始,接着是Action名称和参数(由<tool_call>
和 </tool_call>
包围)。这些组件被迭代地用于与真实世界的搜索环境交互,产生一个作为反馈的观察结果Observation(由<tool_response>
和 </tool_response>
包围)。整个交互回合从<think>
到</tool_response>
。Rollout在生成最终答案<answer>
和</answer>
后结束。
奖励设计:奖励系统主要由格式分数(score_format
)和答案分数(score_answer
)组成。由于格式一致性在RFT阶段已大部分解决,score_format
(二进制,仅当整个输出严格符合所需格式且所有json格式的工具调用有效时为1)权重较小。score_answer
(二进制,当LLM-as-Judge Mj判断回答正确时为1)权重较大。考虑到QA答案本质上是不可验证的,尽管响应简短,但无法用基于规则的F1/EM指标可靠评估,并且最终评估依赖于“LLM-as-Judge”(以大语言模型为裁判),因此选择采用基于模型的提示词评估作为答案的奖励信号。score_answer
也是二元的,仅当响应被LLM判断为正确时,其值才赋为1。最终奖励函数为
WebDancer在两个既定的深度信息检索基准测试GAIA和WebWalkerQA上进行了评估。评估采用LLM-as-Judges范式,使用Pass@1指标。
主要结果:
在更具挑战性基准上的结果:
详细分析:
阿里通义提出了一个系统的、端到端的多步信息检索web agent构建框架WebDancer。 通过引入可扩展的QA数据合成方法(CRAWLQA和E2HQA)以及结合监督微调(SFT)和on-policy强化学习(RL,特别是DAPO算法)的两阶段训练pipeline。WebDancer在GAIA和WebWalkerQA等基准测试上取得了出色的性能,验证了其训练策略的有效性。这些发现为agent训练的关键方面提供了宝贵的见解,并为开发更复杂的agentic模型以应对复杂现实世界信息检索任务提供了可操作且系统化的途径。
但是仍有不足,未来可改进的方向或要点包括:
WebSailor相对于WebDancer,可以看作是一种继承与显著提升的关系。两者都致力于构建自主信息寻求的网页代理,并且都基于ReAct框架。
WebSailor在WebDancer的基础上,主要在以下几个方面进行了增强和发展:
1、任务复杂度和不确定性处理:
2、训练数据合成与轨迹生成:
3、强化学习训练算法:
4、性能表现:
因此,WebSailor是WebDancer的一个演进版本,在处理更复杂的网页信息寻求任务方面表现出更卓越的能力,这主要归功于其创新的数据合成方法、推理轨迹重构技术以及更高效的强化学习算法。WebDancer在WebSailor的实验中被用作重要的开源代理基线进行比较,进一步突显了WebSailor的进步。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-07-27
通义灵码支持 Qwen3-Coder,带你玩转 Agentic Coding,免费不限量
2025-07-27
Dify瑟瑟发抖?用开源版的Coze打造地表最强智能体平台!
2025-07-27
Coze终于开源了,这意味着它在智能体领域的唯一短板已经补齐
2025-07-27
免费玩转顶尖代码生成!魔搭社区 + Qwen3-Coder+Claude Code 全攻略
2025-07-27
字节重磅开源!Coze Studio + Coze Loop 助力AI Agent开发与运维一体化
2025-07-27
【全网最全】Coze Studio 扣子开发平台 Windows /Mac / Linux 本地部署教程,小白也能轻松搞定!
2025-07-27
Coze,我们需要好好重新认识它
2025-07-27
终于!扣子(Coze)把他最核心的Agent 技术开源了(附完整部署指南)
2025-07-23
2025-06-17
2025-06-17
2025-07-23
2025-04-29
2025-07-14
2025-04-29
2025-07-12
2025-04-29
2025-05-29
2025-07-27
2025-07-27
2025-07-26
2025-07-26
2025-07-26
2025-07-16
2025-07-15
2025-07-13