我要投稿

WebDancer：构建端到端Agentic信息搜索智能体

发布日期：2025-05-29 20:05:23 浏览次数： 2250

作者：唐国梁Tommy

微信搜一搜，关注“唐国梁Tommy”

一、为什么我们需要会上网的 AI ？

想象一下，我们在网上找资料，有时候问题很简单，一搜就能找到答案。但更多时候，问题是复杂的、多步骤的，比如需要我们先搜索一个概念，然后在搜索结果的某个网页里点击链接进去，再找到相关信息，甚至需要在多个页面之间跳转、比对，最后才能拼凑出最终的答案。这是一个需要深度信息搜索和多步骤推理的过程。

传统的AI模型可能擅长回答基于已有知识库的问题，或者进行简单的搜索。但面对这种需要主动“探索”和“互动”的真实网络环境，它们往往显得力不从心。最近的一些研究，比如 OpenAI 的 Deep Research 和 x.ai 的 Grok DeepSearch，已经展示了通过端到端强化学习训练，构建具备强大信息搜索能力的智能体的潜力。然而，如何从零开始构建这样一个能够像人一样感知网络环境、做出决策并采取行动以完成复杂任务的网络智能体（Web Agent），仍然充满挑战。

挑战主要体现在几个方面：

如何获取高质量、细粒度的浏览数据，这些数据要能反映多样的用户意图和丰富的互动上下文。
如何构建可靠的、支持长程推理和任务分解的智能体轨迹。
如何设计可扩展且具有泛化能力的训练策略，使智能体在陌生的网络环境、复杂的互动模式和长期的目标下也能表现稳健。

正是在这样的背景下，这篇论文提出了 WebDancer 框架，旨在提供一个构建端到端自主信息搜索智能体的系统性指南。

二、核心内容：WebDancer 的四大支柱

WebDancer 的核心思想是构建一个能够自主在网上进行多步骤信息搜索的智能体。它抽象出了构建这样一个智能体的端到端流程，并从数据和训练阶段两个维度提出了解决方案。

论文最主要的贡献可以总结为以下四个关键阶段：

1. 浏览数据构建 (Browsing data construction)：解决高质量、多样的训练数据问题。

2. 轨迹采样 (Trajectories sampling)：从构建的数据中生成智能体执行任务的高质量“思考-行动-观察”序列。

3. 监督微调 (Supervised fine-tuning, SFT)：利用采样到的轨迹数据对基础模型进行微调，实现有效的“冷启动”，让模型初步学会模仿智能体的行为模式。

4. 强化学习 (Reinforcement learning, RL)：在 SFT 的基础上，通过强化学习进一步优化智能体的决策能力和泛化能力，使其在真实网络环境中表现更出色。

这个流程提供了一个系统化、端到端的构建长程信息搜索网络智能体的管线。 WebDancer 框架基于 ReAct 范式，这是一种将推理 (Reasoning) 与行动 (Acting) 紧密耦合的方法，非常适合在交互式环境中进行有效学习和泛化。

三、方法解析：数据、轨迹与两阶段训练

下面我们来详细解析一下 WebDancer 的具体方法。

3.1 深度信息搜索数据集合成

构建复杂且多样化的 QA 对是构建网络智能体的关键，无论采用 SFT 还是 RL。现有的大多数 QA 数据集往往比较“浅”，通常只需要一两步搜索就能解决。为了生成能够激发多步骤推理、目标分解和丰富的互动序列的复杂 QA 对，WebDancer 采用了两种自动合成高质量数据集的方法:

CRAWLQA：这种方法模拟人类浏览行为，通过系统地抓取和点击网页上的子链接来收集信息。从权威和知识类网站的根 URL 开始，然后使用像 GPT-4o 这样的强大 LLM，根据收集到的网页内容生成 QA 对。为了确保问题的多样性和相关性，他们通过指令学习来生成特定类型的问题（如 COUNT, MULTI-HOP, INTERSECTION）。
E2HQA (Easy-to-Hard QA)：这种方法有点像“逆向构建”。它从简单的 QA 对（如 SimpleQA 风格，答案是简洁的事实实体）开始。然后，它迭代地使问题复杂化。具体来说，它选取当前问题 Qn 中的一个实体 En，用 LLM 构建一个查询去搜索与 En 相关的信息 Cn。接着，再用 LLM 将 Cn 重构成一个新的查询 Rn 来替换原问题中的实体，形成新的问题 Qn+1。这样，新的问题就需要解决之前构建的子问题才能找到答案，同时确保答案不变。通过控制重写次数，可以控制问题的复杂度以及解决问题所需的步骤数。图1展示了这两种数据生成管线。

3.2 智能体轨迹拒绝采样

ReAct 框架是 WebDancer 的基础。一个 ReAct 轨迹包含多个思考-行动-观察 (Thought-Action-Observation) 循环。智能体生成 Thought（自由形式的思考），Action（结构化的行动，用于与环境工具互动），并接收 Observation（来自环境的反馈）。这个过程迭代进行，直到任务完成，最终行动是 answer。可能的行动包括 search, visit, 和 answer。

高质量的轨迹数据对于 SFT 至关重要。 WebDancer 通过对 QA 数据应用轨迹拒绝采样 (Trajectory Rejection Sampling) 来生成轨迹，并进一步进行过滤以提高数据质量。

思考链 (Chain-of-Thought, CoT) 对于智能体的执行至关重要，它使得高层工作流规划、自我反思、信息提取和行动规划成为可能。论文探索了构建短 CoT 和长 CoT 的方法。对于短 CoT，直接使用强大的模型（如 GPT-4o）在 ReAct 框架下生成轨迹。对于长 CoT，则顺序地向推理模型 (LRM) 提供历史行动和观察，让其自主决定下一步行动，并记录其中间推理过程作为当前的 Thought。生成的轨迹会进行拒绝采样，以确保质量和连贯性。

采样后的轨迹会通过一个三阶段漏斗式过滤框架进行筛选：

有效性控制 (Validity control)：丢弃不符合 ReAct 格式或指令的轨迹。
正确性验证 (Correctness verification)：只保留结果正确的轨迹，使用 GPT-4o 进行判断。
质量评估 (Quality assessment)：应用规则过滤掉行动过多或存在幻觉、严重重复的轨迹，并基于指令筛选出符合信息无冗余、目标一致性、逻辑推理和准确性标准的轨迹。

那些未能通过过滤的 QA 对（即不包含有效轨迹）可以在强化学习阶段得到有效利用。

3.3 多阶段多工具智能体学习

获取高质量的 ReAct 格式轨迹后，WebDancer 将训练分为两个阶段:

第一阶段：智能体监督微调 (Agent Supervised Fine Tuning, SFT)

SFT 阶段利用获得的决策轨迹来训练策略模型，目的是实现“冷启动”。
这有助于模型学习耦合多步推理和行动，内化交替进行推理和行动的行为范式。
为了避免外部反馈（Observation）的干扰，损失函数会屏蔽掉 Observation 的贡献，只计算智能体自主决策步骤（Thought 和 Action）的损失。这已被证明能提高性能和鲁棒性。
SFT 阶段为后续的 RL 阶段提供了强大的初始化。

第二阶段：智能体强化学习 (Agent Reinforcement Learning, RL)

RL 阶段的目标是将智能体能力内化到推理模型中，通过基于结果的奖励信号增强其多轮、多工具使用能力。
WebDancer 在 SFT 的基础上，采用 Decoupled Clip and Dynamic Sampling Policy Optimization (DAPO) 算法来优化策略模型在 Thought-Action-Observation 序列上的表现。
DAPO 是一种 RL 算法，它优化策略以产生更高奖励的输出。其关键在于动态采样机制 (Dynamic Sampling Mechanism)，它可以有效地利用在 SFT 阶段未充分利用的 QA 对。
动态采样机制会过采样（oversample）并过滤掉准确率等于1或0的提示词。这对于处理合成数据中可能存在的无效或噪声实例至关重要，确保智能体从高质量信号中学习。
DAPO 通过最大化一个目标函数来进行策略更新，该目标函数考虑了候选轨迹的奖励和优势项。优势项基于批次内的原始奖励值进行归一化计算。
在 RL 阶段，智能体执行一个行动 Rollout：在 ReAct 框架内，每一轮执行都从生成 Thought 开始，然后生成 Action（包括行动名称和参数），与网络环境互动，接收 Observation 作为反馈。Rollout 最终以生成 answer 结束。
奖励设计 (Reward Design) 在 RL 训练中起着关键作用。WebDancer 的奖励系统主要包括格式得分 (score format) 和答案得分 (score answer)。由于格式问题在 SFT 阶段已大部分解决，格式得分权重较小 (0.1)，且是二元的（完全符合格式和工具调用有效则为1）。答案得分权重较大 (0.9)，是二元的，只有当响应被判定为正确时才为1，判断由 LLM-as-Judge 完成（使用 Mj 模型，基于 Qwen-72B-Instruct 构建）。最终奖励是两者的加权和。

四、实验结果与分析：WebDancer 的表现如何？

论文在两个具有挑战性的网络信息搜索基准测试 GAIA 和 WebWalkerQA 上评估了 WebDancer 的性能。评价指标采用 Pass@1，这是一种常用的衡量智能体完成任务准确性的指标。

主要结果 (Table 1)：

不具备智能体能力的框架 (No Agency)，如直接使用基础模型或 RAG，在这两个基准上表现不佳，这再次强调了主动信息搜索和智能体决策的重要性。
闭源的智能体系统 OpenAI DR 通过端到端 RL 训练，取得了最高分。
在开源框架中，基于强大推理模型（如 QwQ-32B）构建的智能体方法，普遍优于其非智能体对应版本。
WebDancer 在 ReAct 框架下，相较于基础模型的 Vanilla ReAct 基线，展现了显著的性能提升。例如，使用 Qwen-2.5-32B 作为骨干模型时，WebDancer 的 GAIA 平均得分从 Vanilla ReAct 的 31.0 提升到 40.7。
在某些情况下，WebDancer 甚至超越了 GPT-4o 的表现。这表明即使在轻量级框架下，WebDancer 的方法也能显著增强底层基础模型的智能体能力。

在更具挑战性基准上的结果 (Table 2)：

WebDancer 也在 BrowseComp (En.) 和 BrowseComp-zh (Zh.) 这两个设计用于反映复杂信息搜索场景的基准上进行了评估。
结果显示，WebDancer 在这两个数据集上表现持续强劲，凸显了其在处理困难推理和信息搜索任务中的鲁棒性和有效性。例如，在 BrowseComp (En.) 上，WebDancer (基于 QwQ-32B) 的 Pass@1/Pass@3 分别为 2.8/5.0，显著高于 GPT-4o 的 1.9/-。

深入分析 (Section 5)：

数据效率：高质量的轨迹数据对于 SFT 至关重要。论文通过消融研究展示了构建的 CRAWLQA 和 E2HQA 数据集的有效性，以及轨迹过滤的重要性。在数据量较低的情况下，经过严格过滤的“Final”数据集表现最优。

SFT 与 RL 的作用：SFT 对于“冷启动”至关重要，它赋予了智能体强大的多步、多工具指令遵循能力。实验表明，仅使用 RL 的性能受到显著限制。
RL 的影响：对于非推理模型，RL 带来了 Pass@3 和 Cons@3 的显著提升。RL 能够更有效地采样到正确响应。对于 LRMs（如 QwQ-32B），RL 在 Pass@1、Pass@3 或 Cons@3 上没有显著增益，但提高了回答的一致性（三次尝试都回答正确的比例增加）。

CoT 知识迁移：推理模型的思考模式知识很难直接迁移到小型指令模型。尽管长 CoT 对非推理模型也有益处，但可能引入无效率高等问题。推理模型在经过基于推理模型合成的长 CoT 轨迹训练后，推理性能显著增强。这与以往研究一致，表明跨模型推理知识迁移存在挑战。

智能体的涌现能力：RL 促使模型进行更长的推理过程，并支持更复杂的智能体行动。与 SFT 相比，RL 框架通过优化决策序列，而非单步输出，促进了更复杂推理策略的涌现。这使得模型能够从延迟奖励中学习，更深入地探索行动空间，从而产生更连贯、更长的推理轨迹。RL 鼓励智能体自主决定中间步骤、子目标或工具来实现最终目标。

环境动态性：网络环境是动态且不断变化的。调整解码温度对最终性能影响不大，这表明智能体的不稳定性并非主要由解码变异性引起。性能波动很大程度上归因于网络环境本身的变化，这凸显了真实世界智能体部署的非静态和开放性质。

通过详细的实验和分析，论文不仅验证了 WebDancer 管线的有效性，也为未来的智能体训练提供了宝贵的洞察和可行的路径。

五、启示：未来的方向

虽然 WebDancer 取得了令人鼓舞的成绩，但论文也坦诚地指出了当前框架的一些局限性和未来的研究方向:

工具数量和类型有限：目前只集成了搜索和访问这两个基本工具。未来可以集成更复杂的工具，例如通过抽象浏览器功能来更精细地模拟浏览器行为，或利用 Python 沙箱环境与外部 API 交互。这将使智能体能够执行更像人类、更高效的互动，处理更具挑战性的任务。
任务泛化和基准：当前的实验集中在短答案信息搜索任务。一个全面的网络智能体还应能进行文档级研究和长篇生成。如何在这样的开放领域、长篇生成任务中设计可靠且信息丰富的奖励信号，是一个需要深入研究的问题。
数据利用效率：尽管收集了大量的 QA 对和轨迹，但目前在 RL 阶段能够有效利用的数据量相对较小（例如，由于计算和稳定性限制，只能使用大约5000对数据）。未来需要更高效的数据利用策略，充分挖掘数据集的价值。
Rollout 成本高昂：RL 阶段的 Rollout 涉及多轮工具调用和 LLM 完成，计算和时间开销很大。这限制了可扩展性，并减缓了迭代开发。开发更高效地集成工具调用和模型完成的机制是一个有前景的方向。
混合思考模式：目前模型训练基于单一类型的 CoT 数据。未来可以开发能够动态控制推理长度的混合推理智能体模型。
思考模式中的幻觉和过度行动：在工具调用中可能出现幻觉（如调用不存在的工具）或过度行动（如找到答案后仍执行冗余行动）。这是未来需要解决的问题。