我要投稿

Alibaba开源WebDancer解决DeepResearch复杂信息检索难题

发布日期：2025-05-30 21:43:19 浏览次数： 2384

作者：CourseAI

微信搜一搜，关注“CourseAI”

本公众号主要关注NLP、CV、LLM、RAG、Agent等AI前沿技术，免费分享业界实战案例与课程，助力您全面拥抱AIGC。

Deep Research面临的问题

高质量数据集：

现有的 QA 数据集大多浅层，无法满足多步推理的需求。需要构建能够反映多样化用户意图和丰富交互上下文的高质量、细粒度浏览数据

可靠轨迹构建

构建支持长时推理和任务分解的可靠轨迹

可扩展且泛化的训练策略

设计能够使Agent在分布外的网络环境、复杂交互模式和长期目标下表现出鲁棒行为的可扩展和泛化训练策略

WebDancer

从数据和训练阶段的角度出发，提出了一个端到端的自主信息检索代理构建范式，通过四个关键阶段：

浏览数据构建

CRAWLQA：通过爬取知识性网站的网页，模仿人类浏览行为，递归访问子页面，并利用 GPT-4o 生成基于收集内容的 QA 对。
这种方法能够获取丰富的背景知识，为复杂问题的构建提供基础。
E2HQA：从简单的 QA 对开始，逐步通过搜索和重写问题，增加问题的复杂性。
这种方法能够激励代理从简单任务逐步过渡到复杂任务，提升其推理能力。

轨迹采样

基于 ReAct 框架，代理通过 Thought-Action-Observation 轮次进行交互。
通过拒绝采样，结合短链推理（Short-CoT）和长链推理（Long-CoT）策略，生成高质量的轨迹。
采用三阶段过滤框架：有效性控制、正确性验证和质量评估，确保轨迹的高质量。

监督微调(SFT)以实现有效的冷启动

利用合成的轨迹数据，对代理进行微调，使其能够适应多步推理任务。
通过屏蔽外部反馈的损失贡献，避免学习过程中的干扰，提升性能和鲁棒性。

通过强化学习(RL)优化Agent的决策能力和泛化能力

采用 DAPO 算法，通过动态采样机制，优化代理的决策过程，提升其在真实世界网络环境中的泛化能力。

实验结果

在实验中，WebDancer 在 GAIA 和 WebWalkerQA 两个基准测试中表现出色。

在 GAIA 的 Level 1、Level 2 和 Level 3 测试中，WebDancer 分别取得了 41.0%、30.7% 和 0% 的通过率，显著优于其他开源框架。表明 WebDancer 在处理复杂信息检索任务时具有显著优势。

WebDancer的核心在于通过高质量数据和有效的训练方法，使代理能够在动态多变的网络环境中表现出色。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-04

腾讯开源了 Agent Memory，让 AI 真正记住你。_tag2

2026-06-04

AionUi 统一接管 OpenClaw 与 Hermes Agent

2026-06-04

重磅！谷歌开源Gemma 4 12B：统一的、无编码器的多模态模型，16G内存笔记本就可以跑

2026-06-03

微软开源Intelligent Terminal：基于Windows Terminal、集成原生Agent能力

2026-06-02

让 Agent 拥有超强记忆，TencentDB Agent Memory 开源了！

2026-06-02

Qwen3-ASR：阿里开源的语音识别大模型，一行命令干掉 Whisper

2026-06-02

拥抱 AI Agent 时代：12条工程实践指南

2026-05-31

亲测有效！Codex桌面版免费接入DeepSeek V4

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Hermes Agent 出来了，聊聊它凭什么跟 OpenClaw 掰手腕

2026-03-30

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

Google Gemma 4 开源｜全面解读

2026-04-03

字节跳动开源 DeerFlow 2.0：下一代超级 Agent 引擎，一键搞定复杂工作流！

2026-03-23

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

刚刚，Claude Code开源了！51万行代码，全网狂欢

2026-03-31

OpenAI 刚开源了 Symphony：以后写代码，你只需要拖工单就行了

2026-03-09

龙虾绝配：Qwen 3.5 27B！跑在家里，成本为 0

2026-03-30

阿里开源龙虾组合来了：HiClaw + CoPaw，内存占用大幅降低，还能直接操作本地环境

2026-03-12

Ollama 本地部署 Gemma 4 完全指南

2026-04-18

大家都在问

企业级 AI Agent 为什么集体转向“基座 + Skills”？

2026-05-30

Hermes Agent 深度解析：为什么它能“越用越懂你”？

2026-05-16

百度把Nano Banana塞进4090，疯了？

2026-04-22

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Hermes 凭什么两个月接棒 OpenClaw？

2026-04-15

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

英伟达的NemoClaw，能帮AI代理这匹“野马”套上缰绳吗？

2026-03-17

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw