我要投稿

通义开源WebSailor：超越DeepSeek R1，最接近闭源系统的网络智能体来了！

发布日期：2025-07-10 14:04:36 浏览次数： 3308

作者：AI小新

微信搜一搜，关注“AI小新”

迷雾重重、线索零碎的复杂网络查询，从此有了开源解决方案

在信息爆炸的互联网世界，你是否曾遇到这样的问题：明明知道答案就在某个角落，却因线索过于模糊、路径过于复杂而束手无策？

这类高不确定性查询长期困扰着用户和开发者——直到阿里通义实验室发布 WebSailor，这一开源网络智能体在复杂推理任务上刷新多项纪录，甚至超越多个闭源模型！

GitHub项目地址：https://github.com/Alibaba-NLP/WebAgent

论文地址：https://arxiv.org/pdf/2507.02592

01 开源智能体的重大突破

2025年7月7日，阿里巴巴通义实验室正式开源网络智能体WebSailor，这一创新方案在多个高难度评测中刷新了开源系统的最好成绩，成为首个在BrowseComp等基准上逼近闭源系统能力的开源方案。

在OpenAI发布的BrowseComp评测集上，WebSailor-72B在英文和中文版本中分别取得12.0% 和 30.1% 的准确率，远超此前开源系统3.8%的水平。

更令人振奋的是，WebSailor不仅超越DeepSeek R1、WebThinker等开源方案，甚至在部分指标上超越了Grok-3等闭源模型，仅次于OpenAI DeepResearch。

这一突破标志着开源智能体首次具备处理“信息迷雾”的能力，缩小了与闭源顶尖系统间的差距。

02 破解“地狱级”难题

为什么传统开源模型在复杂任务上屡屡碰壁？通义团队发现核心症结在于面对高不确定性任务时的系统性推理能力缺失。

研究团队将信息搜索任务按难度分为三个层级：

Level-1（新手模式）：如查询“某城市人口”，可通过单次搜索解决
Level-2（进阶模式）：如多跳问答，有清晰解决路径
Level-3（地狱模式）：线索模糊、路径不明的高不确定性任务

WebSailor瞄准的正是最棘手的Level-3任务。例如：“5世纪中期去世的某基督教诗歌作者，其死亡年份恰好是重建古代环境条件的科学年表最后一年。该年表名称是什么？”

这类问题答案线索被拆解得极其零碎，散布在不同类型和时期的模糊信息源中，形成巨大的“信息迷雾网”，需要数十步推理才能解决。

03 三大技术创新

创新一：SailorFog-QA——地狱级训练场

WebSailor团队开发了SailorFog-QA数据合成方法，专门模拟高不确定性环境：

知识图谱随机游走：从维基数据冷门实体出发，随机扩展构建非线性关系网络
信息模糊化处理：将具体日期改为“21世纪初”，人名变为“以F开头的知名人士”，数值替换为“市场份额不足1%”等定性描述

这种方法生成的题目有多难？内部测试中，某些题目连OpenAI o3模型都需调用40+次工具才能解决！

创新二：推理重构——化繁为简的艺术

研究团队发现直接模仿开源大模型（如QwQ-32B、DeepSeek-R1）的冗长推理反而限制模型发展。为此他们开创了 “推理重构”技术：

仅保留专家模型的成功动作-观察序列
使用指令模型生成简洁的新思考过程
构建紧凑且目标导向的推理链

这种方法既保留复杂推理精髓，又避免冗长思维链挤爆上下文窗口，特别适合数十步的长周期任务。

创新三：DUPO——强化学习新范式

WebSailor训练采用两阶段策略：

RFT冷启动：仅用2000+高质量样本教会模型基础工具使用和推理框架
DUPO强化学习：创新双阶段动态采样策略

DUPO算法核心在于：

训练前过滤简单样本
训练中重复采样困难轨迹
相比传统方法提速2-3倍

这种设计如同明智的教练，让学生专注练习未掌握的技能，极大提升学习效率。

04 超凡性能表现

WebSailor在多个维度展现惊人能力：

复杂任务：在最具挑战性的BrowseComp-en上，WebSailor-72B达到12.0%准确率（此前开源最佳仅3.8%）
小模型大能量：WebSailor-7B（7B参数）超越32B参数的竞争系统，达6.7%准确率
中文场景优势：在BrowseComp-zh上以30.1%准确率追平DouBao（26.0%）等闭源系统

尽管专注高难任务训练，WebSailor在简单任务上同样出色：在SimpleQA数据集上，WebSailor-72B取得93.5%的准确率，超过所有对比方案。

05 开源生态新可能

作为通义实验室 “Web智能体”系列的第三项重大发布（前有WebWalker、WebDancer），WebSailor实现了从评测构建→策略学习→闭源追近的完整进化。

项目已在GitHub开源，包含：

模型代码
训练方法
部分评测数据集

开发者可借此构建能处理复杂信息检索的AI应用，如：

侦探式历史事件追溯
跨领域人物经历解析
科研线索挖掘

通义团队表示，将继续发展 “基于浏览器的原生智能体框架”，向开放式、跨模态的复杂推理场景进军。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-05-25

DeepSeek 要用蜜雪冰城的打法，做中国版 Claude Code

2026-05-25

DeepSeek V4还能更省！新工具缓存命中率高达99.82%，2折稳定到手

2026-05-25

Anthropic开源Claude小企业插件：不用写prompt，15套现成流程顶半个运营团队

2026-05-21

麻省理工团队开源GenCAD，用一张图片生成完整CAD模型与参数化程序

2026-05-21

真Agent框架生态的主语言已经变为TypeScript

2026-05-20

Hermes Agent + Ollama本地安装指南

2026-05-20

Qwen3.7来了，全球排名第13，国内第一

2026-05-17

开源、零依赖、R@5 精度 95%：agentmemory 凭什么比 mem0 更值得用

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Hermes Agent 出来了，聊聊它凭什么跟 OpenClaw 掰手腕

2026-03-30

Google Gemma 4 开源｜全面解读

2026-04-03

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

字节跳动开源 DeerFlow 2.0：下一代超级 Agent 引擎，一键搞定复杂工作流！

2026-03-23

4 天 6.8K Star，这个 AI 漫剧项目火了：waoowaoo！

2026-03-03

刚刚，Claude Code开源了！51万行代码，全网狂欢

2026-03-31

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

开启极简养虾，用 TRAE 快速部署 OpenClaw

2026-03-04

OpenAI 刚开源了 Symphony：以后写代码，你只需要拖工单就行了

2026-03-09

龙虾绝配：Qwen 3.5 27B！跑在家里，成本为 0

2026-03-30

大家都在问

Hermes Agent 深度解析：为什么它能“越用越懂你”？

2026-05-16

百度把Nano Banana塞进4090，疯了？

2026-04-22

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Hermes 凭什么两个月接棒 OpenClaw？

2026-04-15

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

英伟达的NemoClaw，能帮AI代理这匹“野马”套上缰绳吗？

2026-03-17

你的 AI Agent 真的在受控运行吗？

2026-03-13

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw