支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


通义开源WebSailor:超越DeepSeek R1,最接近闭源系统的网络智能体来了!

发布日期:2025-07-10 14:04:36 浏览次数: 1690
作者:AI小新

微信搜一搜,关注“AI小新”

推荐语

阿里通义开源WebSailor,突破性解决复杂网络查询难题,性能超越多个闭源模型!

核心内容:
1. WebSailor在复杂推理任务上的重大突破与性能表现
2. 针对高不确定性任务的系统性解决方案与技术创新
3. 开源智能体首次具备处理"信息迷雾"能力,缩小与闭源顶尖系统的差距

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

迷雾重重、线索零碎的复杂网络查询,从此有了开源解决方案

在信息爆炸的互联网世界,你是否曾遇到这样的问题:明明知道答案就在某个角落,却因线索过于模糊、路径过于复杂而束手无策?

这类高不确定性查询长期困扰着用户和开发者——直到阿里通义实验室发布 WebSailor,这一开源网络智能体在复杂推理任务上刷新多项纪录,甚至超越多个闭源模型!


GitHub项目地址:https://github.com/Alibaba-NLP/WebAgent

论文地址:https://arxiv.org/pdf/2507.02592



01 开源智能体的重大突破

2025年7月7日,阿里巴巴通义实验室正式开源网络智能体WebSailor,这一创新方案在多个高难度评测中刷新了开源系统的最好成绩,成为首个在BrowseComp等基准上逼近闭源系统能力的开源方案。

在OpenAI发布的BrowseComp评测集上,WebSailor-72B在英文和中文版本中分别取得12.0% 和 30.1% 的准确率,远超此前开源系统3.8%的水平。

更令人振奋的是,WebSailor不仅超越DeepSeek R1、WebThinker等开源方案,甚至在部分指标上超越了Grok-3等闭源模型,仅次于OpenAI DeepResearch。

这一突破标志着开源智能体首次具备处理“信息迷雾”的能力,缩小了与闭源顶尖系统间的差距。

02 破解“地狱级”难题

为什么传统开源模型在复杂任务上屡屡碰壁?通义团队发现核心症结在于面对高不确定性任务时的系统性推理能力缺失

研究团队将信息搜索任务按难度分为三个层级:

  • Level-1(新手模式):如查询“某城市人口”,可通过单次搜索解决
  • Level-2(进阶模式):如多跳问答,有清晰解决路径
  • Level-3(地狱模式):线索模糊、路径不明的高不确定性任务

WebSailor瞄准的正是最棘手的Level-3任务。例如:“5世纪中期去世的某基督教诗歌作者,其死亡年份恰好是重建古代环境条件的科学年表最后一年。该年表名称是什么?”

这类问题答案线索被拆解得极其零碎,散布在不同类型和时期的模糊信息源中,形成巨大的“信息迷雾网”,需要数十步推理才能解决。

03 三大技术创新

创新一:SailorFog-QA——地狱级训练场

WebSailor团队开发了SailorFog-QA数据合成方法,专门模拟高不确定性环境:

  • 知识图谱随机游走:从维基数据冷门实体出发,随机扩展构建非线性关系网络
  • 信息模糊化处理:将具体日期改为“21世纪初”,人名变为“以F开头的知名人士”,数值替换为“市场份额不足1%”等定性描述

这种方法生成的题目有多难?内部测试中,某些题目连OpenAI o3模型都需调用40+次工具才能解决!

创新二:推理重构——化繁为简的艺术

研究团队发现直接模仿开源大模型(如QwQ-32B、DeepSeek-R1)的冗长推理反而限制模型发展。为此他们开创了 “推理重构”技术

  1. 仅保留专家模型的成功动作-观察序列
  2. 使用指令模型生成简洁的新思考过程
  3. 构建紧凑且目标导向的推理链

这种方法既保留复杂推理精髓,又避免冗长思维链挤爆上下文窗口,特别适合数十步的长周期任务。

创新三:DUPO——强化学习新范式

WebSailor训练采用两阶段策略:

  • RFT冷启动:仅用2000+高质量样本教会模型基础工具使用和推理框架
  • DUPO强化学习:创新双阶段动态采样策略

DUPO算法核心在于:

  • 训练前过滤简单样本
  • 训练中重复采样困难轨迹
  • 相比传统方法提速2-3倍

这种设计如同明智的教练,让学生专注练习未掌握的技能,极大提升学习效率。

04 超凡性能表现

WebSailor在多个维度展现惊人能力:

  • 复杂任务:在最具挑战性的BrowseComp-en上,WebSailor-72B达到12.0%准确率(此前开源最佳仅3.8%)
  • 小模型大能量:WebSailor-7B(7B参数)超越32B参数的竞争系统,达6.7%准确率
  • 中文场景优势:在BrowseComp-zh上以30.1%准确率追平DouBao(26.0%)等闭源系统

尽管专注高难任务训练,WebSailor在简单任务上同样出色:在SimpleQA数据集上,WebSailor-72B取得93.5%的准确率,超过所有对比方案。

05 开源生态新可能

作为通义实验室 “Web智能体”系列的第三项重大发布(前有WebWalker、WebDancer),WebSailor实现了从评测构建→策略学习→闭源追近的完整进化。

项目已在GitHub开源,包含:

  • 模型代码
  • 训练方法
  • 部分评测数据集

开发者可借此构建能处理复杂信息检索的AI应用,如:

  • 侦探式历史事件追溯
  • 跨领域人物经历解析
  • 科研线索挖掘

通义团队表示,将继续发展 “基于浏览器的原生智能体框架”,向开放式、跨模态的复杂推理场景进军。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询