微信扫码
添加专属顾问
我要投稿
阿里通义开源WebSailor,突破性解决复杂网络查询难题,性能超越多个闭源模型! 核心内容: 1. WebSailor在复杂推理任务上的重大突破与性能表现 2. 针对高不确定性任务的系统性解决方案与技术创新 3. 开源智能体首次具备处理"信息迷雾"能力,缩小与闭源顶尖系统的差距
迷雾重重、线索零碎的复杂网络查询,从此有了开源解决方案
在信息爆炸的互联网世界,你是否曾遇到这样的问题:明明知道答案就在某个角落,却因线索过于模糊、路径过于复杂而束手无策?
这类高不确定性查询长期困扰着用户和开发者——直到阿里通义实验室发布 WebSailor,这一开源网络智能体在复杂推理任务上刷新多项纪录,甚至超越多个闭源模型!
GitHub项目地址:https://github.com/Alibaba-NLP/WebAgent
论文地址:https://arxiv.org/pdf/2507.02592
2025年7月7日,阿里巴巴通义实验室正式开源网络智能体WebSailor,这一创新方案在多个高难度评测中刷新了开源系统的最好成绩,成为首个在BrowseComp等基准上逼近闭源系统能力的开源方案。
在OpenAI发布的BrowseComp评测集上,WebSailor-72B在英文和中文版本中分别取得12.0% 和 30.1% 的准确率,远超此前开源系统3.8%的水平。
更令人振奋的是,WebSailor不仅超越DeepSeek R1、WebThinker等开源方案,甚至在部分指标上超越了Grok-3等闭源模型,仅次于OpenAI DeepResearch。
这一突破标志着开源智能体首次具备处理“信息迷雾”的能力,缩小了与闭源顶尖系统间的差距。
为什么传统开源模型在复杂任务上屡屡碰壁?通义团队发现核心症结在于面对高不确定性任务时的系统性推理能力缺失。
研究团队将信息搜索任务按难度分为三个层级:
WebSailor瞄准的正是最棘手的Level-3任务。例如:“5世纪中期去世的某基督教诗歌作者,其死亡年份恰好是重建古代环境条件的科学年表最后一年。该年表名称是什么?”
这类问题答案线索被拆解得极其零碎,散布在不同类型和时期的模糊信息源中,形成巨大的“信息迷雾网”,需要数十步推理才能解决。
WebSailor团队开发了SailorFog-QA数据合成方法,专门模拟高不确定性环境:
这种方法生成的题目有多难?内部测试中,某些题目连OpenAI o3模型都需调用40+次工具才能解决!
研究团队发现直接模仿开源大模型(如QwQ-32B、DeepSeek-R1)的冗长推理反而限制模型发展。为此他们开创了 “推理重构”技术:
这种方法既保留复杂推理精髓,又避免冗长思维链挤爆上下文窗口,特别适合数十步的长周期任务。
WebSailor训练采用两阶段策略:
DUPO算法核心在于:
这种设计如同明智的教练,让学生专注练习未掌握的技能,极大提升学习效率。
WebSailor在多个维度展现惊人能力:
尽管专注高难任务训练,WebSailor在简单任务上同样出色:在SimpleQA数据集上,WebSailor-72B取得93.5%的准确率,超过所有对比方案。
作为通义实验室 “Web智能体”系列的第三项重大发布(前有WebWalker、WebDancer),WebSailor实现了从评测构建→策略学习→闭源追近的完整进化。
项目已在GitHub开源,包含:
开发者可借此构建能处理复杂信息检索的AI应用,如:
通义团队表示,将继续发展 “基于浏览器的原生智能体框架”,向开放式、跨模态的复杂推理场景进军。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-11-25
混元OCR模型宣布开源,参数仅1B,多项核心能力SOTA
2025-11-25
5分钟部署AstrBot+NapCat:用Docker把 DeepSeekAI接入你的QQ
2025-11-25
OpenAI 推出 Shopping Research:AI 正在重塑电商价值链
2025-11-25
Gemini Prompt:直接开源!我把「顶尖商业咨询」写进了一套 AI 指令里
2025-11-24
字节跳动开源RL框架verl:让大模型强化学习效率提升20倍,已支持671B参数模型训练
2025-11-24
GPUStack v2:推理加速释放算力潜能,开源重塑大模型推理下半场
2025-11-23
一行代码,让你的 AI 拥有永久记忆!告别昂贵的向量数据库
2025-11-23
Andrej Karpathy 推出 LLM Council:让多个大模型"开会"讨论你的问题
2025-09-07
2025-09-06
2025-10-20
2025-09-08
2025-10-27
2025-10-27
2025-11-19
2025-10-03
2025-09-17
2025-08-28
2025-11-12
2025-11-10
2025-11-03
2025-10-29
2025-10-28
2025-10-13
2025-09-29
2025-09-17