我要投稿

阿里开源 Tongyi DeepResearch：科研智能体能力首次追平 OpenAI

发布日期：2025-09-23 08:16:02 浏览次数： 2944

作者：Halo咯咯

微信搜一搜，关注“Halo咯咯”

在人工智能的演进史上，每隔一段时间，总会出现一些具有里程碑意义的模型。2025 年 9 月，阿里巴巴通义实验室发布的 Tongyi DeepResearch-30B-A3B，正是这样一个引人注目的存在。

它不是简单的对话机器人，而是一个真正意义上的 开源科研智能体（Research Agent），可以在复杂信息环境中进行多轮推理、跨来源检索、证据交叉验证和长文档综合。更重要的是，它在多个权威基准测试中表现出色，首次让开源模型的科研智能体能力，真正追平了 OpenAI 的同类产品。

对于正在关注 大模型智能体化、科研任务自动化、以及 开源模型产业化 的读者来说，Tongyi DeepResearch 的出现意味着什么？本文将带你深入解读。

一、为什么 DeepResearch 模型重要？

在科研和信息检索类任务中，传统聊天模型常常力不从心。比如：

面对复杂学术问题，它们容易“编故事”，缺乏可靠证据；
长链路任务（如跨文献追溯、逐步构建论证）往往被截断，结果不完整；
面对庞大的上下文，它们会被“信息噪声”淹没，出现逻辑漂移。

而 DeepResearch 模型的设计目标，正是为了解决这些“科研痛点”。它不只是问答助手，而是能像研究人员一样，进行：

长期规划（Long-horizon planning）
迭代检索和交叉验证（Iterative retrieval & verification）
证据跟踪和低幻觉率（Evidence tracking）
多源信息综合（Large-context synthesis）

这也是为什么 Tongyi DeepResearch 的亮相，直接被视为“开源科研智能体时代的开始”。

二、性能表现：开源首次对标 OpenAI

阿里官方公布的基准测试结果，足够亮眼：

**Humanity’s Last Exam (HLE)**：32.9
BrowseComp：43.4（英文）/ 46.7（中文）
xbench-DeepSearch：75

这些测试被业内称为科研智能体的“综合考核”，主要评估模型在复杂信息检索、多步推理和跨源综合中的表现。

换句话说，Tongyi DeepResearch 已经站在了 OpenAI DeepResearch 的同一水平线上，并且在开源社区中“一骑绝尘”。这对于长期依赖闭源模型的开发者和研究机构来说，无疑是一种解放。

三、架构设计：MoE + 超长上下文

要理解它为什么能做到这一点，就得看架构。

Mixture-of-Experts（MoE）架构

总参数量约 305 亿，但每个 Token 只激活 30~33 亿参数。
等于用“小模型成本”获得“大模型能力”。
这一设计延续自阿里在 Qwen3-MoE 中的探索。
超长上下文：128K Token

足以处理多篇学术论文、完整研究报告，甚至是跨领域文献集合。
这让它在“长链路推理”上天然占优。

双推理模式

ReAct 模式：原生推理与工具调用，评估模型的内生能力；
Heavy Mode（IterResearch）：通过迭代重构上下文来减少噪声，专门应对超复杂科研任务。

简而言之，它不仅能“读得多”，还能“读得清”。

四、训练方法：全自动合成数据 + On-policy 强化学习

和多数聊天模型不同，Tongyi DeepResearch 从一开始就被训练为“智能体”，而非单纯的对话模型。

1. 自动化数据引擎

阿里搭建了一个完全自动化的数据生成系统：

从知识图谱、文档库、历史工具调用轨迹中构建语料；
自动生成问题与答案对；
合成多步推理和行动轨迹数据；
不依赖昂贵的商业 API 调用。

这意味着训练数据不再依赖人工标注，而是一个可扩展的“自我进化循环”。

2. 冷启动 SFT（监督微调）

通过 ReAct 和 IterResearch 两种格式，生成结构化推理数据，帮助模型快速掌握工具使用与规划能力。

3. On-policy 强化学习（GRPO 算法）

Group Relative Policy Optimization：基于群体相对优势的优化方式；
Token 级策略梯度：精细化学习信号；
负样本过滤：避免训练崩溃或格式坍塌；
高并发沙盒环境：模拟网页搜索、文档查询，保证模型在真实环境中也能稳定学习。

这套 RL 策略，不仅提高了模型的鲁棒性，还解决了以往科研智能体容易“卡死”或“乱跑”的问题。

五、在科研与信息检索中的应用价值

从实验室走向实际应用，Tongyi DeepResearch 能做什么？

学术研究助手

自动整理多篇论文的关键结论；
在跨学科主题中寻找共通点；
生成逻辑严谨的研究综述。

企业文档研究

针对上万页报告、专利、内部文件，快速抽取核心观点；
跨来源验证，避免“只看一家之言”。

多语言信息获取

在 BrowseComp-ZH 的成绩表明，它在中文语境下同样表现优异；
这对中国科研人员尤其友好。

Web 调研与商业分析

从公开网页中持续追踪信息，综合成可靠的决策依据。

换句话说，它的定位并不是“写作助手”，而是更接近“智能研究员”。

六、为何开源意义重大？

很多人可能会问：OpenAI 已经有 DeepResearch，为什么还需要阿里的开源版本？

答案很简单：科研需要可验证、可复现、可定制的工具。

闭源模型再强，也无法满足企业的合规需求；
大学和研究机构需要对训练数据与方法有掌控；
开源模型能形成“科研共同体”，不断自我进化。

阿里这次不仅开源了权重，还提供了推理脚本、评测工具、数据管线。对于开发者来说，这是一整套“可落地的科研智能体方案”。

七、未来趋势：科研智能体会成为“标配”吗？

Tongyi DeepResearch 的发布，释放了一个清晰信号：科研和信息检索类任务，正在全面智能体化。

未来几年，我们可能会看到：

科研人员人手一个智能体助手

它帮你查文献、对比实验、验证假设；
你只需要做最后的判断与创新。

企业内部知识库自动化

不再依赖人工整理文档；
智能体可以根据上下文动态生成研究报告。

跨学科融合加速

智能体能轻松“跳出专业壁垒”，让不同领域知识快速联通。

可以预见，未来科研智能体就像今天的搜索引擎一样，会成为研究与信息工作的标配。

结语

Tongyi DeepResearch 的问世，不只是阿里的一次技术突破，更是 开源社区在科研智能体方向上的里程碑。

它证明了：即使面对最复杂的科研任务，开源模型依然有机会追平乃至超越闭源巨头。

对于科研人员、企业研究团队、开发者来说，真正的价值在于——你可以直接下载、运行、改造它，让它成为你自己的“研究助手”。

也许，未来的某个科研突破，就会诞生在这样一个开源智能体的辅助下。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-05-25

DeepSeek 要用蜜雪冰城的打法，做中国版 Claude Code

2026-05-25

DeepSeek V4还能更省！新工具缓存命中率高达99.82%，2折稳定到手

2026-05-25

Anthropic开源Claude小企业插件：不用写prompt，15套现成流程顶半个运营团队

2026-05-21

麻省理工团队开源GenCAD，用一张图片生成完整CAD模型与参数化程序

2026-05-21

真Agent框架生态的主语言已经变为TypeScript

2026-05-20

Hermes Agent + Ollama本地安装指南

2026-05-20

Qwen3.7来了，全球排名第13，国内第一

2026-05-17

开源、零依赖、R@5 精度 95%：agentmemory 凭什么比 mem0 更值得用

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Hermes Agent 出来了，聊聊它凭什么跟 OpenClaw 掰手腕

2026-03-30

Google Gemma 4 开源｜全面解读

2026-04-03

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

字节跳动开源 DeerFlow 2.0：下一代超级 Agent 引擎，一键搞定复杂工作流！

2026-03-23

4 天 6.8K Star，这个 AI 漫剧项目火了：waoowaoo！

2026-03-03

刚刚，Claude Code开源了！51万行代码，全网狂欢

2026-03-31

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

开启极简养虾，用 TRAE 快速部署 OpenClaw

2026-03-04

OpenAI 刚开源了 Symphony：以后写代码，你只需要拖工单就行了

2026-03-09

龙虾绝配：Qwen 3.5 27B！跑在家里，成本为 0

2026-03-30

大家都在问

Hermes Agent 深度解析：为什么它能“越用越懂你”？

2026-05-16

百度把Nano Banana塞进4090，疯了？

2026-04-22

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Hermes 凭什么两个月接棒 OpenClaw？

2026-04-15

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

英伟达的NemoClaw，能帮AI代理这匹“野马”套上缰绳吗？

2026-03-17

你的 AI Agent 真的在受控运行吗？

2026-03-13

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw