免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


阿里开源通义DeepResearch:智能体训练全流程揭秘

发布日期:2025-10-17 19:31:35 浏览次数: 1547
作者:智见AGI

微信搜一搜,关注“智见AGI”

推荐语

阿里开源通义DeepResearch,揭秘科研智能体如何像人类研究员一样完成复杂研究闭环,性能全面超越现有模型。

核心内容:
1. DeepResearch的核心能力与SOTA性能表现
2. 独创的AgentFounder数据合成系统与训练方法论
3. Agentic增量预训练(CPT)的创新技术架构

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家


2025年9月16日,阿里通义实验室发布了DeepResearch,宣称这是一款针对科研场景设计的开源“智能体”模型系统。它不再是简单的对话机器人,而是能像研究人员一样,围绕一个问题构建完整的“研究闭环”:深度检索、跨源交叉、结构化归纳、报告生成,最终输出有引用、可复现的调研报告与决策建议。通义团队通过创新的技术架构和训练方法,使DeepResearch在多个极高难度的信息检索和推理任务中取得了最先进的(SOTA)成绩:


●Humanity’s Last Exam (HLE):32.9

●BrowseComp‑EN:43.4

●BrowseComp‑ZH:46.7

●xBench‑DeepSearch:75.0



全面超越了目前所有的闭源及开源 Deep Research 智能体(Agent)。不仅如此,通义团队还完整分享了一套可落地的高水平Agent构建方法论,详细介绍了从数据合成、Agentic 增量预训练(CPT)、有监督微调(SFT)冷启动,到强化学习(RL)的全套流程。



数据合成策略:为训练提供海量“燃料”



通义 DeepResearch 独创了全自动合成数据管道,彻底摆脱昂贵人工标注的瓶颈。团队设计了一个名为 AgentFounder 的系统,持续从文档、网络爬取数据、知识图谱、工具调用记录等多源采集信息,构建“实体锚定的开放世界知识记忆”。基于采样得到的实体和相关知识,自动生成多种风格的问题–答案对,为预训练和后续微调提供海量基础训练样本。可以把这些过程想象成给模型构建了一个“知识宫殿”和“练习题库”,让它不断积累各种知识和场景下的问答能力。


此外,团队还进行动作(行为)合成:基于历史交互轨迹和题目,生成推理与决策过程数据。例如,将原始步骤重构为多步规划决策任务,形成多阶段解决方案序列。这些合成轨迹模拟模型在真实 Web 环境中的查询、点击、推理步骤,极大丰富了智能体对不同操作序列的认识,甚至无需额外调用真实 API 就能离线模拟各种复杂推理动作。所有这些数据合成策略形成了一个“数据飞轮”:预训练产生的数据不断供给后续阶段,又反过来促进更多样本的生成。



Agentic 增量预训练 (CPT):夯实模型基础



Agentic CPT 相当于给智能体做“扎实的理论学习”。团队首先用合成好的大规模数据对基础语言模型进行增量预训练。在这个阶段,模型并非仅仅背诵静态文本,而是学习一系列模拟“研究过程”的轨迹:比如根据一个查询逐步提取文档信息、调用工具、形成答案。这通过掩码语言建模的方式,让模型隐式学会规划和工具使用的技能。在类比上,就像让学徒阅读大量专业书籍和案例解析,同时练习整理信息和提出问题,为后续的实践操作打下坚实基础。Agentic CPT 的创新在于其AgentFounder 数据方案:利用前述数据合成产生的丰富问答对与推理过程,实现了可扩展的大规模训练。



有监督微调 (SFT) 冷启动:模拟专家示范



在增量预训练后,通义 DeepResearch 会让模型通过有监督微调 (SFT) 进行“专家示范”训练,快速进入任务状态。此阶段使用合成的高质量问答和轨迹数据,让模型学习规范的思考–行动–观察循环。具体做法是用两种风格的示例训练模型:一是经典的 ReAct 形式(“思考→行动→观察”循环),让模型学会结构化答题;二是团队提出的 IterResearch 形式,即在多轮推理时每轮重新聚焦关键内容,避免上下文信息过多造成干扰。可以把 SFT 阶段比作导师带着学生做练习题:模型在“老师示范”下,把之前打好的理论知识用于具体问答和多轮推理场景。通过这样的冷启动,模型迅速掌握从结构化思考到生成连贯行动的能力,为后续自我优化打下良好基础。




强化学习 (RL):在模拟环境中自我演练



最后进入强化学习阶段,让智能体在安全可控的模拟环境中“自行试错”,持续优化决策策略。通义团队采用定制的GRPO(Group Relative Policy Optimization)算法,严格遵循on-policy训练范式,确保奖励信号与模型当前能力匹配。在训练目标上,使用了基于Token级别的策略梯度损失,并引入留一法(leave-one-out)来降低方差,同时有选择地剔除过长未完成的负样本,避免模型陷入“格式崩溃”。训练时还通过增大批次和并行实例来稳定学习。类似于模拟战场练习,智能体不断在仿真网页环境中进行查询、点击和推理,每一次成功完成任务都会得到奖励,模型的策略随着奖励(reward)持续上升,探索度(policy entropy)保持高位。这一切都依托稳定的环境和数据支持:团队构建了离线维基百科+自制工具的沙盒模拟环境,并实时自动管理生成数据,以保证训练过程高效且鲁棒。



阶段协同与闭环:不断迭代的训练循环



通义 DeepResearch 的成功还在于各阶段环环相扣、形成闭环。从CPT阶段打基础,到SFT阶段冷启动,最后到RL阶段自我进化,每一步都为下一步提供素材和启发。CPT和SFT产生的合成数据反过来可用于强化学习训练,RL训练新得的轨迹也可反馈到数据管道中,持续丰富训练样本。可谓是一个不断“自己喂养自己”的训练循环。正如通义团队所总结的:“从基础模型开始,先进行了 Agentic 持续预训练以初始化工具使用技能,然后使用类似专家的数据进行监督微调以实现冷启动,最后进行基于策略的强化学习,使模型进行自我进化”。这一全栈式方案相当于教会一个学习者:先在课堂上学习知识、再在实验室跟随导师练习,最后独立做项目,实现技能的真实落地。



整体来看,通义 DeepResearch 的训练流程兼顾了规模化合成数据精细化算法设计。通过高质量数据合成不断为模型提供“训练燃料”,并在各阶段采用面向智能体特性的训练目标和策略,最终培养出能够自主规划、多步推理的开源智能体。这一创新方法论为开源社区提供了完整可复现的方案,揭示了从“聊天机器人”到“自主研究者”转型的路径



应用场景



DeepResearch已在实际产品中得到应用。阿里表示,它已赋能高德地图和“通义法睿”等内部项目。例如,在高德地图中,DeepResearch被用作智能出行Agent:集成专用地图API、实时天气和交通监测等工具,可根据当前情况规划最优路线。通义团队提供Deep Research模型 + 高德团队提供工具和 Agent 链路”,打造了高德 App 中助手「小高老师」的复杂查询体验,在地图行业内打出影响力。


在法律领域,DeepResearch驱动的“通义法睿”智能体能自动检索法律法规、案例和裁判文书,并进行深度归纳分析,在“法条引用相关性”和“案例引用相关性”两项指标上超过了OpenAI和Claude等国际顶尖模型,为法律从业者提供了准确可靠的检索和分析支持。


开源链接


●Homepage:  

https://tongyi-agent.github.io/

●Blog:

https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/

●Github:

https://github.com/Alibaba-NLP/DeepResearch

●Hugging Face:

https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B

●Model Scope:

https://modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询