我要投稿

Anthropic分享如何构建多智能体研究系统

发布日期：2025-08-15 07:51:41 浏览次数： 1908

作者：峥嵘岁月AI

微信搜一搜，关注“峥嵘岁月AI”

Anthropic在其官网上六月中旬就发布了一篇关于他们是如何构建多智能体研究系统( multi-Agent research system)的文章。里面有智能体编排(Orchestration)以及子智能体(subagent)等多个概念，看完之后很受用，尤其是到了8月份，结合着前两天她的姐妹OpenAI(老美那边的大模型两姊妹

)发布的GTP-5放一块想想，蛮映衬的。

因GTP-5就不是一个大模型，而我个人感觉就可以把它看成是一个Multi-agent system,虽然GTP-5号称有个自动路由器啥的。

“GPT-5 是一个统一的系统，具有智能快速的模型，可以回答大多数问题，更深入推理模型，以及快速决定哪个模型的实时路由器根据对话类型、复杂性、工具需求和显式意图使用（例如，如果在提示中说“仔细考虑一下”）。路由器在真实信号上持续训练，包括用户切换模型的时间、响应的偏好率和测量的正确性，随着时间的推移而改善。一旦达到使用限制，每个模型的迷你版本都会处理剩余查询。在不久的将来，我们计划将这些功能集成到一个模型中。” 摘取自《GPT5 System Card》

好吧，言归正传，如下是我看完Anthropic这篇文章后的摘录和总结，分享给大家，尤其是正在搞或者计划搞多智能体研究系统的同学们，多多留言一起讨论学习

。

1. 什么是多智能体研究系统

智能体系统由多个智能体（LLM 在循环中自主使用工具）协同工作组成。我们的研究功能涉及一个智能体，该智能体根据用户查询规划研究过程，然后使用工具创建同时搜索信息的并行智能体。具有多个智能体的系统在智能体协调、评估和可靠性方面带来了新的挑战。其核心就在于：研究任务通常是开放式的，难以预先确定步骤，具有动态性和路径依赖性。单一智能体受限于上下文窗口和顺序处理能力，无法高效应对复杂查询。

2.什么是多智能体系统的优势

首先，调研工作涉及到的往往是一些开放式的问题，且事先很难预料必须的步骤。你无法对探索复杂主题的固定路径进行硬编码，因为该过程本质上是动态的且依赖于路径。当人们进行研究时，他们倾向于根据发现不断更新他们的方法，跟踪调查过程中出现的线索。随着调查的展开，研究需要灵活地调整或探索切线联系。该模型必须自主运行多个回合，根据中间发现决定追求哪个方向。线性的一次性管道无法处理这些任务。这种不可预测性使得人工智能智能体特别适合研究任务。

搜索的本质是压缩,即从庞大的语料库中提炼见解。子智能体通过并行操作它们自己的上下文窗口，在为主研究智能体凝聚最重要的信息之前，同时探求问题的不同方面，来促进压缩。每个子智能体还提供关注点分离（不同的工具、提示词和探索轨迹），从而减少路径依赖性并实现彻底、独立的调查。一旦智能达到阈值，多智能体系统就成为扩展性能的重要方式。例如，尽管个体人类在过去的10万年里变得更加聪明，但由于我们的集体智慧和协调能力，人类社会在信息时代的能力成倍增加。Anthropic发现，在他们的内部研究评估中，以 Claude Opus 4 为主智能体和 Claude Sonnet 4 子智能体的多智能体系统的性能比单智能体 Claude Opus 4 高出 90.2%。

3.什么是多智能体系统的劣势

在实践中，这些架构会快速销毁Token。在我们的数据中，智能体通常比聊天交互多使用约4× 个token，多智能体系统比聊天多使用约 15× 个Token。一些要求所有智能体共享相同上下文或涉及智能体之间许多依赖关系的域不适合当今的多智能体系统。例如，大多数编码任务涉及的真正可并行化任务比研究少，而且 LLM 智能体还不擅长实时协调和委派给其他智能体。我们发现，多智能体系统擅长处理涉及大量并行化、超出单个上下文窗口的信息以及与众多复杂工具交互的任务。

4.系统架构：编排者-工作者模式

核心设计
：系统采用“编排者-工作者”（orchestrator-worker）模式：

Lead Agent（领导智能体）
：使用Claude Opus 4，负责分析用户查询、制定研究策略，并生成专门的子智能体（Subagents，通常为Claude Sonnet 4）以并行探索查询的不同方面。
Subagents（子智能体）
：每个子智能体拥有独立上下文窗口，专注于特定子任务（如搜索、数据分析），并将结果返回给领导智能体进行整合。
CitationAgent（引用智能体）
：专门处理信息归属，确保所有声明可追溯到来源，提升研究可信度。

动态搜索
：与传统的检索增强生成（RAG）不同，系统支持动态调整研究路径，根据新发现迭代优化，而非依赖静态数据检索。

扩展思维&交错思维
：扩展思维(Extended Thinking):是指Claude在生成回答之前，通过更长时间的内部推理过程来分析问题，逐步分解复杂任务，探索多种可能性，并整合信息以生成更准确、全面的回答。这种机制类似于人类在面对复杂问题时进行“深度思考”的过程。
: 交错思维(Interleaved Thinking)是指Claude在生成回答的过程中，将推理步骤与输出内容交织在一起，边思考边生成答案。这种方式更接近于“边说边想”的对话模式，允许模型在输出过程中动态调整推理方向。

5.关键技术与挑战

提示工程（Prompt Engineering）

智能体思维模拟
：通过模拟智能体行为优化提示，解决如生成过多子智能体或重复搜索的问题。
任务分解与协调
：领导智能体需提供明确的子任务描述，包括目标、输出格式和工具使用指导，避免工作重叠或遗漏。
努力程度匹配
：通过嵌入缩放规则，系统根据查询复杂性动态分配资源（例如，简单事实查询用1个智能体3-10次工具调用，复杂研究可能用10+子智能体）。

工具设计
：工具（如网页搜索、API调用）需清晰定义用途和接口，智能体通过启发式规则选择合适工具。Anthropic甚至使用Claude模型优化工具描述，降低40%任务完成时间。
计算成本
：多智能体系统消耗大量令牌（token），约为普通聊天交互的15倍，仅适用于高价值任务以确保经济可行性。