免费POC,零成本试错

AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Anthropic分享如何构建多智能体研究系统

发布日期:2025-08-15 07:51:41 浏览次数: 1523
作者:峥嵘岁月AI

微信搜一搜,关注“峥嵘岁月AI”

推荐语

Anthropic揭秘多智能体系统构建之道,与GPT-5架构设计异曲同工,为AI研究提供新思路。

核心内容:
1. 多智能体系统的核心概念与架构设计
2. 相比单智能体的独特优势与应用场景
3. 实际研究中的挑战与解决方案

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
      Anthropic在其官网上六月中旬就发布了一篇关于他们是如何构建多智能体研究系统( multi-Agent research system)的文章。里面有智能体编排(Orchestration)以及子智能体(subagent)等多个概念,看完之后很受用,尤其是到了8月份,结合着前两天她的姐妹OpenAI(老美那边的大模型两姊妹)发布的GTP-5放一块想想,蛮映衬的。
      因GTP-5就不是一个大模型,而我个人感觉就可以把它看成是一个Multi-agent system,虽然GTP-5号称有个自动路由器啥的。
“GPT-5 是一个统一的系统,具有智能快速的模型,可以回答大多数问题,更深入推理模型,以及快速决定哪个模型的实时路由器根据对话类型、复杂性、工具需求和显式意图使用(例如,如果在提示中说“仔细考虑一下”)。路由器在真实信号上持续训练,包括用户切换模型的时间、响应的偏好率和测量的正确性,随着时间的推移而改善。一旦达到使用限制,每个模型的迷你版本都会处理剩余查询。在不久的将来,我们计划将这些功能集成到一个模型中。” 摘取自《GPT5 System Card》
     好吧,言归正传,如下是我看完Anthropic这篇文章后的摘录和总结,分享给大家,尤其是正在搞或者计划搞多智能体研究系统的同学们,多多留言一起讨论学习
1. 什么是多智能体研究系统

     智能体系统由多个智能体(LLM 在循环中自主使用工具)协同工作组成。我们的研究功能涉及一个智能体,该智能体根据用户查询规划研究过程,然后使用工具创建同时搜索信息的并行智能体。具有多个智能体的系统在智能体协调、评估和可靠性方面带来了新的挑战。其核心就在于:研究任务通常是开放式的,难以预先确定步骤,具有动态性和路径依赖性。单一智能体受限于上下文窗口和顺序处理能力,无法高效应对复杂查询。

2.什么是多智能体系统的优势

     首先,调研工作涉及到的往往是一些开放式的问题,且事先很难预料必须的步骤。你无法对探索复杂主题的固定路径进行硬编码,因为该过程本质上是动态的且依赖于路径。当人们进行研究时,他们倾向于根据发现不断更新他们的方法,跟踪调查过程中出现的线索。随着调查的展开,研究需要灵活地调整或探索切线联系。该模型必须自主运行多个回合,根据中间发现决定追求哪个方向。线性的一次性管道无法处理这些任务。这种不可预测性使得人工智能智能体特别适合研究任务。

     搜索的本质是压缩,即从庞大的语料库中提炼见解。子智能体通过并行操作它们自己的上下文窗口,在为主研究智能体凝聚最重要的信息之前,同时探求问题的不同方面,来促进压缩。每个子智能体还提供关注点分离(不同的工具、提示词和探索轨迹),从而减少路径依赖性并实现彻底、独立的调查。一旦智能达到阈值,多智能体系统就成为扩展性能的重要方式。例如,尽管个体人类在过去的10万年里变得更加聪明,但由于我们的集体智慧和协调能力,人类社会在信息时代的能力成倍增加。Anthropic发现,在他们的内部研究评估中,以 Claude Opus 4 为主智能体和 Claude Sonnet 4 子智能体的多智能体系统的性能比单智能体 Claude Opus 4 高出 90.2%。

3.什么是多智能体系统的劣势

    在实践中,这些架构会快速销毁Token。在我们的数据中,智能体通常比聊天交互多使用约4× 个token,多智能体系统比聊天多使用约 15× 个Token。  一些要求所有智能体共享相同上下文或涉及智能体之间许多依赖关系的域不适合当今的多智能体系统。例如,大多数编码任务涉及的真正可并行化任务比研究少,而且 LLM 智能体还不擅长实时协调和委派给其他智能体。我们发现,多智能体系统擅长处理涉及大量并行化、超出单个上下文窗口的信息以及与众多复杂工具交互的任务。

4.系统架构:编排者-工作者模式

  • 核心设计
    :系统采用“编排者-工作者”(orchestrator-worker)模式:
    • Lead Agent(领导智能体)
      :使用Claude Opus 4,负责分析用户查询、制定研究策略,并生成专门的子智能体(Subagents,通常为Claude Sonnet 4)以并行探索查询的不同方面。
    • Subagents(子智能体)
      :每个子智能体拥有独立上下文窗口,专注于特定子任务(如搜索、数据分析),并将结果返回给领导智能体进行整合。
    • CitationAgent(引用智能体)
      :专门处理信息归属,确保所有声明可追溯到来源,提升研究可信度。
  • 动态搜索
    :与传统的检索增强生成(RAG)不同,系统支持动态调整研究路径,根据新发现迭代优化,而非依赖静态数据检索。
  • 扩展思维&交错思维

    扩展思维(Extended Thinking):是指Claude在生成回答之前,通过更长时间的内部推理过程来分析问题,逐步分解复杂任务,探索多种可能性,并整合信息以生成更准确、全面的回答。这种机制类似于人类在面对复杂问题时进行“深度思考”的过程。

    : 交错思维(Interleaved Thinking)是指Claude在生成回答的过程中,将推理步骤与输出内容交织在一起,边思考边生成答案。这种方式更接近于“边说边想”的对话模式,允许模型在输出过程中动态调整推理方向。


5.关键技术与挑战

  • 提示工程(Prompt Engineering)
    • 智能体思维模拟
      :通过模拟智能体行为优化提示,解决如生成过多子智能体或重复搜索的问题。
    • 任务分解与协调
      :领导智能体需提供明确的子任务描述,包括目标、输出格式和工具使用指导,避免工作重叠或遗漏。
    • 努力程度匹配
      :通过嵌入缩放规则,系统根据查询复杂性动态分配资源(例如,简单事实查询用1个智能体3-10次工具调用,复杂研究可能用10+子智能体)。
  • 工具设计
    :工具(如网页搜索、API调用)需清晰定义用途和接口,智能体通过启发式规则选择合适工具。Anthropic甚至使用Claude模型优化工具描述,降低40%任务完成时间。
  • 计算成本
    :多智能体系统消耗大量令牌(token),约为普通聊天交互的15倍,仅适用于高价值任务以确保经济可行性。

6.评估与生产部署

  • 评估方法
    • 小样本测试
      :早期开发中,20个代表性查询足以发现显著改进。
    • LLM-as-Judge
      :使用大型语言模型基于准确性、引用质量、完整性等标准评分。
    • 人工评估
      :捕捉自动化评估遗漏的边缘情况,如对SEO优化内容的过度依赖。
  • 生产挑战
    • 状态管理
      :智能体运行多轮,需通过内存系统(如Redis)保存上下文,防止超过200,000令牌限制时丢失信息。
    • 错误恢复
      :系统支持从错误点恢复,而非从头开始,结合重试逻辑和检查点机制。
    • 调试与观测
      :通过生产跟踪和智能体决策模式监控,解决非确定性行为带来的调试难题。
    • 渐进部署
      :采用“彩虹部署”逐步更新,避免中断运行中的智能体会话。


7.经验教训与未来展望

  • 经验教训
    • 多智能体系统适合需要并行探索、大量上下文和复杂工具交互的任务(如研究),但不适合高度依赖上下文共享的任务(如编码)。
    • 提示工程和工具设计与模型选择同等重要,需精确协调以避免低效或错误。
    • 人类监督和自动化评估结合是确保系统可靠性的关键。
  • 未来方向
    :Anthropic计划探索异步执行以进一步提升并行效率,但需解决更复杂的协调和状态管理问题


8.总结

     Anthropic的多智能体研究系统通过主智能体与子智能体的协作,突破了单智能体在复杂研究任务中的局限。其成功依赖于精心设计的架构、提示工程、工具集成和评估策略,但高计算成本使其更适合高价值任务。文章为开发类似系统提供了宝贵经验,强调协调、动态适应和可靠性在多智能体AI中的重要性。


参考资料:

1. Anthropic: How to build our Multi-agent research system

https://www.anthropic.com/engineering/multi-agent-research-system

2. OpenAI: GPT5 System Card

https://openai.com/index/gpt-5-system-card/

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询