微信扫码
添加专属顾问
我要投稿
Anthropic分享构建高效智能体的核心经验:简单模式胜过复杂框架,灵活性与可预测性如何取舍? 核心内容: 1. 智能体与工作流的本质区别与适用场景 2. 开发框架的利弊分析与实用建议 3. 生产环境中的三大智能体系统模式解析
本文译自Anthropic发布的Building effective Agents(需要魔法)。在研究Agents的过程中将之与Google、OpenAI等关于Agent的文章一起进行比较,学习业界对Agents的不同定位。
在过去一年中,我们与数十个团队合作,在各行各业构建大型语言模型(LLM)智能体。我们发现,最成功的实现方案并非依赖复杂的框架或专用库,而是采用了简单、可组合的模式。
在这篇文章中,我们将分享我们从与客户合作以及自行构建智能体中学到的经验,并为开发者提供构建高效智能体的实用建议。
“智能体”一词有多种定义。有些客户将智能体定义为完全自主运行的系统,它们能在长时间内独立运作,并利用各种工具完成复杂任务。另一些客户则用该术语描述更具规范性的实现,它们遵循预定义的工作流。在 Anthropic,我们将所有这些变体都归类为智能体系统,但在架构上,我们对工作流和智能体进行了重要区分:
下文我们将详细探讨这两种智能体系统。在附录1(“实践中的智能体”)中,我们描述了客户在使用这些系统时发现特别有价值的两个领域。
在构建LLM应用时,我们建议寻找最简单的解决方案,并仅在必要时增加复杂性。这可能意味着根本不需要构建智能体系统。智能体系统通常以牺牲延迟和成本为代价,换取更好的任务性能,因此您应该考虑这种权衡何时是合理的。
当需要更多复杂性时,工作流为明确定义的任务提供了可预测性和一致性,而智能体则在需要灵活性和模型驱动的决策时是更好的选择。然而,对于许多应用来说,通常通过检索和上下文示例优化单次LLM调用就已足够。
有许多框架可以简化智能体系统的实现,包括:
这些框架通过简化调用LLM、定义和解析工具以及将调用串联起来等标准底层任务,使开发者能够轻松上手。然而,它们通常会创建额外的抽象层,这可能会模糊底层提示和响应,从而增加调试难度。它们还可能诱使您在简单的设置足以满足需求时增加不必要的复杂性。
我们建议开发者从直接使用LLM API开始:许多模式只需几行代码即可实现。如果您确实使用了框架,请确保您理解其底层代码。对底层机制的错误假设是导致客户出错的常见原因。
请参阅我们的指南以获取一些示例实现。
在本节中,我们将探讨我们在生产环境中常见的智能体系统模式。我们将从我们的基础构建块——增强型LLM开始,并逐步增加复杂性,从简单的组合工作流到自主智能体。
智能体系统的基本构建块是经过检索、工具和记忆等增强功能的LLM。我们目前的模型可以主动使用这些能力——生成自己的搜索查询、选择合适的工具以及决定保留哪些信息。
我们建议关注实现的两个关键方面:根据您的特定用例定制这些功能,并确保它们为您的LLM提供一个简单、文档完善的接口。虽然有多种方法可以实现这些增强功能,但其中一种方法是通过我们最近发布的模型上下文协议(MCP),它允许开发者通过简单的客户端实现与不断增长的第三方工具生态系统集成。
在本文的其余部分,我们将假设每次LLM调用都能够访问这些增强功能。
提示链将任务分解为一系列步骤,其中每次LLM调用都处理前一次调用的输出。您可以在任何中间步骤添加程序化检查(参见下图中的“门控”),以确保流程仍在正轨上。
何时使用此工作流: 此工作流非常适合任务可以轻松、清晰地分解为固定子任务的情况。主要目标是通过使每次LLM调用成为更简单的任务,以延迟换取更高的准确性。
提示链有用的示例:
路由对输入进行分类,并将其导向专门的后续任务。此工作流允许关注点分离,并构建更专业的提示。如果没有此工作流,优化一种输入可能会损害其他输入的性能。
何时使用此工作流: 路由适用于复杂的任务,其中存在需要单独处理的不同类别,并且分类可以由LLM或更传统的分类模型/算法准确处理。
路由有用的示例:
LLM有时可以同时处理一项任务,并以程序化方式聚合其输出。这种并行化工作流有两种主要变体:
何时使用此工作流: 当分解后的子任务可以并行化以提高速度,或者需要多角度或多次尝试以获得更高置信度的结果时,并行化是有效的。对于具有多重考虑的复杂任务,LLM在每次考虑都由单独的LLM调用处理时通常表现更好,从而可以集中精力处理每个特定方面。
并行化有用的示例:
在编排器-工作器工作流中,一个中央LLM动态地分解任务,将其委派给工作器LLM,并综合它们的结果。
何时使用此工作流: 此工作流非常适合复杂的任务,其中您无法预测所需的子任务数量(例如,在编码中,需要更改的文件数量以及每个文件中更改的性质可能取决于任务)。尽管它在拓扑上相似,但与并行化的关键区别在于其灵活性——子任务不是预定义的,而是由编排器根据特定输入确定的。
编排器-工作器有用的示例:
在评估器-优化器工作流中,一个LLM调用生成响应,而另一个LLM调用在循环中提供评估和反馈。
何时使用此工作流: 当我们有明确的评估标准,并且迭代优化能带来可衡量的价值时,此工作流尤其有效。适合此工作流的两个迹象是:首先,当人类明确表达反馈时,LLM的响应可以显著提升;其次,LLM能够提供此类反馈。这类似于人类作者在撰写精良文档时可能经历的迭代写作过程。
评估器-优化器有用的示例:
随着LLM在理解复杂输入、进行推理和规划、可靠使用工具以及从错误中恢复等关键能力上日趋成熟,智能体正在生产环境中崭露头角。智能体通过人类用户的命令或互动讨论开始工作。一旦任务明确,智能体便独立规划和操作,并可能返回给人类以获取更多信息或判断。在执行过程中,智能体在每一步(例如工具调用结果或代码执行)从环境中获取“真实情况”以评估其进展至关重要。智能体随后可以在检查点或遇到障碍时暂停以获取人类反馈。任务通常在完成后终止,但通常也会包含停止条件(例如最大迭代次数)以保持控制。
智能体可以处理复杂的任务,但其实现通常很简单。它们通常只是LLM在循环中根据环境反馈使用工具。因此,清晰周到地设计工具集及其文档至关重要。我们在附录2(“提示工程您的工具”)中详细阐述了工具开发的最佳实践。
何时使用智能体: 智能体可用于开放式问题,其中难以或不可能预测所需的步骤数量,并且您无法硬编码固定路径。LLM可能会运行许多轮次,您必须对其决策能力有一定程度的信任。智能体的自主性使其成为在受信任环境中扩展任务的理想选择。
智能体的自主性意味着更高的成本以及累积错误的潜力。我们建议在沙盒环境中进行广泛测试,并设置适当的护栏。
智能体有用的示例:
以下示例来自我们自己的实现:
这些构建块并非规定性的。它们是开发者可以根据不同用例进行塑造和组合的常见模式。成功的关键,与任何LLM功能一样,在于衡量性能并迭代实现。重申一遍:您应该仅在它能显著改善结果时才考虑增加复杂性。
在LLM领域取得成功并非在于构建最复杂的系统,而在于构建最适合您需求的系统。从简单的提示开始,通过全面的评估进行优化,并仅在更简单的解决方案不足时才添加多步骤的智能体系统。
在实现智能体时,我们尝试遵循三个核心原则:
框架可以帮助您快速入门,但当您转向生产环境时,请不要犹豫减少抽象层并使用基本组件进行构建。通过遵循这些原则,您可以创建不仅强大而且可靠、可维护并受到用户信任的智能体。
由 Erik Schluntz 和 Barry Zhang 撰写。这项工作借鉴了我们在 Anthropic 构建智能体的经验以及客户分享的宝贵见解,对此我们深表感谢。
我们与客户的合作揭示了AI智能体两个特别有前景的应用,它们展示了上述模式的实际价值。这两个应用都说明了智能体如何为需要对话和行动、有明确成功标准、支持反馈循环并整合有意义的人工监督的任务带来最大价值。
客户支持将熟悉的聊天机器人界面与通过工具集成增强的功能相结合。这非常适合更开放的智能体,因为:
几家公司通过基于使用量的定价模式(仅对成功解决的问题收费)证明了这种方法的可行性,显示出他们对智能体有效性的信心。
软件开发领域已显示出LLM功能的巨大潜力,其能力从代码补全发展到自主问题解决。智能体尤其有效,因为:
在我们自己的实现中,智能体现在可以仅根据拉取请求描述解决 SWE-bench Verified 基准测试中的真实 GitHub 问题。然而,尽管自动化测试有助于验证功能,但人工审查对于确保解决方案符合更广泛的系统要求仍然至关重要。
无论您正在构建哪种智能体系统,工具都可能是您智能体的重要组成部分。工具通过在我们的API中指定其确切结构和定义,使Claude能够与外部服务和API交互。当Claude响应时,如果它计划调用工具,它将在API响应中包含一个工具使用块。工具定义和规范应像您的整体提示一样,给予同等的提示工程关注。在这个简短的附录中,我们将描述如何对您的工具进行提示工程。
通常有几种方法可以指定相同的操作。例如,您可以通过编写差异(diff)来指定文件编辑,或者通过重写整个文件。对于结构化输出,您可以将代码放在Markdown中或JSON中。在软件工程中,这些差异是表面上的,可以无损地相互转换。然而,有些格式对于LLM来说比其他格式更难编写。编写差异需要知道在新代码写入之前,块头中有多少行正在更改。将代码写入JSON(与Markdown相比)需要对换行符和引号进行额外的转义。
我们对工具格式选择的建议如下:
一个经验法则是思考人机交互界面(HCI)需要投入多少精力,并计划在创建良好的智能体-计算机接口(ACI)上投入同样多的精力。以下是一些关于如何做到这一点的思考:
在为 SWE-bench 构建智能体时,我们实际上在优化工具上花费的时间比优化整体提示的时间更多。例如,我们发现当智能体移出根目录后,模型在使用相对文件路径的工具时会犯错。为了解决这个问题,我们将工具更改为始终要求绝对文件路径——我们发现模型完美地使用了这种方法。
请注意:原文中的一些链接可能需要魔法。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-07-09
Agent 框架协议“三部曲”:MCP、A2A、AG-UI
2025-07-09
AI科普:带你看懂AI大模型的“参数规模”与“激活参数”
2025-07-09
上下文为王:AI Agent架构的四大范式深度赏析与工程选型指南
2025-07-09
当操作系统遇见智能体,OS Agent和AgentOS驱动的人机交互变革及启示
2025-07-09
Grok 4要来了!!北京时间周四上午 11 点,马斯克宣布“重写人类知识库”!
2025-07-08
钉钉全新发布“AI表格”
2025-07-08
超150次提及“AI”!读懂Figma IPO背后的三大关键问题
2025-07-08
基于业务知识和代码库增强的大模型生成代码实践
2025-05-29
2025-04-11
2025-04-12
2025-04-29
2025-04-12
2025-04-29
2025-05-23
2025-05-07
2025-05-07
2025-05-07
2025-07-08
2025-07-07
2025-07-05
2025-07-04
2025-07-04
2025-07-03
2025-07-03
2025-07-02