我要投稿

Agentic AI设计模式

发布日期：2025-06-23 09:14:26 浏览次数： 2025

作者：架构小酒馆

微信搜一搜，关注“架构小酒馆”

💡 什么是 Agentic AI？

Agentic AI 利用 AI 技术，特别是大型语言模型（LLM），代表人类或系统进行推理、规划和行动，以自主完成任务。这些智能体可以执行一系列操作，例如代码审查、报告撰写、旅行规划和管理企业应用程序。一个关键特征是它们能够反思自身行为，评估结果，调整方法，并不断努力实现既定目标。它们不仅回答问题，还通过探索和完善来解决问题。

⚙️ Agentic AI 系统的核心组件

null 当前的智能体系统通常建立在四个核心组件之上，这些组件协同工作，使其能够理解复杂指令、制定执行计划、保持上下文连贯性并与外部系统交互：

•作为推理引擎的大型语言模型（LLM）：LLM 是核心智能，通过自然语言理解、推理、决策、应用世界知识和维护对话历史来驱动智能体的智能行为。•规划能力：这使得智能体能够分解复杂问题，设计解决方案路径，并以有组织的方式执行多步骤任务。ReAct（推理与行动）框架是一个常见的规划框架，它引导模型分解复杂问题，逐步推理并采取行动（如工具调用或信息检索），然后进行观察和进一步推理，形成一个闭环反馈机制。•记忆机制：这使智能体能够存储和检索过去的交互、知识和经验，以实现具有上下文感知能力的持续对话和长期学习。记忆可以是短期的（维护当前对话上下文，通常在内存或提示中）或长期的（存储超出单个会话的信息，通常在结构化数据库或用于语义搜索的向量数据库中）。检索增强生成（RAG）是一项关键技术，它将长期记忆与 LLM 相结合，以根据检索到的知识提供更准确、更详细的答案。•工具使用能力：这是一个关键特性，允许智能体与外部系统和资源交互，执行操作，并访问实时信息，超越了纯文本交互。工具可以从网络搜索和代码执行到与生产力工具的接口不等。

📚 智能体分类

可以根据智能体的交互模式和自主程度对其进行分类：

基于交互模式：

•单一智能体：一个由单个智能体处理所有任务处理、决策和外部交互的系统。它适用于特定领域、清晰且相对固定的任务步骤，以及需要快速响应而无需复杂协作的场景。•多智能体系统：由多个协作智能体组成，每个智能体负责不同的任务或领域，通常针对特定领域进行优化。这种方法通过分解复杂问题和允许并行工作来提高效率，尽管它可能会增加跟踪交互的成本和复杂性。

•

基于自主程度：

•Agentic 工作流：一个具有固定步骤序列的预定义系统，其中决策在预设框架内做出。它为明确定义的任务提供了可预测性和一致性，但对意外情况的适应性有限。•自主智能体：拥有高度自主权，能够根据高级目标和动态环境反馈进行自我规划、决策和执行复杂任务。这些智能体非常适合无法硬编码步骤数的开放式问题，并且需要对其决策有信任。

🎨 Agentic 设计模式

有几种常见的 AI Agentic 工作流设计模式，旨在通过多次提示 LLM 来提高输出质量。

•反思（评估者-优化者）：LLM 检查自己的输出以识别改进领域，提供关键反馈以迭代地完善其响应。这可能涉及自我反思或使用其他智能体/工具（如单元测试或网络搜索）进行评估。 null •工具使用（函数调用）：LLM 被授予访问外部函数或 API（例如，网络搜索、代码执行、生产力工具）的权限，以收集信息、采取行动或操作数据，从而极大地扩展其能力。 null •规划（协调者-工作者）：LLM 自主决定执行一个更大、更复杂任务的步骤序列，动态地将其分解为子任务并委派给专门的工作者。与路由不同，规划会生成一个多步骤计划。 null •多智能体协作：多个具有特定角色或专业知识的独立 AI 智能体共同努力实现一个共同目标，通常通过拆分任务和讨论想法。与单个智能体相比，这可以带来更好的解决方案。 null null •其他工作流模式：

•提示链：一个 LLM 调用的输出顺序地输入到下一个调用的输入中，将任务分解为固定的步骤序列。 null •路由：初始 LLM 对输入进行分类，并将其定向到专门的后续任务或 LLM，从而实现关注点分离和优化的下游任务。 null •并行化：一个任务被分解为由多个 LLM 同时处理的独立子任务，其输出被聚合，通过多样化的输出来提高速度或质量。 null

注意：反思和工具使用被认为是更可靠和成熟的模式，而规划和多智能体协作虽然功能强大，但可预测性较差，仍在发展中。

🛠️ Agentic AI 技术栈

Agentic AI 技术栈不同于标准的 LLM 应用，它包含几个关键组件：

•智能体框架：用于构建和管理智能体的软件框架（例如，LangChain、LangGraph、AutoGen、Crew AI），通过提供结构化方法来创建自主 AI 系统，从而简化开发。例如，LangGraph 允许通过智能体之间的“交接”来构建多智能体系统。•智能体托管：负责将智能体部署到本地服务器或云基础设施的层，使内部和外部系统能够方便、无缝地访问。•模型服务：将 LLM 从研究成果转化为实际应用的核心桥梁，通过推理引擎将 LLM 封装为可通过 API 访问的服务单元。•内存管理：集成各种内存技术，以允许智能体存储和检索过去的交互和知识。这包括：

•传统数据库（SQL/NoSQL）：用于结构化和半结构化数据，如用户配置文件或交互日志。•向量数据库：用于将信息存储为向量嵌入，从而实现基于概念相似性的语义搜索。•知识图谱：用于将知识表示为实体和关系，为知识表示和推理提供结构化框架。•混合内存系统：结合不同的内存技术以利用各自的优势。

•沙盒环境：旨在运行由智能体生成的不可信代码或限制智能体与系统资源交互的隔离、受控环境，以管理与智能体自主性相关的风险。

🚀 智能体技术扩展

•模型上下文协议（MCP）：一个开放标准（由 Anthropic 于 2024 年提出），旨在建立大型模型与数据存储系统、业务工具和开发环境之间的统一连接协议。它规范了通信，简化了集成，并有助于在工具和数据集之间保持上下文。•计算机使用技术：使 AI 能够像人类一样操作计算机，通过视觉理解屏幕内容并利用鼠标和键盘进行交互来执行复杂任务。•浏览器使用技术：专注于使 Agentic AI 能够有效地导航和与网络交互，浏览页面、填写表单和提取信息。Playwright 是一个开源自动化测试工具，为浏览器使用提供了基础设施。•Agent2Agent (A2A) 协议：一个开放标准（由 Google 于 2025 年设计），旨在实现不同智能体系统之间的通信和互操作性，允许智能体发现彼此的能力，协商交互模式，并协作完成任务。