我要投稿

选择一套“会思考”的架构：LLM 智能体推理与工作范式解析

发布日期：2025-09-29 18:56:43 浏览次数： 1895

作者：AI先锋洞察

微信搜一搜，关注“AI先锋洞察”

国发〔2025〕11号文《国务院关于深入实施“人工智能+”行动的意见》一经颁布，全国上下热议不断，文件提出，到2027年率先实现人工智能与6大重点领域广泛深度融合，新一代智能终端、智能体等应用普及率超70%。这既是国家的重大战略，也是千行百业即要经历的变革挑战和发展机遇。AI智能体作为这一变革的关键载体，如何更好的构建智能体内部推理架构，规范智能体工作范式，直接影响智能体的工作效率和输出质量，也将成为行业智能化改造成效的关键。

1、引言

基于大型语言模型（LLMs）的智能体系统在各种自动化任务上展现出接近人类的表现。然而，尽管这些智能体系统都使用了LLM ，但不同智能体系统推理框架不同，其引导和组织推理过程也将形态各异，进而直接影响最终的推理效果。通过对现有不同场景下智能体推理架构的调查研究，比较这些架构在不同场景下如何主导推理过程，总结智能体架构特征与场景需求的匹配规律，将有助于在不同场景下选择合适的智能体架构。

2 智能体推理方法框架

这里“智能体”被定义为“通过传感器感知环境并通过执行器对环境采取行动的系统”。它能够动态适应其环境并采取相应行动，有机地集成了规划、记忆和工具使用等关键模块，将 LLM 重塑为能够感知环境、动态适应并持续采取行动的任务执行者。智能体这种垂直扩展、水平扩展或逻辑回溯的工作范式，在可靠性和任务复杂性方面都从根本上超越了传统 LLMs的单步推理能力。

图1 智能体推理方法分类框架

我们将智能体推理方法划分为三类：单智能体方法(Single-Agent Methods)、基于工具的方法(Tool-based Methods)和多智能体方法(Multi-agent Methods)，如图1。单智能体方法专注于增强单个智能体的推理能力；基于工具的方法通过外部工具扩展代理的推理边界；多智能体方法则通过多种组织与交互范式在多个智能体之间实现更灵活的推理。

接下来将逐一介绍这三类方法。

3 单智能体推理方法

单智能体方法着重于提升单个智能体的认知和决策能力。从外部引导和内部优化的角度出发，单智能体推理方法分为两大类：提示词工程和自我改进。提示工程通过利用角色、环境、任务和示例来引导智能体的推理过程，而自我改进则关注智能体如何通过反思、迭代和交互来完善其推理策略。

3.1 提示词工程

提示词工程(Prompt Engineering)通过丰富其初始上下文来提升智能体的性能，这对应于上下文初始化步骤。这种方法不仅依赖用户的查询，而且通过精心设计的提示𝑃来增强初始上下文。

提示词通常由多个组件构成：角色扮演、环境模拟、详细任务澄清以及一组上下文示例，如图2所示。与改变 LLM 参数的微调方法不同，提示词工程非侵入性地引导模型行为，将代理引向更准确和可预测的推理结果。每个组件都以独特的方式贡献这种引导。

图2 单智能体推理之提示词工程

（1）角色扮演（Role-playing）

为了培养角色扮演的视角，提示将特定的角色或身份分配给智能体，例如“你是一位专家数据科学家”或“扮演一位经验丰富的历史学家”。这鼓励智能体利用与该角色相关的专业知识、认知框架和语言风格。通过采用角色设定，模型在推理过程中能更好地激活特定领域的知识，并从更专业的角度来组织其回答。由于部署成本低、指导效率高，这种技术已成代理框架中广泛采用的方法。通过分配清晰的角色，它使智能体能够更好地专注于其特定职责，从而优化其在复杂任务中的推理和决策过程。然而，角色分配的效率可能对角色设计的粒度和任务的细节敏感。此外，对于基于事实的问题，角色扮演可能会引入与角色固有的偏见，可能导致事实性不准确的输出。

（2）环境模拟(Environment-simulation)

通过描述智能体运行的具体环境来对其进行情境化。这提供了与任务相关的背景信息、规则和约束，使智能体能够做出与模拟世界更一致的决策。这些环境可以从模仿现实场景，如股票市场或医疗诊所，到完全虚拟的设置，通常具有精心设计的动作空间。详细且与任务相关的环境描述至关重要，因为它提示智能体生成与情境相符且高度关联于场景目标的行为。

（3）任务描述(Task-Discription)

一个清晰的任务描述概述主要目标、约束条件和预期输出格式，是几乎所有智能体系统的基石。结构良好的任务描述指导智能体将复杂问题分解为一系列可管理的子任务。通过提供精确的描述，智能体能更好地理解任务的意图并按指定方式执行，这有效地减少了推理过程中的模糊性，并带来更准确的结果。然而，任务描述的冗长性和结构会显著影响底层 LLM 的性能，通常需要针对所使用的特定模型进行仔细优化。

（4）情境学习(In-context Learning)

情境学习在提示中为智能体提供一组少样本示例，或称为演示。由一个示例输入及其对应的期望输出组成。这使得智能体能够在无需梯度更新的情况下识别模式并泛化到新的任务实例。思维链提示进一步提供了一种范式，即中间推理步骤也可以被引入智能体，教智能体如何推理、规划和分解问题，而无需内部调优。然而，情境学习的性能对所提供示例的质量和相关性高度敏感；低质量或不相关的演示会显著降低智能体的推理能力。

3.2 自我改进

自我改进(Self-improvement)机制鼓励智能体通过内省和自主学习来增强其推理能力。这些方法不依赖于静态、预定义的提示，而是使智能体能够根据自身经验动态调整其策略。如图3所示，这种内部优化过程可以通过三种互补的范式来理解：反思，涉及从过去的轨迹中学习；迭代优化，专注于在单个推理周期内改进输出；以及交互式学习，允许根据环境反馈动态调整高级目标。

图3 单智能体推理之自我改进模式

（1）反思(Reflection)

智能体分析已完成的工作记录以生成文本摘要，并将其存储在其上下文中。反思使智能体能够对其过去的行动和结果进行事后分析，以提取对未来任务有价值的经验教训。这种能力使智能体能够从错误中学习，并持续调整其策略，而无需外部干预或参数更新。

（2）迭代优化(Iterative Optimization)

在单个任务中，智能体生成初始输出，将其与定义的标准或他人的反馈进行比较，并在后续推理步骤中反复改进它，直到满足标准或约束。与反思性质不同，迭代优化利用整个推理过程来完成预定义的标准或约束。

（3）交互式学习(Interactive Learning)

交互式学习代表自我改进的最高水平，允许智能体在与动态环境持续交互的基础上，从根本上改变其高级目标。这种范式超越了优化固定计划，使智能体能够在战略层面决定下一步该做什么。

4 基于工具的智能体推理方法

基于工具的智能体推理流程分解为三个基本阶段：工具集成(Tool Integration)、工具选择(Tool Selection)和工具利用(Tool Utilization)。这三个步骤共同构成了基于工具的复杂多步推理方法，帮助智能体更好地利用外部资源解决复杂推理问题。

图4 基于工具的智能体推理框架

4.1 工具集成

解决如何将工具集成到智能体推理过程中。在智能体选择并使用一个工具之前，该工具必须首先在智能体的操作环境中变得可访问。这种架构集成定义了智能体与工具之间的接口和通信协议。集成模式主要分为三种：基于 API 的集成、基于插件的集成和基于中间件的集成。API能够使智能体轻松地与各种工具交互，而无需理解其内部实现；插件动态扩展智能体系统的功能；而中间件则专注于协调智能体与工具之间的交互。

检索增强生成（RAG）是基于插件集成的典型案例。一个向量数据库直接集成到代理系统中，以工具调用的形式向代理引入特定领域的知识，从而提高其答案的可信度。

4.2 工具选择

与在每个推理步骤中普遍使用工具𝑡不同，强调在推理步骤中选择工具的重要性。当智能体面对一个庞大且多样的工具集时，有效的工具选择至关重要。挑战在于准确地将给定问题的需求映射到工具集中的特定工具𝑡。根据智能体的自主程度，我们将工具选择策略分为三种主要方法。

（1）自主选择（Autonomous Selection）

这种范式突出了智能体系统的自主性。智能体根据其内在的推理能力自主选择工具，仅受可用工具的自然语言描述和输入查询的指导。这个过程通常被框定为零样本推理任务，其中智能体必须“思考”将问题与正确的工具联系起来，而不依赖明确的规则。

（2）基于规则的选取(Rule-Based Selection)

这种方法通过一组预定义的显式规则来管理智能体的工具选取，这些规则将特定的任务、意图或状态映射到指定的工具。这些规则提供一种确定性和可靠的工具选择机制。基于规则选择的主要优点是它对定义明确的任务具有高可靠性。它确保代理在已知情况下始终使用正确的工具，从而最大限度地减少错误。然而，手动创建和维护一套全面的规则是费力的，并且随着工具数量和任务复杂性的增加，扩展性很差。它难以处理与任何现有规则都不匹配的意外问题，导致默认失败或回退到不同的选择机制。

（3）基于学习的选择(Learning-Based Selection)

在此语境中，基于学习的选择指的是一个显式、在线的过程，智能体在推理过程中完善其工具选择策略。这种适应通过行动、反馈和反思的循环发生，从而改进其并发工具操作。如图4所示，智能体尝试一个工具执行任务，接收关于其表现（例如，来自执行结果或人类指导）的反馈，然后明确反思这一结果以更新其上下文用于后续步骤。这个反思步骤允许智能体通过存储成功的工具-任务配对经验或生成明确的策略来避免重复过去的错误，从而从其自身环境中学习。这种方法使智能体能够在无需重新训练模型的情况下适应新的场景和用户偏好。通过基于文档合成智能体-环境交互轨迹，并通过总结或抽象交互历史来构建指令，实现了交互式学习。但这需要良好的反馈逻辑，并且这种探索过程可能是有成本的。

4.3 工具利用

工具利用分为三种模式：顺序使用、并行使用和迭代使用。顺序使用涉及按预定顺序调用多个工具，并行使用侧重于同一推理步骤中工具调用的广度，而迭代使用旨在通过重复循环在特定限制内实现最优任务解决方案。

（1）顺序使用(Sequential Utilization)

在这种模式下，智能体按顺序调用工具，其中一个工具的输出通常作为下一个工具的输入，形成清晰的工具链。这适用于可以分解为线性工作流的任务。工具调用的结果被集成到当前上下文中，影响下一次调用。

（2）并行利用(Parallel Utilization)

为了提高效率，这种模式涉及在单个推理步骤中同时调用多个工具。智能体同时调用多个工具以实现多维信息的同步处理。

（3）迭代利用(Iterative Utilization)

迭代利用涉及一个微观层面的循环，其中智能体在更广泛的推理过程的一个步骤内反复与工具交互以实现细粒度目标。

5 多智能体推理方法

尽管单智能体框架展现出相当的能力，但在面对需要多样化专业知识或复杂问题分解的任务时，它们本质上会面临局限性。多智能体系统（MAS）作为一种自然解决方案出现，利用多个智能体的集体智慧来应对这些挑战。MAS 的核心原则是“分而治之”，但其核心挑战在于实现有效协调。这一挑战分为两个基本问题：①智能体应该如何组织？这涉及到系统的组织架构，它规定了控制和信息流动的模式。②智能体应该如何与其他智能体互动？这关系到个体互动协议，它定义了智能体如何协调其目标和行为。因此多智能体推理框架包括两部分问题，一是组织架构。包括集中式、分布式和层次式形式，这些形式决定了系统的结构骨干；二是交互协议，涉及合作、竞争和协商，这些交互管理智能体在追求其目标时的动态关系。

5.1 组织架构

组织架构(Organizational architectures)定义了协调和控制的大结构，这通常通过为每个智能体分配特定角色来实现。

图5 多智能体推理框架分类

（1）集中式(Centralized)

一般来说，集中式架构设置一个中央代理来管理和协调其他代理的推理活动。这个中央代理通常执行全局规划、任务分解和结果合成，需要处理所有其他代理的输出。从属代理可能只需要考虑管理员的指令，从而简化了它们的上下文更新。这种架构确保了高度协调和全局优化。但它引入了潜在的性能瓶颈和中央节点的单点故障。

（2）去中心化(Decentralized)

在去中心化架构中，不存在中央权威，每个智能体拥有平等地位，并基于本地信息和直接的点对点通信做出决策。每个智能体必须处理其所有邻居的输出，或在全连接系统中处理所有其他智能体的输出。这种类似讨论的过程促进了涌现式协作，增强了系统的鲁棒性和容错能力，一个智能体的故障不会使整个系统瘫痪，但这可能会降低资源利用的整体效率。

（3）分层(Hierarchical)

分层架构将智能体组织成一个结构化的树状或金字塔结构，将复杂任务分解为不同抽象层次上的子问题。如 MetaGPT 所示，高层智能体负责战略规划，并将任务委托给低层智能体，低层智能体执行更具体的子任务。信息通常垂直流动：指令从上层向下层传递，结果则向上层反馈。这种结构擅长解决可以清晰分解的明确问题，从而提高效率和一致性。然而，这种架构可能过于僵化，可能会限制智能体的灵活性和创造力。

5.2 交互协议

交互协议（Individual Interaction）规定了智能体的目标如何响应其它智能体演变，也直接影响系统涌现行为，并且允许目标动态更新。我们进一步将这些交互分类为合作、竞争和协商。合作强调最大化集体利益，竞争专注于最大化个体利益，而协商则代表两者之间的妥协。这三种不同的范式也可以进一步组合以实现特定的推理目标。

（1）合作(Cooperation)

在合作机制中，智能体的主要目标是最大化集体利益，建立一个共同目标来指导知识共享和协作规划。这个目标可以在系统提示中预定义，或在不同的推理步骤中动态形成。个体智能体目标的实现往往能促进其他智能体及整个系统的目标。

（2）竞争(Competition)

在竞争性交互中，智能体追求个体目标，这些目标往往相互冲突。目标是最大化个体利益，这可能涉及超越对手或策略性地削弱对手。智能体不仅要推进自己的议程，还要根据可观察的输出推断并对抗他人的意图。因此，目标更新过程将变得对抗性。

（3）谈判(Negotiation)

谈判是一种平衡合作与竞争的混合交互。它使具有冲突利益的智能体通过沟通和妥协达成相互可接受的共识。在谈判过程中，智能体交换提议，并根据共同目标以及其他智能体的提议，迭代地调整其目标，这个过程迫使智能体权衡自身的目标与集体约束以及其他智能体的观点，利用多个“裁判”智能体之间的类似协商式辩论，自主评估人工智能生成文本的质量，得出与人类一致的判断。这种方法特别适用于没有唯一正确答案，而是一系列可接受解决方案的复杂决策任务。

6 结论

智能体推理框架在理论和应用方面都取得了显著进展。然而，实现真正通用、可靠且高效的智能体系统的道路仍充满挑战。通过梳理智能体推理框架和工作模式，可以促进智能体技术标准化和规范性，后续可进一步发掘不同智能体推理架构和应用场景之间的关联匹配特征，从而更好的指导人工智能在不同行业场景下的应用和推广，具有重要意义和价值。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业