我要投稿

一文带你了解大模型——智能体（Agent）

发布日期：2024-05-28 18:09:01 浏览次数： 29422

作者：腾讯技术工程

微信搜一搜，关注“腾讯技术工程”

大语言模型 vs 人类

大语言模型很强大，就像人类的大脑一样拥有思考的能力。如果人类只有大脑，没有四肢，没有工具，是没办法与世界互动的。如果我们能给大模型配备上四肢和工具呢？大模型是不是就会打破次元壁，从数字世界走向现实世界，与现实世界实现梦幻联动呢？

大语言模型（后文将用 LLM 指代）可以接受输入，可以分析&推理、可以输出文字\代码\媒体。然而，其无法像人类一样，拥有规划思考能力、运用各种工具与物理世界互动，以及拥有人类的记忆能力。

LLM：接受输入、思考、输出
人类：LLM（接受输入、思考、输出）+ 记忆 + 工具 + 规划

如果我们给 LLM 配备上：与物理世界互动的工具、记忆能力、规划思考能力。LLM 是否就可以像人类一样，能够自主思考并规划完成任务的过程，能检索记忆，能使用各种工具提高效率，最终完成某个任务。

智能体是什么

智能体的英文是 Agent，AI 业界对智能体提出了各种定义。个人理解，智能体是一种通用问题解决器。从软件工程的角度看来，智能体是一种基于大语言模型的，具备规划思考能力、记忆能力、使用工具函数的能力，能自主完成给定任务的计算机程序。

图 1. 由 LLM 驱动的智能体系统

如图 1 所示，在基于 LLM 的智能体中，LLM 的充当着智能体的“大脑”的角色，同时还有 3 个关键部分：

规划（Planning） : 智能体会把大型任务分解为子任务，并规划执行任务的流程；智能体会对任务执行的过程进行思考和反思，从而决定是继续执行任务，或判断任务完结并终止运行。
记忆（Memory）: 短期记忆，是指在执行任务的过程中的上下文，会在子任务的执行过程产生和暂存，在任务完结后被清空。长期记忆是长时间保留的信息，一般是指外部知识库，通常用向量数据库来存储和检索。
工具使用（Tool use） 为智能体配备工具 API，比如：计算器、搜索工具、代码执行器、数据库查询工具等。有了这些工具 API，智能体就可以是物理世界交互，解决实际的问题。

智能体能做什么

相信看到这里，我们已经对智能体有了基本的认知。如果你还觉得智能体这个概念有点抽象，没关系，现在我们来点好玩的，一起来看看智能体能玩出什么花样？

智能体之调研员

调研员智能体，可以根据用户的调研问题，从搜索引擎上搜索资料并总结，然后生成调研报告。这里使用 MetaGPT 框架中的调研员示例来展示一个智能体的实际作用及其构成。

运行一下试试

输入调研课题：调研特斯拉 FSD 和华为 ADS 这两个自动驾驶系统

  ~ python3 -m metagpt.roles.researcher "特斯拉FSD vs 华为ADS"

智能体执行调研

（图左为冯·诺依曼；右为奥本海默；背后是世界上第一台冯·诺依曼架构的“现代”计算机）

输出调研报告metaGPT 生成并保存了调研报告

拆解调研员

调研员智能体构成

回到前文所说的，如果仅有 LLM 这个大脑，是无法完成整个调研流程的。在调研员智能体中，为 LLM 大脑配备了规划、工具、记忆的能力，使得他能独立完成调研任务，下面列出其基本构成，构成分三部分：角色、工具、记忆。在角色中，会注册各种工具，定义思考规划的方式，以及本身具备的短期记忆能力。

图解调研员智能体

智能体的关键构成

智能体如上图所示，在基于 LLM 的智能体中，LLM 的充当着智能体的“大脑”的角色，同时还有 3 个关键部分：规划（Planning）、记忆（Memory）、工具使用（Tool use）

规划（Planing）

规划，可以为理解观察和思考。如果用人类来类比，当我们接到一个任务，我们的思维模式可能会像下面这样:

我们首先会思考怎么完成这个任务。
然后我们会审视手头上所拥有的工具，以及如何使用这些工具高效地达成目的。
我们会把任务拆分成子任务（就像我们会使用 TAPD 做任务拆分）。
在执行任务的时候，我们会对执行过程进行反思和完善，吸取教训以完善未来的步骤
执行过程中思考任务何时可以终止

这是人类的规划能力，我们希望智能体也拥有这样的思维模式，因此可以通过 LLM 提示工程，为智能体赋予这样的思维模式。在智能体中，最重要的是让 LLM 具备这以下两个能力：

子任务分解

通过 LLM 使得智能体可以把大型任务分解为更小的、更可控的子任务，从而能够有效完成复杂的任务。

思维链（Chain of Thoughts, CoT）

思维链已经是一种比较标准的提示技术，能显著提升 LLM 完成复杂任务的效果。当我们对 LLM 这样要求「think step by step」，会发现 LLM 会把问题分解成多个步骤，一步一步思考和解决，能使得输出的结果更加准确。这是一种线性的思维方式。

思维链的 prompt 可以像是如下这样（这里只是一个极简的 prompt，实际会按需进行 prompt 调优）：

template="Answer the question: Q: {question}? Let's think step by step:"

思维树（Tree-of-thought, ToT）

对 CoT 的进一步扩展，在思维链的每一步，推理出多个分支，拓扑展开成一棵思维树。使用启发式方法评估每个推理分支对问题解决的贡献。选择搜索算法，使用广度优先搜索（BFS）或深度优先搜索（DFS）等算法来探索思维树，并进行前瞻和回溯。

反思和完善

智能体在执行任务过程中，通过 LLM 对完成的子任务进行反思，从错误中吸取教训，并完善未来的步骤，提高任务完成的质量。同时反思任务是否已经完成，并终止任务。

ReAct

（刚接触到这个单词时，脑子里冒出来的是「React 是由 Facebook 开源的一个进行创建用户界面的一款 JavaScript 库....」，打住，我们好像走错片场了，此 React 非彼 ReAct •﹏• ）

ReAct（Yao et al. 2023），《ReAct: Synergizing Reasoning and Acting in Language Models》这篇论文提出一种用于增强大型语言模型的方法，它通过结合推理（Reasoning）和行动（Acting）来增强推理和决策的效果。

推理（Reasoning）： LLM 基于「已有的知识」或「行动（Acting）后获取的知识」，推导出结论的过程。
行动（Acting）： LLM 根据实际情况，使用工具获取知识，或完成子任务得到阶段性的信息。

为什么结合推理和行动，就会有效增强 LLM 完成任务的能力？这个问题其实很好回答，我们用上面的「调研员智能体」举例，我提出了问题：「特斯拉 FSD 对比华为 ADS」，下面列出几种不同规划模式的推演：

仅推理（Reasoning Only）：LLM 仅仅基于已有的知识进行推理，生成答案回答这个问题。很显然，如果 LLM 本身不具备这些知识，可能会出现幻觉，胡乱回答一通。
仅行动（Acting Only）：大模型不加以推理，仅使用工具（比如搜索引擎）搜索这个问题，得出来的将会是海量的资料，不能直接回到这个问题。
推理+行动（Reasoning and Acting）：LLM 首先会基于已有的知识，并审视拥有的工具。当发现已有的知识不足以回答这个问题，则会调用工具，比如：搜索工具、生成报告等，然后得到新的信息，基于新的信息重复进行推理和行动，直到完成这个任务。其推理和行动的步骤会是如下这样：

推理1：当前知识不足以回答这个问题，要回答该问题，需要知道什么是「特斯拉FSD 」和「华为ADS」
行动1：使用搜索工具搜索「特斯拉FSD 」和「华为ADS」的资料
观察1：总结行动1的内容

推理2：基于行动1和观察1的信息，得知这是关于两个自动驾驶提供商的方案对比，基于已有的信息，现在需要生成报告
行动2：使用生成报告的工具，生成调研报告
观察2：任务完成

通过巧妙的 promt 提示设计，使得 LLM 重复地执行推理和行动，最终完成任务。ReAct 的 prompt 模版的大致思路为:

Thought（思考）: ...
Action（行动）: ...
Observation（观察）: ...

Thought（思考）: ...
Action（行动）: ...
Observation（观察）: ...

...(Repeated many times（重复多次）)

记忆（Memory）

记忆是什么？当我们在思考这个问题，其实人类的大脑已经在使用记忆。记忆是大脑存储、保留和回忆信息的能力。记忆可以分为不同的类型：

短期记忆（或工作记忆）：这是一种持续时间较短的记忆，能够暂时存储和处理有限数量的信息。例如，记住一个电话号码直到拨打完毕。
长期记忆：这是一种持续时间较长的记忆，可以存储大量信息，从几分钟到一生。长期记忆可以进一步分为显性记忆和隐性记忆。显性记忆，可以有意识地回忆和表达的信息，显性记忆又可以分为情景记忆（个人经历的具体事件）和语义记忆（一般知识和概念）。隐性记忆，这种记忆通常是无意识的，涉及技能和习惯，如骑自行车或打字。

仿照人类的记忆机制，智能体实现了两种记忆机制:

短期记忆：在当前任务执行过程中所产生的信息，比如某个工具或某个子任务执行的结果，会写入短期记忆中。记忆在当前任务过程中产生和暂存，在任务完结后被清空。
长期记忆：长期记忆是长时间保留的信息。一般是指外部知识库，通常用向量数据库来存储和检索。

工具使用（Tool use）

LLM 是数字世界中的程序，想要与现实世界互动、获取未知的知识，或是计算某个复杂的公式等，都离不开不工具。所以我们需要为智能体配备各种工具以及赋予它使用工具的能力。

工具是什么？它可以是锤子、螺丝刀，也可以是函数（function）、软件开发工具包（sdk）。工具是人类智慧的具象化，扩展我们的能力，提升工作效率。在智能体中，工具就是函数（Function），工具使用就是调用函数（Call Function）。

在 LLM 中实现函数调用，使用到 LLM 的这个能力:

Function Calling

Function Calling 是一种实现大型语言模型连接外部工具的机制。通过 API 调用 LLM 时，调用方可以描述函数，包括函数的功能描述、请求参数说明、响应参数说明，让 LLM 根据用户的输入，合适地选择调用哪个函数，同时理解用户的自然语言，并转换为调用函数的请求参数（通过 JSON 格式返回）。调用方使用 LLM 返回的函数名称和参数，调用函数并得到响应。最后，如果需求，把函数的响应传给 LLM，让 LLM 组织成自然语言回复用户。

function calling 具体工作流程如下图所示：

不同 LLM 的 API 接口协议会有所不同，下文将以OpenAI 的 API 协议为例，说明如何实现 Function Calling

函数描述

我们可以按照智能体的需要来实现函数，比如前文的「调研员」智能体，为其实现了这些函数：WebBrowseAndSummarize：浏览网页并总结网页内容；ConductResearch：生成调研报告等。如果是一个智能家居的智能体，可能会需要这些函数：开关灯、开光空调、获取环境信息等。函数的实现在这里不展开赘述，一个函数可以自行编码实现，也可以通过调用外部 API 实现。

假设你的函数已经被实现，我们需要向 LLM 描述这个函数，函数描述的必备要素：

函数名
函数的功能描述
函数的请求参数说明
函数的响应参数说明（可选）

「查询最近天气」的函数描述：

tools = [
{
        "type": "function",
        "function": {
            "name": "get_n_day_weather_forecast",
            "description": "获取最近n天的天气预报",
            "parameters": {
                "type": "object",
                "properties": {
                    "location": {
                        "type": "string",
                        "description": "城市或镇区 如：深圳市南山区",
                    },
                    "format": {
                        "type": "string",
                        "enum": ["celsius", "fahrenheit"],
                        "description": "要使用的温度单位，摄氏度 or 华氏度",
                    },
                    "num_days": {
                        "type": "integer",
                        "description": "预测天数",
                    }
                },
                "required": ["location", "format", "num_days"]
            },
        }
    }
]

调用 LLM 获得函数的请求参数

Function Calling 是通过请求 LLM 的 chat API 实现的，在支持 Function Calling 模型的 chat API 参数中，会有一个 functions 参数 (或 tools，不同 LLM 的参数会有所不同) ，通过传入这个参数，大模型则会知道拥有哪些参数可供使用。并且会根据用户的输入，推理出应该调用哪些函数，并将自然语言转成函数的请求参数，返回给请求方。下面以 OpenAI 的 SDK 举例：

from openai import OpenAI

def chat_completion_request(messages, tools=None, tool_choice=None, model="gpt-3.5-turbo"):
    try:
        response = client.chat.completions.create(
            model=model,
            messages=messages,
            tools=tools,
            tool_choice=tool_choice,
        )
        return response
    except Exception as e:
        print("Unable to generate ChatCompletion response")
        print(f"Exception: {e}")
        return e


if __name__ == "__main__":
    messages = []
    messages.append({"role": "system", "content": "不要假设将哪些值输入到函数中。如果用户请求不明确，请要求澄清"})
    messages.append({"role": "user", "content": "未来5天深圳南山区的天气怎么样"})
    chat_response = chat_completion_request(
        messages, tools=tools
    )

 tool_calls = chat_response.choices[0].message.tool_calls
 print("===回复===")
 print(tool_calls)

LLM 将会返回get_n_day_weather_forecast函数的调用参数:

===回复===
[ChatCompletionMessageToolCall(id='call_7qGdyUEWp34ihubinIUCTXyH', function=Function(arguments='{"location":"深圳市南山区","format":"celsius","num_days":5}', name='get_n_day_weather_forecast'), type='function')]

// 格式化看看：chat_response.choices[0].message.tool_calls:
[
  {
    "id": "call_7qGdyUEWp34ihubinIUCTXyH",
    "function": {
      "arguments": {
        "location": "深圳市南山区",
        "format": "celsius",
        "num_days": 5
      },
      "name": "get_n_day_weather_forecast"
    },
    "type": "function"
  }
]

调用函数

调用方获得 LLM 返回的函数调用信息（函数名称和调用参数）后，自行调用函数，并得到函数执行的响应。如果有需要，还可以把函数执行的响应追加到 chat API 的对话中传给 LLM，让 LLM 组织成自然语言回复用户。

# 执行函数
for tool_call in tool_calls:
    function = tool_call.function.name
    arguments_list = json.loads(tool_call.function.arguments)
    function_to_call = globals().get(function)
    result = function_to_call(**arguments_list)
    print("===" + function + "===")
    print(result)

    # 把函数调用结果加入到对话历史中
    messages.append(
        {
            "tool_call_id": tool_call.id,  # 用于标识函数调用的 ID
            "role": "user",
            "name": function,
            "content": "函数执行结果为:" + str(result)
        }
    )
# 函数执行结果传给LLM，组织成自然语言回复用户
chat_response = chat_completion_request(
    messages, tools=tools
)
print("===回复===")
print(chat_response.choices[0].message.content)

执行结果:

===get_n_day_weather_forecast===
[{'date': '2023-04-01', 'location': '深圳市南山区', 'temperature': '20°C', 'description': '晴朗'}, {'date': '2023-04-02', 'location': '深圳市南山区', 'temperature': '21°C', 'description': '多云'}, {'date': '2023-04-03', 'location': '深圳市南山区', 'temperature': '22°C', 'description': '晴朗'}, {'date': '2023-04-04', 'location': '深圳市南山区', 'temperature': '23°C', 'description': '多云'}, {'date': '2023-04-05', 'location': '深圳市南山区', 'temperature': '24°C', 'description': '晴朗'}]
===回复===
未来5天深圳南山区的天气情况如下：
- 4月1日：晴朗，温度20°C
- 4月2日：多云，温度21°C
- 4月3日：晴朗，温度22°C
- 4月4日：多云，温度23°C
- 4月5日：晴朗，温度24°C

请注意天气预报仅供参考，实际情况可能会有所变化。

智能体的开发框架

现在（2024 年 5 月）如果你想要开发一个 AI 智能体，已经比大模型爆发的初期方便太多了，随着 AI 应用需求的持续火热，智能体框架层出不穷。智能体开发框架，会抽象和封装那些被高频使用的模块，如记忆能力、规划能力、RAG 能力、大模型调用等。使用智能体框架，可让帮助你快速搭建智能体。

根据 awesome-ai-agents 的整理，无论是开源的还是闭源的，智能体应用框架在各个领域，比如自定义智能体、编码、研究、数据分析、多智能体等等，都有比较有代表性的产品可供选择。

上文曾使用到MetaGPT ，MetaGPT 是一个多智能体框架，多智能体框架可以帮你开发一个由多个不同职责的智能体组合起来的多智能体。举个例子，如果我们想开发一个多智能体软件团队，该软件团队可以根据用户需求交付代码，其内部会通过测试代码、评审代码来提升代码质量。该多智能体将包含：开发（coder）、测试（tester）、评审人（reviewer）这三个不同职责的智能体，他们各司其职，互相协作完成任务。下图的左侧是多智能体的协作流程，右侧是单智能体的工作流程。

展望

随着大模型的百花齐放，LLM 会支持更长的上下文、更大的参数规模，其推理能力也会愈发强大。因此，基于大模型搭建的智能体（AI Agent）的能力边界也在不断突破。通过智能体技术，我们可以创建各种各样的 AI 应用，比如：Copilot、DB-GPT 等等，一些 AI 应用已经成为工作生活中不可缺少的存在。相信 AI 应用的将会快速全面地重构我们曾经习以为常的软件形态和交互方式，以及提升人类的生产效率。