支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


一文详解Agent的工作原理

发布日期:2025-05-17 05:04:24 浏览次数: 1530 作者:CodeIsPower
推荐语

深入了解Agent如何智能地与环境互动。

核心内容:
1. Agent的定义与核心特性
2. 提示词在Agent工作流程中的关键作用
3. LLM大模型和Memory知识库的应用与影响

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

    Agent,也叫做“代理”或“智能体”,是一种能够在特定环境中感知环境、自主规划、做出决策、独立行动并与其他Agent或人类进行交互的计算机程序或实体。他们常常具备自主性、反应性、社交性和适应性等特点,能够根据环境的变化调整自己的行为,以达到预设的目标。

典型的Agent工作流程

关键步骤一:Prompt提示词【圈定角色范围、阐述任务背景、习惯特色】

提示词是Agent接收到的初始输入,它描述了Agent需要完成的任务或解决的问题。提示词可以是文本、图像、语音等多种形式。Agent需要对提示词进行解析和理解,以便为后续的任务规划和行动执行提供指导。

智能体的提示词要统一:对话涉及到发展平台的生态供应方,包括行业规范、背景知识和智能体的提示词。提示词包括上下文和指令,需要注意清晰表达需求、统一称谓代词和避免行业黑话。

(1)通用指令构成

    • Context 上下文:说明想让大模型执行任务的背景

    • Instruction 指令:说明你想让模型执行什么任务

    • Input Data 输入数据:说明用户要输入什么内容

    • Outpt Indicator 输出提示:规定输出结果内容(说清想要+不想要)

(2)Tips

    • 减少模糊表达,明确提出你的需求

    • 指令中的成为代词要统一,不要反复切换,可能会造成AI大模型理解混乱

    • 指令中尽可能不要体现行业黑话,可能会造成AI大模型理解障碍


总结:提示词写得好不好直接影响处理结果
最简单的指令公式: 你想让智能体扮演的角色+希望TA根据用户什么样输入信息来生成什么样的结果+对助手所生成的内容的详细要求
示例
你是一名资深导游。我的目的地以及预计游玩时间是xxxx,你需要根据我提供目的地和预计游玩时间,给我提参观建议,为我制定旅行计划。你所制定的旅行计划必须具有可行性,不能行程太过紧凑,要考虑通行时间。
(可将用户输入内容,带入通配符位置,形成完整的一段命令,发送给模型请求结果)
  关键步骤二:LLM大模型【理解、提取、识别、选择】

LLM大模型(Large Language Model)是Agent进行任务规划和知识推理的重要工具。它通过对大量文本数据的学习,具备了强大的语言处理能力和知识推理能力。Agent可以利用LLM大模型对提示词进行深入分析,生成可能的解决方案,并进行选择和优化。

关键步骤三:Memory知识库【调用、匹配、当前输入内容、上下文内容、向量数据库】

分类
简述
感觉记忆
当前用户输入内容,包括文本、图像或其他形式,短暂保留感觉印象
短期记忆
上下文内容(包括写在Prompt中的信息),处理复杂任务的临时存储空间,受有限的上下文长度限制
长期记忆(字)
外部向量存储的知识库,Agent使用时可快速检索,具备储量大的优点。以文本字段内容形式存在
长期记忆(文)
外部向量存储的知识库文件,Agent使用时可快速检索,具备存储量大的优点,比如docx、xlxs、csv、pdf、ppt、jpg、txt等
长期记忆(网)
填写网页URL、自动检索网页信息,并将网页信息作为知识库

关键步骤四:Planning任务规划【分析方式、分析思考、推理痕迹】

任务规划是Agent根据提示词、LLM大模型以及知识库进行决策和规划的过程。它涉及对人物的分解、目标的设定、路径的规划等多个方面。Agent需要综合考虑各种因素,制定出最合适的任务执行方案。

方式技术
简述
Prompt提示词
任务的分解环节可以由三种方式完成:
1)在大模型输入简单的提示,比如“XYZ的步骤”,或者“实现XYZ的子目标是什么?”;
2)使用特定任务的指令,比如在需要写小说的时候要求大模型“写一个故事大纲”;
3)通过人工提供信息,网站地图/RPA流程最佳实践
CoT思维链
已成为一种标准的提示技术,用于提高模型在复杂任务中的表现。模型被要求“一步一步地思考”,将间距地任务分解为更小更简单地步骤。思维链将大人物转化为多个可管理的任务,并帮助人们理解模型的思维过程。
ToT思维链
通过在任务的每一步探索多种推理可能性来扩展思维链。它首先将问题分解为多个思考步骤,并在每个步骤中生成多个想法,从而创建一个树状结构。搜索过程可以是BFS(广度优先搜索)或DFS(深度优先搜索)

关键步骤五:Action工具使用【执行、返回、执行】

行动执行是Agent根据任务规划结果执行具体操作的过程。他可能涉及与环境的交互、数据的收集和处理、决策的调整等多个环节。Agent需要准确地执行每一步操作,以确保任务能够顺利完成。

方式技术
简述
内置工具
大模型内置工具,可直接使用,包括有:日历、计算器、代码解释器、搜索等
Plugin插件
用于扩展Agent功能的插件,可以通过Agent插件来实现一些特定的功能或者对Agent进行定制化的配置。Agent插件通常包括以下几个部分:
1、插件配置文件:用于配置插件的参数和属性,通常是一个XML或者JSON格式的文件。
2、插件类库:包含插件的代码和依赖库,通常是一个JAR或者DLL文件
3、插件接口:定义了插件与Agent之间的交互接口,包括插件的初始化、启动、停止等操作。
API接口
应用程序编程接口(API接口),是应用程序重要的组成部分,就是应用程序对外提供了一个操作数据的入口,这个入口可以是一个函数或类方法,也可以是一个url地址或者一个网络地址
RPA桌面自动化
是一种机器人流程自动化技术,它允许通过配置自动化软件模拟和人类在软件系统中交互的动作来执行业务流程,RPA软件机器人在应用程序界面上识别数据并像人类一样操纵应用程序。

    Agent的编排真的是需要不断地调试才行,周三去我们集团公司交流智能体,有个部门领导说,智能体的编排就是在不断完善那些场景,比如最开始只支持自然语言,后来场景需要加上了多模态,多模态又需要考虑多种类型的文件处理。这个过程就是一个填坑的过程,慢慢的智能体就会越来越“智能”。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询