免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


构建你的第一个 Agent 的基础知识

发布日期:2025-08-21 03:26:06 浏览次数: 1542
作者:Simon Wong 的非线性漫游

微信搜一搜,关注“Simon Wong 的非线性漫游”

推荐语

Agent 是未来软件开发的趋势,掌握构建智能体的基础知识将让你在AI时代脱颖而出。

核心内容:
1. Agent 的核心特点与适用场景
2. 构建 Agent 的三个基础组件(模型、工具、指令)
3. 优化 Agent 性能与成本的实用建议

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

 

引言

与那些只能按既定流程执行工作的传统软件不同,Agent 能够在复杂、多变的情况下独立思考和决策
这篇文章是一份如何构建智能体(Agent)的基础知识,了解如何开始构建你的第一个 Agent。

什么是 Agent?

Agent 是能代表用户(做决策)独立完成任务的系统。传统软件通常是基于预设的操作流程,而 Agent 是体现于执行过程中进行判断、做出决策,并根据情况调整策略

它有两个核心特点:

  1. 1. 智能决策:利用LLM管理工作流执行,能够识别任务完成状态,在失败时主动纠正或移交控制权
  2. 2. 工具调用:可以访问各种外部系统工具,根据工作流状态动态选择合适的工具,始终在明确的护栏范围内操作

何时需要构建 Agent?

并非所有场景都适合使用 Agent。传统的确定性解决方案在许多情况下仍然是更好的选择。Agent主要适用于以下三类场景:

  1. 1. 复杂决策制定:需要细致判断、处理异常情况或上下文敏感决策的工作流,比如客服中的退款审批。
  2. 2. 难以维护的规则系统:由于规则集过于庞大和复杂,导致更新成本非常高或容易出错,比如不同类型的供应商有不同的账单格式,需要统一内部的格式。
  3. 3. 重度依赖非结构化数据:需要解释自然语言、从文档中提取含义或进行对话交互的场景,比如从特定文件中提取关键信息或者结构化数据。

在你决定要构建一个 Agent 之前,一定要确认你的应用场景确实符合这些场景。如果不符合,传统的确定性解决方案可能就足够了。

Agent 设计基础

一个最基础的 Agent 形态包含三个核心部分:

  1. 1. 模型:驱动 Agent 进行推理和决策的大语言模型(LLMs)。
  2. 2. 工具:Agent 可以用来执行动作的外部功能或 API。
  3. 3. 指令:定义 Agent 行为的明确指导和护栏。

选择模型

不同的模型在处理任务的复杂性、延迟和成本方面有各自的优缺点。在一个工作流里,可能需要根据不同任务使用不同的模型组合。不是所有任务都需要最聪明的模型。

一个比较好的做法是:

  1. 1. 先用能力最强的模型构建 Agent 原型,以此建立一个性能基线
  2. 2. 然后,尝试换用更小、更快的模型,看它们是否仍然能达到可接受的效果,以此优化成本和延迟

定义工具

工具通过调用底层应用或系统的 API 来扩展 Agent 的能力。通常有这三种类型的工具:

  1. 1. 数据:用于检索信息(如查询数据库、读取PDF文档)。
  2. 2. 行动:用于执行操作(如发送邮件、更新记录)。
  3. 3. 编排:Agent 本身也可以作为其他 Agent 的工具

每个工具都应该有一个标准化的定义,文档要清晰,经过充分测试,并且是可重用的。

配置指令

指令你可以理解为就是提示词。想要编写高质量的指令你通常可以:

  1. 1. 利用现有文档:用已有的操作流程、政策文件作为上下文
  2. 2. 分解任务:把复杂任务拆分成更小、更清晰的步骤一步一步执行。
  3. 3. 定义清晰的行动:确保每一步都对应一个具体的动作或输出。。
  4. 4. 覆盖边缘情况:像编程一样处理边缘情况,比如用户输入的内容不明确怎么办。

编排模式的选择

根据复杂程度的不同,可以选择不同的编排模式:

单 Agent 系统:一个 Agent 配备了所需的工具和指令,然后再循环中执行工作,直到满足条件推出循环。

多 Agent 系统:当逻辑非常复杂,包含了大量的条件分支、工具数量非常多可以考虑多 Agent 系统。

多 Agent 系统

多 Agent 系统就是将任务拆分,每个任务由一个 Agent 完成,这些 Agent 组成一个系统。有两种常见的模式:

  1. 1. 管理者模式:有一个中心的“管理者” Agent 和 N 个特定任务的 Agent,管理者 Agent 决策协调让哪个 Agent 执行任务。
  2. 2. 去中心化模式:多个 Agent 以平等身份相互交接任务。

构建安全护栏

就像开发软件需要考虑各种安全情况一样,Agent 也需要考虑安全问题。比如数据隐私风险(防止系统提示泄露)或声誉风险(强制执行符合品牌形象的模型行为)。有效的护栏应该采用多层防护机制。

常见的护栏类型:

  1. 1. 相关性分类器:确保 Agent 的响应在预定范围内。
  2. 2. 安全分类器:检测不安全的输入,如越狱或提示词注入(有点像防止 SQL 注入)。
  3. 3. PII 过滤器:防止不必要的个人身份信息 (PII) 泄露。
  4. 4. 内容审核:标记有害或不当的输入(如仇恨言论、骚扰、暴力)。
  5. 5. 工具安全防护:根据工具的读写权限、可逆性、所需权限和财务影响评估风险等级,对高风险操作触发人工审核。
  6. 6. 基于规则的保护:使用简单的确定性措施(如黑名单、输入长度限制、正则表达式过滤器)来阻止已知威胁。
  7. 7. 输出验证:通过提示工程和内容检查,确保 Agent 的响应符合品牌价值,防止输出损害品牌形象。

构建护栏的策略

  1. 1. 首先关注数据隐私和内容安全。
  2. 2. 根据遇到的真实世界的边缘案例和失败情况,添加新的护栏。
  3. 3. 随着 Agent 的发展,不断调整护栏,以优化安全性和用户体验。

规划人工干预

在两种情况下应该转交人工处理:

  1. 1. 超出失败阈值:为 Agent 的重试或操作次数设置限制。比如多次尝试后仍无法理解用户意图。
  2. 2. 高风险操作:对于敏感、不可逆或风险高的操作,如取消订单、授权大额退款等。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询