我要投稿

小白也能学会，一文读懂AI Agent

发布日期：2025-06-11 20:16:15 浏览次数： 2596

作者：吕小鸣Developer

微信搜一搜，关注“吕小鸣Developer”

AI Agent是什么？

借用百度李彦宏的一句话：“在人类信息技术变革的不同历史时期，应用出现的样貌也不一样：在PC时期，它是一个个的软件和网站；在移动时期，它是一个个的APP和可被关注的账号；在AI时代，应用主要的形态就是智能体AI Agent”，在未来的领域，AI Agent 将成为连接人与数字世界的核心载体。

本文将从AI Agent的发展，主要框架和构成，实际应用场景，如何构建AI Agent来带你全方位了解。

生成式AI发展阶段

真格基金合伙人戴雨森在多个场合分享对于生成式 AI（Generative AI）的看法和见解，可以将其分为五个级别：Tool、Chatbot、Copilot、Agent 和 Intelligence：

根据目前AI行业的发展，目前流行的模型都是基于海量文本训练的生成式AI，典型代表如GPT系列、通义系列等还有DeepSeek等，基本还是可以达到L4 Agent的级别，对于L5的级别，AI能够自主理解目标，寻找资源，选择并使用工具，完成全部工作，人类仅需给出初始目标。这类智能接近科幻小说中的机器人，如《诺依曼机器人》中的描述，甚至有可能达到超越人类的水平。这是AI发展的最终目标，代表了最高程度的智能化和自主化。

智能体&Agent

在计算机、人工智能专业技术领域，一般将Agent译为“智能体”，所以AI Agent也就是AI 智能体，其定义是在一定的环境中体现出自治性、反应性、社会性、预动性、思辨性（慎思性）、认知性等一种或多种智能特征的软件或硬件实体。

规划（Planning）

含义：指Agent根据目标或任务，制定分步执行的策略或路径的能力。通过推理、分解任务、优化步骤等，动态调整计划以应对环境变化。概述：

任务分解：将复杂目标拆解为子任务（如“写报告”分解为“查资料→起草→修改”）。
路径优化：选择效率最高的执行顺序（如通过强化学习或搜索算法）。
动态调整：根据实时反馈修正计划（如遇到错误时切换备用方案）。

记忆（Memory）

含义：Agent存储和调用历史信息的能力，包括短期记忆（当前会话）和长期记忆（跨会话知识）。概述：

短期记忆：临时保存上下文（如聊天对话的最近几轮）。
长期记忆：通过向量数据库或外部存储保留经验、知识（如用户偏好、历史任务结果）。
元记忆：对记忆本身的管理（如遗忘机制、优先级排序）。作用：避免重复操作、个性化响应（如记住用户习惯）、支持持续学习。

工具（Tools）

含义：Agent可调用的外部资源或API，扩展其能力边界，弥补纯文本模型的局限。常见工具：

基础功能：计算器、搜索引擎（如Google API）、代码执行器。
领域工具：天气预报API、股票数据接口、专业软件（如Photoshop自动化）。
多模态工具：图像识别（CLIP）、语音合成（TTS）等。

优势：让Agent突破训练数据限制，实时获取信息或执行物理世界操作。

行动（Action）

含义：Agent根据规划调用工具或生成输出的具体执行步骤，是智能体与环境的交互接口。概述：

工具调用：执行外部API请求（如“查询航班价格”）。
环境交互：在机器人中控制机械臂、在游戏中移动角色。
输出生成：返回文本、图像等结果给用户。

AI Agent不单单是一个LLM对话机器人，或者单一的图片/代码生成工具，而是结合了多种大模型工具并结合工作流的智能体，真正模拟人类行为来完成复杂任务。

Agent与单一大模型区别

简单一句话就是：大模型是"工具"，AI Agent是"会用工具的人"，举个例子，你让ChatGPT写工作总结，它只负责写，而你让Agent写总结，它会：自动从你电脑找资料；整理成报告；问你需不需要修改；帮你发送到邮箱。

为了更清楚地理解 Agent 和模型之间的区别，这里整理个表格：

如何才能用到 AI Agent

说了这么多，那么 AI Agent 是以什么形态呈现呢，我们怎么才能体验到它的强大能力呢,如何开发一个AI Agent呢？其实，AI Agent 并不是一个遥不可及的概念，它已经以多种形态融入我们的日常生活和工作中。

AI Agent的呈现形态

应用程序（App）： 许多AI Agent以移动应用或桌面应用的形式存在，用户可以通过智能手机、平板电脑或计算机下载并使用这些应用。例如，语音助手如Siri和Google Assistant都有自己的应用形式。
小程序/快应用： 在微信、支付宝等平台上，有很多轻量级的AI服务以小程序的形式提供给用户。这种形式不需要用户安装额外的应用程序，即可快速访问到AI功能。
硬件集成： 一些AI Agent被集成到特定的硬件设备中，如智能音箱（Amazon Echo、Google Home）、智能家居系统、智能穿戴设备（如智能手表）、以及自动驾驶汽车等。这类AI Agent通常是为了增强硬件的功能性或者提供更便捷的服务体验。
网页服务： 有些AI Agent通过Web界面提供服务，用户只需通过浏览器访问特定网址就能与AI进行交互，无需下载或安装任何软件。
嵌入式系统： 在某些情况下，AI Agent可能被直接嵌入到其他电子设备或机械系统中，用于执行专门的任务，比如工业自动化中的机器人控制。

选择哪种呈现形态，很大程度上取决于目标用户群体的需求、使用的便利性、以及成本效益等因素。随着技术的发展，未来还可能出现更多创新的AI Agent呈现方式。

如何体验/开发 AI Agent

要体验 AI Agent 的能力，最直接的方式是通过大模型应用开发平台。这些平台将大模型的能力封装成易于使用的工具和 API，让开发者、企业和普通用户都能快速构建和体验 AI Agent。

例如在大模型应用开发平台上，我们可以通用简单的设置一段提示词，调用一个大模型，使用几个插件，来实现一个简单的旅游攻略AI Agent体：

当然，我们也可以不通过平台来创建AI Agent，作为开发者可以使用一些代码框架来从0到1开发一个智能AI Agent，这种方案更适合深度定制Agent的能力，或者避免隐私数据的场景。

智能体应用开发平台简介

大模型应用开发平台/智能体应用开发平台是专为大规模语言模型（Large Language Model, LLM）应用设计的一整套工具和服务，旨在帮助开发者更高效地构建、管理、部署和维护基于 LLM 的应用。这类平台通过提供从模型选择、数据处理、训练调优到部署监控的全流程支持，简化了 LLM 应用的开发复杂度，使开发者能够专注于业务逻辑和创新，而无需深入底层技术细节。