我要投稿

什么是 AI 智能体？如何一步步构建属于你自己的智能体？

发布日期：2025-05-25 11:43:51 浏览次数： 1889

作者：山行AI

微信搜一搜，关注“山行AI”

什么是 AI 智能体？

下一件大事？Gartner 认为：AI 智能体（AI Agents）将是未来的关键技术。OpenAI、Nvidia 和 Microsoft 正在大力投入，甚至像 Salesforce 这样在 AI 领域一向低调的公司，也已悄然下注。

而毫无疑问，这项技术目前正迅猛崛起。

那么，这一趋势背后真正的是什么？理解智能体（Agents）的关键在于：自主性（Agency）。

不同于传统的生成式 AI 系统，智能体不仅仅是对用户输入做出回应。它们能够处理一个完整且复杂的问题——例如，一起保险理赔案件——从头到尾自动完成。这意味着它们可以理解理赔中的文本、图片与 PDF；从客户数据库中检索相关信息；将案例与保险条款进行比对；主动向客户提问并等待回应——哪怕这个过程需要几天；且不会遗忘上下文。

最重要的是：这些智能体可以自主完成所有操作，无需人类检查其处理过程是否正确。

咖啡机与咖啡师的比喻

与当前市面上的 AI 系统以及各类“协助型 Copilot”不同，AI 智能体实际上更像是一位真正的“员工”，而不是仅仅帮助员工完成部分工作的工具。它们展现出在流程自动化方面的巨大潜力。

想象一下 —— 一个能够完成复杂、多步骤任务的 AI，原本这些任务需要一个人类员工甚至是一个完整部门来完成：

•策划、设计、执行、评估并优化一场市场营销活动•在物流中定位遗失的货物，通过与承运商、客户和仓库沟通协调——若最终无法找回，还能向责任方提出索赔•每日检索商标数据库，判断是否有新注册商标与自己的商标存在冲突，并立即提出异议•收集 ESG 报告所需数据，包括询问员工、验证数据并最终撰写完整报告

目前，AI 模型可以协助处理某些环节，例如生成营销内容、分析电子邮件等，但它们尚不具备执行完整业务流程的能力。而 AI 智能体（AI Agent）可以做到这一点 —— 它不仅“协助”，还可以“主导执行”。

虽然传统的 AI 模型就像一台顶级的意式咖啡机，但基于智能体的 AI，更像是一位咖啡师（Barista）。咖啡机能煮出好咖啡；而咖啡师不仅会煮咖啡，还能：欢迎客人，记下订单，端上咖啡，收银结账，清洗杯具，晚上关店。即便是世界上最好的咖啡机，也无法独立经营一家咖啡馆，但咖啡师可以。

为什么 AI 智能体和咖啡师能做到这些？因为他们擅长掌握复杂工作的各个子流程，并能够自主决定下一步要做什么。

他们能与人交流，比如：

•向顾客提问，以获取更多信息（需要牛奶还是燕麦奶？）•判断求助对象，在遇到问题时知道该找谁（咖啡豆没了 => 找老板；咖啡机罢工 => 联系售后服务）

这正是 AI 智能体的优势，它不仅能执行任务，还能理解场景、做出判断、沟通协调、灵活应变 —— 像一个真正的“数字员工”。

如何动手构建一个 AI 智能体？

我们将围绕上方图示中的保险业务流程，设计一个智能体系统。该智能体应能从理赔申请的发起一直处理到赔付完成。

⚠️ 在这里我们主要讨论业务架构和流程设计。由于涉及编码的部分非常庞大，本文暂不深入编程实现细节。

1. 分类 & 将任务分配到处理路径中

我们的工作流从客户向保险公司发送一条理赔消息开始，这通常是有关房屋保险的申请内容。

那么，智能体该怎么做？它首先要分析消息内容，判断客户的诉求是什么。

基于这一分类判断，系统会启动相应的处理路径（processing lane）。这一步往往不仅仅是函数调用^[1]，而是涉及到对整个流程的基本决策（例如属于哪一类理赔），后续触发多个独立的处理步骤。这就是智能体在流程第一步的职责，理解需求 → 分类判断 → 进入具体处理流。

2. 数据提取

下一步是数据提取。智能体的主要任务之一，就是将非结构化数据转化为结构化数据，以便流程更加系统化、安全且可控。

分类是将文本归入预定义的某一类；而提取，则是从文本中读取并解析具体的数据内容。然而，语言模型并不会直接“复制”输入中的数据，而是生成一条响应内容。这使得它能进行数据格式化，比如将电话号码从 ‘(718) 123–45678’ 转换为 ‘+1 718 123 45678’。

数据提取并不仅限于邮件正文中的文本内容，还可以包含图像、PDF 或其他文档中的数据。为了完成这些任务，我们通常会结合多种模型使用：包括 LLM（大语言模型）、图像识别模型、OCR（光学字符识别）等。上文描述的流程其实是高度简化版。在现实中，我们通常会将图片发送给 OCR 系统，让它从扫描的发票或表单中提取文本；同时，我们也常常在分析前对附件进行分类处理。

为确保输出为结构化数据，我们强制要求模型的输出格式为 JSON。

以下是邮件输入的示例 —— 一段非结构化数据：

你好，
我想要报案并申请赔偿。
昨天，我9岁的儿子Rajad在和朋友玩耍时，把足球踢到了客厅的吊灯上，吊灯从挂钩上掉落摔在地板上摔碎了（它是玻璃制的）。
幸运的是没有人受伤，但吊灯已经彻底损坏，无法修复。
附件中包含一张发票和几张损坏吊灯的图片。
DeepakJamal合同号：HC12-223873923123MainStreet10008纽约市(718)12345678

模型输出—JSON 格式的结构化数据

{"name":"Deepak","surname":"Jamal","address":"123 Main Street, 10008 New York City, NY","phone":"+1 718 123 45678","contract_no":"HC12-223873923","claim_description":"Yesterday [Dec-8, 2024], while playing with a friend, my 9-year-old son Rajad kicked a soccer ball against the chandelier in the living room, which then broke from its holder and fell onto the floor and shattered (it was made of glass).\nLuckily no one is injured, but the chandelier is damaged beyond repair.\n"}

3. 调用外部服务，保持上下文持久化

许多生成式 AI 系统可以直接回答问题——有时是基于预训练数据，有时是通过微调，或在特定文档上使用 RAG（检索增强生成）技术。但这对智能体来说远远不够。几乎所有具备一定能力的 AI 智能体都必须访问企业内部或外部的数据源，如数据库等系统。

此外，为了使流程的上下文在当前会话之外仍然持续可用，智能体必须将数据写入系统或数据库。以我们的保险理赔智能体为例，它会根据合同号在客户数据库中查询客户信息，并将本次理赔请求的状态写入问题追踪系统（issue tracking system）。更进一步的是 —— 智能体具有“自主性（agency）”，它还可以主动向外部（例如客户）请求缺失的数据。

4. 评估、RAG、推理与置信度控制

每一项行政工作最核心的部分，其实都是在依据规则解释和处理输入的个案。而 AI 在这一点上表现得尤其出色。由于我们在调用模型时无法提供所有上下文信息（例如保险条款或服务协议内容），我们通常会使用向量数据库（vector database）来检索相关内容片段，这种技术被称为 RAG（检索增强生成）。

我们会在提示中引导 AI 先“自言自语”推理，再做出判断。这种“先思考、后回答”的方式可以显著提升回答质量—— 这正是我们从三年级数学课上就学会的技能。模型的推理过程，还可以被用于多种显性和隐性的场景，例如：

•向客户提供理由，说明为什么得出这样的答复•帮助提示工程师和数据科学家排查模型错误的原因•用于评估模型是否真的“理解了”问题，还是仅仅“碰巧猜对了”

? 我们还会准备一份关于推理与提示工程技巧的小抄^[2]，方便参考使用。

置信度评估是最大化系统精度的核心手段。如果模型可以估算自己的回答置信度，我们就能据此制定不同的系统运行策略。

? 提示工程师注意：这通常需要为不同置信度水平提供优秀的 few-shot 学习示例。

我们可以设置一个“置信度阈值”：

•当低于该阈值时 → 自动将任务转交给人工客服•当高于该阈值时 → 系统自动处理该任务

这样可以实现灵活调节：

•置信度阈值设得高：更安全，错误率低，但需更多人工处理•置信度阈值设得低：自动化程度高，但潜在错误风险增加

总结

哇哦！如果你刚才实现了上面所提到的 2 到 3 个步骤，那么你就已经构建出了一个 AI 智能体。我在前文中只列出了这些智能体系统的核心组成部分，其余部分你一定也可以轻松想象得到。你可以选择使用以下框架来实现它们： CrewAI， LangGraph， LangFlow，或其他类似的智能体编排工具。当然，你也完全可以只用纯 Python 实现整个流程。

令人惊讶的是，这样的系统可以自动化理赔部门 70%–90% 的工作量。而这一点，是传统的、非智能体型的生成式 AI 系统根本无法做到的。两年前，我从未想过这个愿景能来得这么快、这么现实。