我要投稿

吴恩达：构建企业级AI Agent的最佳实践

发布日期：2025-12-28 08:39:48 浏览次数： 1741

作者：夙愿的AI实验室

微信搜一搜，关注“夙愿的AI实验室”

新手做 Agent，80% 时间搭建，20% 时间分析问题，老手正好反过来。

我最近看了吴恩达的 Agentic AI 课程，这是他的观察。

新手往往会踩一种坑：

花两周搭完系统，联调时发现第一步就错了，后面所有模块，都建在错误的地基上。

推倒重来。

以前我就是这么干的：拿到需求 → 脑子里过一遍思路 → 各模块逐个做完 → 最后串起来测试。

出现的问题是：你要到最后一步才知道前面哪里错了。

更惨的是，等你改完第一步，第二步的假设可能也不对了，又要改，改完第二步，第三步又崩了……

吴恩达给出的方法论正好相反：做一步，测一步，确认对了再往下走。

具体怎么做？下面用一个例子说明。

人类怎么做，AI 就怎么做

这是吴恩达特别强调的第一步，也是最反常识的一步：

大多数人拿到需求就开始思考「用什么模型」「怎么写 Prompt」「要不要用 RAG」，但吴恩达建议：

先找 5-10 个真实案例，自己当人类把这件事做一遍，记下每一步在想什么、查了什么、怎么决策的。

为什么要这么做？因为很多开发者连自己都没想清楚流程，就急着让 AI 去做。

举个例子，如果让你处理一封客服邮件，你怎么判断要不要查订单数据？看邮件里有没有订单号？还是根据发件人邮箱去猜？

没提供订单号时，你是直接回复「请提供订单号」，还是先根据用户名搜一下？

这些细节，如果你自己都没想清楚，AI 肯定也做不好。

所以阶段零的价值是：逼着你把流程梳理清楚，同时这些真实案例直接变成你后面的测评集。

把人类流程翻译成 AI 流程

梳理完人类怎么做，接下来就把它翻译成 AI 能做的：

我的做法是把 Agent 拆成三部分：大脑（LLM）、手（工具）、眼（多模态）。

大脑：负责思考、决策、生成文本。

手：负责调用外部工具，执行具体任务。

眼：负责理解和处理多模态输入（如图片、视频）。

以客服邮件 Agent 为例：

第一步：打开邮件

• 人类：点开邮箱，看发件人、标题、正文
• AI：用邮件 API 读取邮箱号、标题、发件时间、正文（不可能真让 AI 去点鼠标，只能通过 API 获取数据）

第二步：判断要不要查订单

• 人类：看邮件内容，判断是咨询、投诉还是其他
• AI：用 LLM + Prompt，让它扮演客服角色，按什么原则去判断

第三步：查订单数据

• 人类：打开数据库，输入订单号或用户名，看有没有匹配的
• AI：提供数据库查询工具（API），LLM 决定查什么、怎么查

第四步：匹配验证

• 人类：确认查到的订单信息和发件人是否匹配
• AI：让 LLM 对比邮件信息和订单信息，判断是不是同一个人

第五步：组织回复

• 人类：先安抚理解，再提供解决方案
• AI：给 LLM 一个回复模板或原则，生成邮件内容

整个流程梳理完，你会发现：哪些步骤需要 LLM 思考，哪些步骤需要工具支持，哪些步骤能提前优化。

一目了然。

单点验证，而不是整体开发

流程翻译完，别急着搭整个系统。吴恩达的建议是：先单点验证，做一个测一个。

什么叫单点验证？比如邮件 API 能调通吗？有没有官方 API？没有的话第三方能不能实现？

LLM 判断「要不要查订单」这个任务，写个 Prompt 在 ChatGPT 里测几轮，能做到吗？

数据库查询工具，LLM 能正确调用吗？参数传递有没有问题？

这个阶段的重点是「能不能跑通」，而不是「质量如何」。

如果某个工具根本调不通，或者 LLM 完全理解不了你的意图，那就要重新考虑方案。

别等到整个系统搭完了才发现「这条路走不通」。

等每个单点都验证通过，再用工作流编排工具（比如 n8n、dify）或者自己写代码把它们串起来，确保数据流转正常。

这个阶段可能只需要 2-3 天，就能拿到一个能跑的原型。

测评集从小到大，循环优化

原型跑通之后，就进入评估阶段。

评估阶段第一件事：建测评集，但别一开始就建 100 个，10-20 个就够了。

为什么？因为 10-20 个足以发现大部分问题，标注成本低（你要写标准答案），迭代速度也快。

怎么做？

第一轮：肉眼看几个输出
随便跑几个案例，看看输出长什么样。这一步能快速发现明显问题，比如「完全没理解邮件内容」「查了订单但没用上」。

第二轮：建 10 个测试样本
从阶段零的真实案例里选 10 个，写好标准答案，跑一遍看准确率。

假设准确率只有 40%，别慌，这是正常的。

第三轮：错误分析
把失败的案例拎出来，逐个组件检查中间数据：是邮件理解错了？是数据库查询失败了？还是回复逻辑有问题？

统计一下：哪个环节错得最多？

假设发现「判断要不要查订单」这一步错误率 50%，那就优先优化这个组件。

第四轮：组件级优化
单独拎出这个组件，改 Prompt、加 Few-shot、换模型，测到满意为止。

比如原来准确率 10%，优化后提升到 60%。

第五轮：端到端重新测
组件优化完，回到完整流程重新跑一遍评估。

准确率从 40% → 65%。还不够？回到第三轮继续分析。

这是一个循环：评估 → 错误分析 → 优化组件 → 重新评估 → 再分析 → 再优化……

可能要转 3-5 轮，直到准确率达到你的目标。

什么时候可以停下来？

有个陷阱要注意：永远在优化，永远觉得「还不够好」。

怎么办？设个「Good Enough」的阶段性目标。

比如：

• MVP 目标：端到端准确率 > 70%（可以内测）
• 上线目标：端到端准确率 > 85%（可以小范围上线）
• 成熟目标：端到端准确率 > 95%（全量推广）

为什么要设阈值？这样可以避免陷入完美主义，让你能阶段性交付。

先上线一个「能用」的版本，再根据真实反馈慢慢改。

而且有个现象：

好问题：用户太多，成本扛不住。

坏问题：又快又便宜，但质量差没人用。

所以质量优先，成本和速度是质量稳定之后才考虑的事。

整个方法论可以总结为：

阶段零：人工模拟 5-10 个真实案例，梳理清楚流程

阶段一：把人类流程翻译成 AI 流程（大脑-手-眼）

阶段二：单点验证，做一个测一个，串起来测数据流转

阶段三：建测评集（10个 → 20个 → 50个），循环优化（评估 → 分析 → 改进 → 再评估）

阶段四：设定 Good Enough 目标，质量稳定后再优化成本和速度

核心就是：分步验证、快速迭代、数据说话。

如果你在做 Agent，这套流程能帮你少走弯路。

更重要的是，它让你随时知道问题在哪，而不是凭感觉瞎改。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-02-12

2026 做 Agent 的正确姿势：单 Agent 起步，Skills 沉淀方法论，MCP 负责连接

2026-02-11

别再存轨迹了：SkillRL 让 Agent 把经验炼成技能，还会自我进化

2026-02-11

Claude Code 源码揭秘：为什么它能无感切换 AWS、Google、Azure

2026-02-11

全新DeepSeek发布！上下文扩展至1M

2026-02-11

刚刚，DeepSeek悄悄测试新模型：百万token上下文、知识库更新，V4要来了？

2026-02-11

DeepSeek V4 悄咪咪上线了？1M 上下文简直爽翻！

2026-02-11

2026 企业级AI（Agentic AI for Enterprise)，是新大陆

2026-02-11

深度求索突然出手！1M上下文碾压GPT-4？国内AI迎来全新突破

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Pencil：设计和写代码，以后就全让AI干了

2026-01-24

独家实录｜唐杰、杨植麟、林俊旸、姚顺雨...All Star 对话上，大家聊了啥？

2026-01-10

我挖到Gemini 3.0 Pro十大隐藏玩法，做网页已经落后N个版本了

2025-11-19

从0到1玩转Clawdbot：我花了40小时，把这些坑都踩完了

2026-01-26

2026 开年 AI 工具推荐，让你新的一年效率起飞！（建议收藏）

2026-01-01

Codex 史诗级更新！引入 Skills 技能库，直接兼容 Claude 生态，开发效率原地起飞

2025-12-09

Claude赢麻了？OpenAI Codex正式支持Skills，GitHub连夜上车！

2025-12-21

终于！Gemini CLI支持Agent Skills，一键搬运Claude Code的“绝招”

2026-01-09

GPT-5.1 有哪些提升？来自 OpenAI 官方 AMA 的能力、推理模式、安全策略全解读

2025-11-15

Claude Code Skills 国内实践全指南：从安装部署到高阶开发

2026-01-09

大家都在问

刚刚，DeepSeek悄悄测试新模型：百万token上下文、知识库更新，V4要来了？

2026-02-11

AI推理：如何实现吞吐翻倍、时延降90%与GPU资源节省26%？

2026-02-11

当我们谈论 AI 推理的 KV Cache，我们在说什么？

2026-02-11

Claude Code，它为何这么狠？

2026-02-11

程序员的最后一块拼图：为什么你必须学会用 Claude Code？

2026-02-07

谁动了我的电脑？谁应该抱怨？

2026-02-04

刚刚！OpenAI 正式发布 Codex App，一人指挥一支 AI 军队，Cursor 慌了？

2026-02-03

谷歌Genie 3打崩游戏股！1小时500元的AI生成游戏，真能革游戏的命？

2026-02-03

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean