微信扫码
添加专属顾问
我要投稿
开发Agent不只是调参大模型,吴恩达揭示那些被忽视却至关重要的"脏活累活"。核心内容: 1. 自动化业务流程的关键:拆解直线式任务与合理粒度控制 2. 衡量Agent价值的核心标准:自主化程度而非单纯智能判断 3. 组合AI工具的能力:像拼乐高一样灵活运用不同技术模块
做Agent,并不只是在那里摆弄大模型,有很多吃力但能显著改善用户体验的部分,才是我们应该重点关注的对象。最近吴恩达与LangChain 联合创始人的对话,聊到了目前最需要的Agent开发技能。我摘抄、总结、注解成文章。
https://www.youtube.com/watch?v=4pYzYmSdSH4
把现实流程(如查询、审核、数据检索)拆成清晰、有序的子任务并赋予合理的粒度。现实场景中大多数流程都是直线式的或只有很少的分支,且分支通常是出错/拒绝时才会出现。
虽然更复杂的、包含复杂循环的工作流程也非常有价值,但从数量上看,更多的机会仍然是关于这些价值较高但更简单的工作流程(如报销、合规、审核)。
报销的流程是:你提交发票 -> 领导审批 -> 财务打款。
请假的流程是:你提交请假申请 -> 系统检查你年假还剩几天 -> 领导审批 -> 人事记录。
你不能直接对AI说:“帮我报销。” 它会蒙圈。你得像教一个新来的实习生一样,把任务分解开:
第一步: 从邮件里找到那张名叫“发票”的图片。
第二步: 从图片里识别出金额、日期和消费项目。
第三部: 填写到公司的报销系统里。
第四步: 在系统里点击“提交”按钮。
太粗了不行: “处理发票。” (AI:啊?怎么处理?吃掉吗?)
太细了也不好: “先看发票的左上角第一个像素点,再看第二个...” (AI:这也太啰嗦了!)
刚刚好: “从发票里找到‘总金额’这三个字,然后读取后面的数字。” 这就是合理的粒度。
直线流程: 提交 -> 审批 -> 通过。一条路走到黑。
分支: 提交 -> 审批 -> 被拒绝 -> 你修改后重新提交。
吴恩达的意思是,我们先把这种简单的“一条路”或“顶多一两个岔路”的流程自动化做好,就已经能解决很多问题、创造很大价值了。
吴恩达强调应该谈论应用的"自主化程度",而不是简单地判断某个东西是否为"智能体",避免在定义上浪费时间。我们应该关心的是:这个机器人有多大比例的工作能自己完成,不需要人帮忙? 是能独立完成90%,还是只完成10%?这才是衡量它价值的关键。
另外在工作流程中,被低估的技术领域是语音技术,因为这能降低用户使用门槛,比起打字,说话更简短,但开发者关注度不够。
当前大量的 AI 工具就像不同颜色和形状的乐高积木。开发者不必精通每个工具,但至少要用过试过,知道这块积木能拼什么。拥有使用这些不同“积木”的经验,开发者才能知道在构建特定功能时需要哪个“奇怪形状的乐高积木”,并能够快速地将它们组装起来完成任务。
比如我们要让AI作为新闻评论员,目标是你给这个AI一个新闻文章的网址,它能自动完成以下三件事:
这个任务听起来很复杂,但如果我们把它拆解成“乐高积木”,就会变得非常清晰。
我们需要以下几块功能各异的“积木”:
积木A:网页抓取
功能: 你给它一个网址,它能把网页上的所有文字内容“抠”下来。
工具: Python。
积木B:文本摘要与分析
功能: 你给它一大段文字,它能读懂并提炼出核心摘要,甚至能分析出文章的“基调”(是积极的还是消极的)。
工具: OpenAI的GPT-4 API、或者Claude API。
积木C:AI绘画
功能: 你给它一段文字描述,它能画出一张对应的图片。
工具: Midjourney API、DALL-E 3 API。
积木D:社交媒体发布
功能: 你给它文字和图片,它能帮你自动登录账号并发布出去。
工具: 微博的API、Twitter/X的API。
现在,我们把这些积木像流水线一样连接起来:
【积木B】顺利完成任务: “最新报告指出,AI技术正以前所未有的速度重塑全球经济,尤其在医疗和交通领域取得突破。报告呼吁各国加强合作,应对AI带来的伦理挑战。”
“一个由光线构成的医生正在用数据流分析病人的DNA螺旋,背景是穿梭在未来城市中的无人驾驶汽车。”
在这个过程中,你没有亲自去写一个能看懂文章的AI,也没有亲自去开发一个绘画程序。
你只是作为一个“总指挥”,知道了在什么时候、该调用哪个“乐高积木”,并且把上一个积木的产出,作为下一个积木的原料。
很多时候,开发者需要花费大量时间在数据集成的“管道”工作上,以便为 LLM 提供正确的上下文,使其能够执行有意义的任务。这个铺管子的过程,就是“数据集成”。比如,写代码去连接公司的数据库、调用另一个软件的API、读取某个文件夹里的文件等等。这部分工作非常耗时,但没有它,AI无法发挥大的潜力。
场景示例:打造一个“智能企业小助手”
目标: 公司CEO可以直接问这个AI助手一个问题:“上个季度,我们销售额最高的三个产品是什么?它们的库存还有多少?另外,负责这三个产品的销售经理是谁?”
这个问题看起来简单,但对于一个AI来说,它需要的数据被分散在公司内部的“各个角落”。
产品销售额数据: 藏在公司的销售系统数据库里
产品库存数据: 藏在仓库管理系统 (WMS) 里(可能是一个独立的软件,需要通过API调用)。
销售经理负责人数据: 藏在客户关系管理系统 (CRM) 里(也需要通过API调用)。
如果没有数据沉淀,那意味着AI自动化也无从谈起。
管道一:连接销售数据库比如
[ {"product_name": "A-Pro-X1", "total_sales": 500000}, {"product_name": "B-Lite-S2", "total_sales": 450000}, {"product_name": "C-Max-G3", "total_sales": 300000} ]
管道二:连接仓库管理系统 (WMS)
你需要把上一步拿到的产品名(A-Pro-X1, B-Lite-S2, C-Max-G3)作为参数传进去。
{ "A-Pro-X1": {"stock": 120}, "B-Lite-S2": {"stock": 88}, "C-Max-G3": {"stock": 250} }
管道三:连接客户关系管理系统 (CRM)
类似地,查阅CRM的API文档,写代码调用它的“查询产品负责人”接口。
{ "A-Pro-X1": {"manager": "张三"}, "B-Lite-S2": {"manager": "李四"}, "C-Max-G3": {"manager": "王五"} }
上述数据是凌乱、独立的。你不能直接把这三个JSON文件丢给AI。你需要把它们整合成一段通顺的、AI能看懂的“上下文”。
"背景信息:上个季度销售额排名前三的产品数据如下:
1. A-Pro-X1,销售额50万,当前库存120件,负责人是张三。
2. B-Lite-S2,销售额45万,当前库存88件,负责人是李四。
3. C-Max-G3,销售额30万,当前库存250件,负责人是王五。"
给AI的最终指令(Prompt):
[背景信息]
上个季度销售额排名前三的产品数据如下:1. A-Pro-X1,销售额50万,当前库存120件,负责人是张三。2. B-Lite-S2,销售额45万,当前库存88件,负责人是李四。3. C-Max-G3,销售额30万,当前库存250件,负责人是王五。
[用户问题]
上个季度,我们销售额最高的三个产品是什么?它们的库存还有多少?另外,负责这三个产品的销售经理是谁?
[你的要求]
请根据以上背景信息,以友好、清晰的格式回答用户的问题。
AI输出:
“老板您好!上个季度销售额最高的三个产品及其信息如下:
产品:A-Pro-X1
销售额:50万元 当前库存:120件 销售经理:张三 产品:B-Lite-S2
销售额:45万元 当前库存:88件 销售经理:李四 产品:C-Max-G3
销售额:30万元 当前库存:250件 销售经理:王五”
AI本身并没有去连接数据库或API。你自己要把散落在各处的数据搬运、清洗、整理好,最后形成一份完美的“简报”喂给AI。这个过程就是“构建管道和数据集成”,它是AI应用能够解决实际业务问题的生命线。
先有评估,再谈优化。即使是很糟糕的评估框架,也比没有强。建议快速构建简单的评估工具(20分钟内),然后逐步改进。 搭建Evals Framework的技能仍然“过于稀缺”。许多团队长期依赖人工评估,这使得他们在出现改动后需要手动检查大量输出。正确的做法是快速搭建简单的评估(即使一开始质量很差),然后通过迭代改进它们,就像迭代改进代码一样。评估框架不仅要能够了解整体系统性能,还要能追踪单个步骤。
eval写作指的是编写评估代码/脚本来自动测试AI系统性能的过程。Eval = Evaluation(评估)的缩写,在AI/ML开发中特指:
在AI智能体开发中,eval可能包括:
# 智能体工作流程评估
def evaluate_agent_workflow(agent, test_scenarios):
results = []
for scenario in test_scenarios:
# 运行智能体
output = agent.run(scenario["input"])
# 检查关键步骤
step_results = {
"正确理解任务": check_task_understanding(output),
"调用了正确工具": check_tool_usage(output),
"给出合理答案": check_answer_quality(output)
}
results.append(step_results)
return analyze_results(results)
更多产品和创业思考:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-06-27
落地角度看Agent搭建的稳妥到激进路线及VLLM图片分辨率策略
2025-06-27
AI+Agent的国家博弈与兵棋推演
2025-06-27
我们在极速建站的 AI Agent 里,获得了「瞬间成就感」
2025-06-27
深度技术文:Ollama、Vllm 安全性分析
2025-06-27
深度技术文:内网环境下 Ollama、Vllm 安全性评估和最佳实践
2025-06-27
为何无头浏览器是 AI Agent 的关键技术
2025-06-27
AI 助手 Claude 即将为美国国家安全局(NSA)提供服务
2025-06-27
周鸿祎:智能体 ≈ 带手脚的 AI(数字员工)
2025-05-29
2025-04-11
2025-04-01
2025-04-06
2025-04-12
2025-04-12
2025-04-29
2025-04-29
2025-04-17
2025-05-07
2025-06-27
2025-06-26
2025-06-26
2025-06-25
2025-06-25
2025-06-24
2025-06-24
2025-06-24