微信扫码
添加专属顾问
我要投稿
AI Agent的工程化是推动其落地的关键,产品与技术双轮驱动才能打造真正可用的智能体。 核心内容: 1. 产品工程:从需求建模到交互设计,确保AI能用且好用 2. 技术工程:构建支撑AI Agent规模化落地的技术体系 3. 典型案例分析:Manus如何通过工程化实现"主动协作者"定位
目录
01 产品工程
02 技术工程
03 总结
近期热度较高的两篇文章[1] [2],不约而同的提到了 AI 发展至今,工程化对 AI 应用的作用被低估了。
但工程化一词是很泛化的技术用语,包含的内容极广。广义的讲,非算法类的技术实现和产品设计,都可以归类为工程化。本文暂把工程化分类为产品工程和技术工程,试图通过这个视角,去简单拆解构建 AI Agent 的工程化体系。
工程化 = 产品工程(Product Engineering)+ 技术工程(Technical Engineering)
这两部分协同决定了一个 AI Agent 是否「能用、好用、规模化可用」。
01
目标:让 AI 能用和好用,用户用得明白、用得舒服、用得下去。从增长的视角就是,不仅要下载量,还要留存率和活跃度。
产品工程在乎的是产品哲学、产品商业、交互设计和用户体验等综合思考,让 AI 不再只是“黑箱”,而是能做到有感知、有引导、有反馈,并且具备自我纠错的机制。我们先对产品工程做一个拆解,然后选择一些重点模块进行展开阐述它们在成就一款成功的 AI Agent 中所起到的作用。
模块 | 定义 |
需求建模 | 明确 AI 应用到底为谁服务、能解决什么问题,避免“为了用 AI 而用” |
UI/UX 设计 | 把 AI 的复杂行为变成用户能理解、能操作的界面和流程 |
人机交互流程 | 让 AI 会“问问题”“确认决策”,像助理一样有节奏地完成任务 |
Prompt 工程 | 用好提示词这把“魔法棒”,提升 AI 输出质量和一致性 |
反馈闭环 | 让用户能反馈结果,让系统能学会改进或提示失败 |
权限与合规 | 控制谁能用、用什么数据、防止 AI 滥用或泄密 |
在传统软件开发中,我们会先问“用户的核心痛点是什么”。AI Agent 也一样,如果不搞清楚使用对象和场景,很容易做成“看上去什么都能回答,但什么也用不起来”的尴尬局面。
构建 AI Agent 的第一步,不是选模型,而是要像产品经理一样回答一个问题:“这个 AI 要帮谁,如何解决,解决什么问题,问题能解决到什么程度,这个作用用户是否有意愿付费?”也就是产品和市场的契合点。
拿 Manus 来举例 [3],它是全球首款通用 AI 智能体,其核心理念是“手脑并用”,强调 AI 从被动工具转变为主动协作者。
在需求建模阶段,Manus 将 AI 定位为“主动协作者”,能够独立思考、规划并执行复杂任务,而不仅仅是提供建议或答案。
示例: 用户输入“泰国海岛游7日预算2万元”,Manus 自动完成汇率换算、酒店比价、行程规划并导出 PDF 手册。
这种角色设定要求在系统提示词中明确 AI 的职责和行为边界,确保其在执行任务时具备自主性和可靠性。
Manus 强调任务的闭环执行能力,即从接收指令到交付完整成果的全过程自动化。
示例: 用户请求对 xx 股票进行分析,Manus 自动获取相关数据,进行财务建模,生成交互式仪表盘,并部署为可访问的网站。
在需求建模中,需要将用户需求拆解为多个子任务,并设计相应的执行流程和工具调用策略,确保任务能够顺利闭环。
Manus 采用多智能体架构,分为规划层、执行层和验证层,各层协同工作以完成复杂任务。
在需求建模阶段,需要定义各层的职责和交互方式,确保整个系统的协同工作。
Manus 支持异步处理和中途干预,用户可以在任务执行过程中追加指令或修改任务参数,模拟真实职场中的协作模式。
示例: 用户在 Manus 执行任务过程中,可以随时关闭设备或追加指令,Manus 会根据新的指令调整任务执行流程。
这种设计要求在需求建模中考虑人机交互的灵活性和可控性,确保用户在协作过程中具有足够的控制权。
这种需求建模的方式类似于将用户的任务流程分段,并找出 AI 最擅长、最值得介入的环节,既避免了“大而泛”,又让用户第一时间感受到效率提升。
就像设计微服务的服务边界,哪些职责是订单单元负责,哪些职责是用户库存单元负责,AI 应用中,一样需要明确功哪些是 AI 负责的,哪些是业务逻辑兜底的,这些都将直接决定应用的最终体验。
AI Agent 不同于传统软件,它的输出常常是不确定的、延迟的、难预测的,这也意味着 UI/UX 设计不仅是“界面美观”,更是对用户心理与行为节奏的把握。
举个例子,DeepSeek 首次将大模型的“思考过程“可视化,在生成响应前,会展示模型的思维链,让用户知道:AI 并非乱猜,而是有逻辑地在思考。用户不再被动接受结果,而是参与思考过程,建立共同解题的伙伴关系。
这种设计有效提升了用户的信任度与接受度,尤其在多步骤任务、复杂文档总结、跨信息引用的场景。
目前,“渐进式信息呈现”、“思路可视化”、“结果结构化”等交互策略已经成为 AI Agent 的标配。用户可以查看调用链路、追踪引用来源等。甚至,Qwen 还提供了引用来源的删除选项,进一步降低了不可信互联网来源导致的幻觉。
系统提示词(System Prompt)是 AI Agent 开发者预设的一组指令或约束,用于定义模型在特定应用场景中的行为框架、角色设定、交互风格和输出规则。它与用户在前端直接输入的查询(User Prompt)不同,属于更底层的控制机制,对模型输出内容的质量、风格、一致性和安全性具有决定性影响。其核心构成要素通常包括:角色定义、行为约束、任务导向以及上下文管理。[4]
举个例子,NotebookLM 的核心理念是:用户上传自己的资料,而 AI 助理基于这些资料回答问题、提供建议,充当“可信任的知识顾问”,赋能用户进行更高效、更智能的学习与研究活动。
这种产品定位决定了,NotebookLM 背后的系统提示词不仅要完成基础的语言引导,还要实现更复杂的任务指令与安全约束。我们可以从几个关键维度来拆解其系统提示词设计思路:
NotebookLM 的系统提示词会将模型设定为“文档知识顾问”,强调它只能根据用户上传的笔记、PDF、网页等提供答案。这一点非常关键,它确保了模型的回答不会随意“发挥”或引入幻觉信息,而是始终围绕用户提供的内容展开。
prompt
你是一个研究助手,你的职责是帮助用户理解他们上传的文档内容,回答问题时仅引用这些资料,不做主观推测。
这种角色设定不仅控制了模型的输出范围,也让用户心理上更容易信任回答的来源。
NotebookLM 强调答案必须「引用资料出处」,这就需要系统提示词明确要求模型在回答时附上对应文档和段落链接。开发者通常会在提示词中加入这样的约束:
prompt
在回答每一个问题时,引用文档中相关段落,并用 markdown 格式列出其标题与段落索引。
这使得用户在阅读模型回答时,可以随时回溯验证来源,形成良好的可追溯体验。对 AI 输出质量的信任,往往来自于这种“有出处”的设计。
NotebookLM 不仅回答问题,还支持结构化内容生成,如自动总结文档、生成研究大纲等。每种任务模式都会使用不同的系统提示词。例如,在总结模式下,提示词可能这样引导模型:
prompt
请根据用户提供的文档,提炼出 5 个最重要的观点,并逐条列出,语言风格保持客观、中性,不做扩展解释。
任务导向的 Prompt 编排,已经超越了传统“对话式问答”的范畴,像是一种“任务脚本”,为多模态的 AI 应用埋下能力基础。
没有哪个 AI Agent,输出的内容一开始就是准的。现实的情况是它在某些输入下表现不佳、在某些数据下语义偏差,这时就需要收集“失败案例”,形成从输入到评估的闭环。
比如 Monica 的记忆功能,当用户浏览推荐的记忆条目时,若点击了“采纳为事实”,这些内容就会写入记忆数据库,供后续对话中调用;而用户不采纳的,则不会被强记。这种“反馈 → 选择性吸收 → 下一轮调优”的机制,就是对传统 Prompt + Chat 模式的增强。
Monica 会通过用户特征的持续学习,提升需求理解的精度和响应准确性。本质是在对话式交互中重建了上下文感知机制。就好像人与人之间交流,相处时间越长,越熟悉彼此,越能理解对方所表达的。
02
目标:让 AI 背后那套系统启动的快、跑得稳、扩得动、看得清
技术工程用于验证产品工程。和互联网时代的快鱼吃慢鱼类似,AI 时代也同样看中技术工程效率,第一时间跑通产品工程,进行市场验证,并快速迭代。技术工程是支撑 AI 应用的后勤系统,涵盖架构与模块化、工具调用机制、模型与服务集成、流量和访问控制、数据管理与结构化输出、安全与隔离机制、DevOps 与可观测性等。
模块 | 定义 |
架构与模块化 | 把 AI 应用拆成小模块,每个组件职责清晰,方便组合与维护 |
工具调用机制 | 让 AI 能调数据库、查天气、下单等,真正“做事” |
模型与服务集成 | 接入多个模型(DeepSeek、Qwen、本地大模型等),统一调用和管理 |
流量和访问控制 | 控制不同用户、不同模型的使用频率和访问权限,防止被滥用或打崩 |
数据管理与结构化输出 | 把 AI 的自由文本变成结构化数据,让系统能接着用或存入数据库 |
安全与隔离机制 | 防止数据串用、越权操作,特别在多租户/企业应用中关键 |
DevOps 与可观测性 | 支持灰度发布、新功能回滚、性能报警,记录每次调用发生了什么,有问题能定位,有指标能优化,确保持续稳定运行 |
在 AI 应用从原型走向生产系统的过程中,一个关键挑战在于如何将多个异构的模型能力,如提示(Prompt)、模型增强(The Augmented LLM)、顾问(Advisors)、检索(Retrieval)、记忆(ChatMemory)、工具(Tool)、评估(Evaluation)、MCP,通过统一架构组织起来,并实现高可维护性、可观测性和可扩展性。这正是模块化架构与流程编排工具发挥作用的地方。
除了 LangChain、LangGraph 这类以 Python 为主的生态,Spring AI Alibaba 为 Java 群体提供了原生、企业级的 AI 应用编排能力,成为构建模块化 AI 应用的重要工具之一。它的核心功能除了上方提到的8个基础能力,还提供了:
大模型能力很强,但相比完全由人为的业务代码架构的经典应用,引入了不确定性,这需要加强流量和用户访问控制进行对冲,从而保障可用性、费用,防止被滥用。经典应用升级到 AI Agent,新增了 LLM 和 MCP Server 两个信息处理环节。AI 网关在 AI Agent、LLM 和 MCP Server 三者间扮演了流量和用户访问控制的角色。(如下图)
role=admin
,网关据此放行或限制访问。像是拿到了一张写着“我是 VIP 客户”的数字通行证,系统会扫一眼证件确认身份和权限,常用于前后端分离架构、支持 SSO(单点登录)的企业系统。此外,Higress / 阿里云 API 网关为代表的 AI 网关,通过灵活可扩展的插件机制,在网关层扩展了更多的能力,用户也可以开发自定义插件来丰富插件能力。
大模型应用与传统应用的差异,不仅仅是“增加了模型调用日志”这么简单。以下是几个关键对比维度和核心差异。
类别 | 传统应用 | 大模型应用 |
可观测对象 | 后端逻辑、数据库查询、API 调用 | Prompt 输入/输出、模型推理过程、上下文变化、思维链条 |
关注点 | 性能瓶颈、服务状态、异常堆栈 | 响应合理性、一致性、偏差、幻觉、是否越权 |
可观测粒度 | 函数级、调用链级 | Token 级、语义级、行为路径级 |
例如,经典应用关注“这个接口有没有超时”,大模型应用则还得关注“这个模型为什么说了不该说的话”、“它是不是误解了用户意图”。
对传统系统而言,可观测的目标是系统是否正常运行,比如:响应是否超时,CPU、内存是否告警,错误率是否飙升。对大模型应用而言:系统可能运行正常,但结果却错了!可观测目标不仅要关注可用性的指标,还要关注
例如,一个 AI 医疗问答系统没有任何崩溃日志,但模型输出了“不建议吃感冒药”的错误建议,这种错误需要语义层的可观测。
针对以上问题,我们首先要解决的是一次调用到底经过了哪些组件,然后通过调用链把这些组件全部串联起来。要实现全链路的诊断,首先要把这些链路打通,当一个请求出现问题的时候,到底是哪个环节出问题了,是 AI 应用还是这个模型内部推理出现了问题,快速界定。[5]
第二需要构建一个全栈的可观测数据平台,它能够把所有的这些数据之间能够很好地关联起来,不仅是链路,还包括指标,例如模型内部的一些 GPU 利用率,通过关联分析能知道到底是应用层出问题,还是模型底层出问题了。
最后我们还需要通过一些模型日志,了解每次调用的输入输出是什么,并利用这些数据做一些评估和分析,来验证 AI 应用的质量。
从这三个手段入手,从监控的领域来说,我们在不同层面分别为大家提供了一些观察手段和核心关注点。
03
尽管本文尝试梳理 AI Agent 工程化的核心模块与关键路径,但我们必须承认,现实中的挑战远比文中所描述的更为复杂。无论是人为逻辑和大模型的有机协作、复杂任务的处理范式、生成内容的评估标准,每一环都隐藏着大量尚未解决的产品与技术工程细节。工程化从来不是锦上添花,它是将模型能力落地为真实生产力的唯一通路。
更重要的是,AI Agent 工程化的推进,不只是 Agent Builder 的课题,更关乎整个行业的演进。只有在开发平台、流量和访问管控、工具链、可观测性、安全等多个维度持续投入,构建出稳定可靠、易于复用的应用基建,才能真正带动上层 Agent 应用的规模化落地,推动形成面向大模型的新一代“应用供应链”生态。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-05-29
2025-03-20
2025-03-21
2025-03-16
2025-03-16
2025-04-11
2025-03-20
2025-03-19
2025-03-20
2025-03-19
2025-06-13
2025-06-12
2025-06-12
2025-06-12
2025-06-12
2025-06-12
2025-06-12
2025-06-12