我要投稿

Agent 工程化五件套：Prompt、Skill、MCP、CLI 到底怎么配合？_tag2

发布日期：2026-06-07 19:01:58 浏览次数： 1511

作者：智启新纪元

微信搜一搜，关注“智启新纪元”

过去一年，很多团队都在做 Agent。

有的做成了聊天机器人，有的做成了代码助手，有的做成了企业知识库入口，也有的想做成个人工作台、数据分析助手、自动化运营助手。

但真正落地时，大家很快会遇到一个问题：

Agent 不是“把大模型接进产品”这么简单。

只靠一个大 Prompt，Demo 可以跑；只靠几个 Function Calling，场景可以演示；只靠一个工作流编排器，也能自动跑几步。

但只要进入真实业务环境，就会出现一堆工程问题：

上下文怎么组织？工具怎么安全调用？重复任务怎么沉淀？执行过程怎么观察？失败后怎么回滚？企业内部系统怎么统一接入？用户一句自然语言，怎么变成稳定可交付的结果？

要回答这些问题，就必须把 Agent 拆成几个关键部件来看：

Agent、Skill、CLI、MCP、Prompt。

这五个词经常被混在一起讲，但它们不是同一层东西。理解它们之间的边界，基本就理解了现代 Agent 应用的工程化方向。

一、先说结论：Agent 不是一个模型，而是一套运行系统

很多人第一次做 Agent，会把它理解成“更聪明的 ChatBot”。

这个理解只对了一半。

ChatBot 的核心动作是回答问题； Agent 的核心动作是完成任务。

两者最大的区别在于：Agent 不只是生成文本，它会规划、调用工具、读取外部状态、执行动作，并在多轮过程中不断修正。

OpenAI 对 Agents SDK 的定义中，也强调 Agent 是能够规划、调用工具、在不同专家之间协作，并维持足够状态来完成多步工作的应用。官方文档同时指出，当应用需要自己拥有编排、工具执行、审批和状态管理时，才更适合使用 Agents SDK 这类 Agent 框架。(OpenAI开发者)

所以，一个靠谱的 Agent 至少要有几个部件：

第一，目标理解。用户说“帮我分析这个产品机会”，这不是一个简单问答，而是一个目标。

第二，任务拆解。Agent 需要判断：要不要查资料？要不要读文件？要不要调用数据库？要不要生成报告？要不要让用户确认？

第三，工具调用。Agent 需要连接搜索、数据库、文件系统、代码仓库、CRM、工单系统、报表系统。

第四，状态管理。任务做到哪一步了？上一步工具返回了什么？有没有异常？是否需要重试？

第五，交付控制。最后输出的是一段话，还是一份报告、一个 PR、一个 PPT、一张图表、一个可执行脚本？

从这个角度看，Agent 更像一个“任务操作系统”，而不是一个聊天窗口。

二、Prompt：不是万能胶，而是运行时契约

Prompt 仍然重要，但它的角色要重新理解。

在早期大模型应用里，Prompt 经常被当成万能胶：角色设定写进去，输出格式写进去，业务规则写进去，异常处理写进去，工具说明也写进去。

最后 Prompt 越写越长，越写越脆。

真正工程化之后，Prompt 应该更像一份运行时契约：

你是谁？你要服务什么目标？你必须遵守什么边界？你应该如何表达不确定性？你什么时候可以调用工具？你什么时候必须请求用户确认？你输出结果应该满足什么格式？

Prompt 更适合放“当下这次任务需要遵守的约束”，而不是塞进所有业务知识。

OpenAI 的 Prompt Engineering 文档中提到，Prompt 可以通过示例、上下文信息、检索增强等方式改善模型输出；Few-shot 是通过少量输入/输出样例引导模型完成新任务，RAG 则是把额外相关上下文加入生成请求。(OpenAI开发者)

这说明 Prompt 的价值不只是“写得漂亮”，而是要和上下文、工具、流程配合。

一个好的 Agent Prompt，应该回答三个问题：

第一，边界是什么。哪些事情可以直接做，哪些必须确认，哪些绝不能做。

第二，过程是什么。先理解目标，再拆解任务，再判断是否调用工具，最后输出结果。

第三，交付物是什么。是摘要、表格、代码、报告、方案，还是结构化 JSON。

但注意：Prompt 解决的是“本次怎么做”，不是“以后都怎么复用”。

后者要交给 Skill。

三、Skill：把经验从 Prompt 里拆出来

如果一个任务你反复让 Agent 做，就不应该每次都重新写 Prompt。

比如：

每次生成竞品分析，都要遵守同一套分析框架。每次写公众号文章，都要遵守固定结构和表达风格。每次分析销售数据，都要先清洗字段、再看趋势、再做归因。每次生成 PPT，都要先定受众、再定故事线、再做页面结构。

这些重复流程，不适合一直塞在 Prompt 里。

它们应该沉淀为 Skill。

Agent Skills 官方说明中，Skill 是一种轻量、开放的格式，用来给 AI Agent 扩展专业知识和工作流。一个 Skill 的核心是一个包含 SKILL.md 的文件夹，里面至少包含 name 和 description，也可以携带脚本、参考资料、模板和其他资源。(Agent Skills)

一个典型 Skill 可以长这样：

market-analysis-skill/
├── SKILL.md
├── scripts/
│   └── clean_data.py
├── references/
│   └── analysis_framework.md
└── assets/
    └── report_template.md

SKILL.md 里可以写：

---
name: market-analysis
description: 当用户需要分析一个行业、产品机会、竞品格局或增长策略时使用。
---

你是一个产品与市场分析助手。

执行流程：
1. 先澄清分析对象、目标用户和市场范围
2. 再从行业规模、用户需求、竞品格局、商业模式四个角度分析
3. 如果用户提供数据文件，优先读取并校验数据
4. 输出必须包含：核心结论、机会判断、风险点、下一步建议

Skill 的关键价值，是把“会做某件事”的经验变成可复用资产。

更重要的是，Skill 不是一次性塞进上下文。

Agent Skills 的规范强调 progressive disclosure，也就是渐进式加载：Agent 启动时通常只加载 Skill 的名称和描述，真正匹配任务时才读取完整 SKILL.md，需要时再读取脚本、参考资料或 assets。(Agent Skills) OpenAI Codex Skills 文档也采用类似机制：Codex 会先看到每个 Skill 的名称、描述和路径，只有决定使用某个 Skill 时才加载完整说明。(OpenAI开发者)

这点很关键。

它解决了一个大问题：能力可以很多，但上下文不能无限。

也就是说，未来团队沉淀的不是一个个 Prompt，而是一套可版本化、可审计、可复用的 Skill 库。

四、MCP：让 Agent 接入外部世界的标准协议

Agent 真正有用，一定要连接外部系统。

它要读数据库、查文档、调用 API、访问代码仓库、操作 SaaS、生成文件、提交任务。

问题来了：每接一个系统都单独写一套工具吗？

如果有 10 个 Agent、20 个系统，就会变成 200 套集成关系。这也是过去很多 AI 应用难以维护的原因。

MCP，也就是 Model Context Protocol，解决的就是这个问题。

MCP 官方规范把它定义为一种开放协议，用于让 LLM 应用与外部数据源和工具无缝集成。它提供标准方式，让应用可以共享上下文、暴露工具能力，并构建可组合的集成与工作流。协议中有 Host、Client、Server 等角色，并基于 JSON-RPC 2.0 进行通信。(模型上下文协议)

可以简单理解：

MCP 是 Agent 时代的工具接入协议。

在 MCP 里，Server 可以暴露三类典型能力：

Tools：工具。比如查询订单、读取数据库、调用搜索、创建工单。

Resources：资源。比如文件、文档、数据表、知识库内容。

Prompts：提示模板。比如某类任务的标准提示词入口。

MCP Tools 规范说明，MCP Server 可以暴露可由语言模型调用的工具，这些工具能让模型与外部系统交互，例如查询数据库、调用 API 或执行计算。规范也提醒，工具调用应当在产品层面做好可见性和用户确认，尤其是高风险动作。(模型上下文协议)

这就是 MCP 的工程意义：

以前是 Agent 适配每个工具。以后是工具按 MCP 暴露能力，Agent 通过标准协议调用。

当企业内部系统越来越多，MCP Gateway 会变成 Agent 平台的关键基础设施。

五、CLI：为什么命令行重新变重要了？

很多人以为 Agent 的入口一定是聊天窗口。

但在开发者场景里，CLI 正在变成非常重要的 Agent 入口。

原因很简单：命令行天然靠近真实工作现场。

代码在本地。 Git 在本地。测试命令在本地。构建脚本在本地。日志、配置、环境变量也经常在本地。

一个 Agent 如果只能聊天，最多给建议；如果能进入 CLI，就可以读文件、改代码、跑测试、看报错、再修复。

OpenAI Codex CLI 官方文档称，它是可以在本地终端运行的 coding agent，能够在选定目录中读取、修改并运行代码。(OpenAI开发者) Anthropic 的 Claude Code 官方文档也描述其为 agentic coding tool，可以读取代码库、编辑文件、运行命令，并集成开发工具，支持终端、IDE、桌面和浏览器等入口。(Claude API Docs)

这解释了为什么 CLI 会重新火起来。

CLI 不是过时界面，而是 Agent 最容易获得“执行权”的地方。

一个典型开发者 Agent，会经历这样的过程：

agent "帮我分析这个仓库的支付模块，并找出潜在异常处理问题"

Agent 可能会：

读取目录结构；找到支付相关代码；分析调用链；运行测试；发现异常处理缺口；修改代码；再次运行测试；生成变更说明。

这和传统 ChatBot 已经不是一个物种了。

CLI 的本质，是给 Agent 一个可控的执行环境。它让 Agent 不只是“会说”，而是“能动手”。

六、这五件套到底怎么配合？

可以用一句话概括：

Prompt 定义本次任务的规则，Skill 提供可复用能力，MCP 连接外部工具，CLI 提供执行现场，Agent 负责把它们编排成闭环。

举个例子。

用户说：

帮我分析一下这个 SaaS 产品的增长机会，并生成一份公众号文章大纲。

一个工程化 Agent 不应该直接开始写。

它应该先做这些动作：

第一步，理解目标。用户要的是增长机会分析，不只是文章。

第二步，选择 Skill。匹配到“产品分析 Skill”和“公众号写作 Skill”。

第三步，构造上下文。读取用户提供的产品介绍、历史讨论、行业资料、竞品信息。

第四步，调用 MCP 工具。通过 MCP 查数据库、读文档、拉取网页信息或企业内部知识库。

第五步，必要时使用 CLI。如果有数据文件，就用脚本清洗；如果要生成图表，就跑代码；如果要输出 Markdown，就写文件。

第六步，生成交付物。输出分析结论、文章结构、标题建议和配图方案。

第七步，记录过程。把这次分析中可复用的方法沉淀回 Skill 或模板库。

这就是从“问答”到“工作流”，再到“能力资产”的升级。

七、真正难的不是 Demo，而是工程化

很多 Agent Demo 看起来很惊艳，但一进生产就容易出问题。

常见问题有五类。

第一，Prompt 越写越长。所有规则都塞进 Prompt，最后上下文混乱、维护困难、成本升高。

解决方法是：把稳定流程抽成 Skill，把动态约束留在 Prompt。

第二，工具权限过大。Agent 能读、能写、能删、能发邮件、能调用支付接口，但没有权限隔离和确认机制。

解决方法是：MCP Gateway 做权限控制，高风险动作强制人工确认。

第三，没有观测。Agent 为什么调用这个工具？为什么失败？哪一步成本最高？用户不满意是模型问题、Prompt 问题，还是工具返回问题？

解决方法是：Tracing、日志、事件流、工具调用记录必须从第一天就做。

第四，没有评测。很多团队上线 Agent 后，只靠用户反馈判断效果。这样很难迭代。

解决方法是：为高频任务建立测试集，对 Prompt、Skill、工具链做持续评测。

第五，Skill 描述写得太泛。比如 description 写“用于数据分析”，Agent 就很难判断什么时候该用、什么时候不该用。

解决方法是：Skill description 要写清触发场景、边界和反例。

八、如果做成产品，架构应该怎么设计？

如果你要做一个真正可用的 Agent SaaS，不建议一上来就堆很多 Agent。

更合理的方式，是先搭一个 Agent Runtime。

一个基础架构可以拆成四层。

第一层：用户入口。Web、App、企业微信、飞书、CLI、IDE、API，都只是入口。不要把 Agent 逻辑绑死在某一个入口里。

第二层：Agent Runtime。负责任务编排、状态管理、工具路由、多 Agent 协作、人类确认、异常重试。

第三层：能力资产层。包括 Prompt 模板库、Skill Registry、RAG 知识库、Memory 策略。这里沉淀的是企业真正的 AI 能力资产。

第四层：工具连接层。包括 MCP Gateway、Tool Catalog、OAuth、RBAC、审批、审计、沙箱执行。

除此之外，还必须有一层底座能力：

Tracing、Evals、成本控制、权限策略、回滚机制、SLA、灰度发布。

OpenAI 在 AgentKit 中也把企业连接、数据治理和安全能力放到非常重要的位置，例如 Connector Registry 用于统一治理 ChatGPT 与 API 中的数据源，且包含第三方 MCP；Guardrails 则用于帮助防护意外或恶意行为。(OpenAI)

这说明行业方向已经很清楚：

Agent 不会只是一个聊天组件。它会变成一套平台能力。

九、最后：未来拼的不是谁 Prompt 写得好，而是谁能沉淀能力

Prompt 当然重要，但 Prompt 不是终局。

真正有壁垒的，是把一次次成功经验沉淀成可复用能力：

一个好的行业分析 Skill；一个稳定的数据清洗 Skill；一个符合公司风格的写作 Skill；一个能接企业系统的 MCP Server；一个安全可控的 Agent Runtime；一个能持续评测和优化的反馈闭环。

未来的个人 AI 助手、企业 AI 助手，本质上都会走向同一个方向：

用 Agent 做编排，用 Skill 做能力沉淀，用 MCP 做系统连接，用 CLI/API 做真实执行，用 Prompt 做任务契约。

谁能把这五件事组合好，谁就能把 AI 从“会聊天的工具”，变成“能交付的生产力系统”。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业