MCP、Skill、Agent：AI 圈的三个流行词，到底在说什么？——以及 Meta 收购 Manus 这场"垃圾联姻"

发布日期：2025-12-31 08:36:04 浏览次数： 3035

作者：靳岩岩

微信搜一搜，关注“靳岩岩”

今天朋友圈被 Meta 收购 Manus 的新闻刷屏了。

与此同时，Anthropic 刚发布了 Claude Skill。

作为一个天天用 Claude Code 干活的人，我来聊聊这几个词到底是什么意思，以及为什么我觉得大部分人都被忽悠了。

━━━━━━━━━━━━━━━━━━━━

◆ 目录

一、MCP：给 AI 装"手"的标准接口

· 为什么 AI 需要调用外部工具？

· MCP 之前：各写各的

· MCP 之后：统一协议

二、Skill：MCP 的傻瓜版

· 本质：打包好的 Tool 商店

· 对谁有用？对谁没用？

三、Agent：2025 年最大的泡沫

· Agent 到底在干嘛？

· 为什么现在的 Agent 都是玩具？

· 概率链崩塌：10 步任务的数学

四、Meta × Manus：废物 + 骗子 = 独角兽

· Manus 是什么？高级按键精灵

· Meta 为什么买它？不是为了智能

· 朋友圈为什么高潮？焦虑经济学

五、真正的"Agent"长什么样？

· 我现在的工作流

· 为什么命令行比图形界面强？

· 结论：你才是那个 Agent

━━━━━━━━━━━━━━━━━━━━

◆ 一、MCP：给 AI 装"手"的标准接口

━━━━━━━━━━━━━━━━━━━━

先说最底层的概念。

MCP = Model Context Protocol，模型上下文协议。

这是 Anthropic 在 2024 年底搞的一个开放标准。

────────────────────

【AI 的手脚问题】

大语言模型（LLM）本质上只会"说话"——你给它文字，它返回文字。

但很多任务需要"动手"：

▸ 查数据库

▸ 读本地文件

▸ 调用 API

▸ 执行 Shell 命令

怎么让 AI "动手"？

答案是：Tool Calling（工具调用）。

你给 AI 定义一堆"工具"，告诉它：

"这个工具叫 query_database，输入是 SQL 语句，输出是查询结果"

然后 AI 在对话过程中，如果需要查数据库，就会生成一个工具调用请求，你的代码负责执行，再把结果喂回去。

────────────────────

【MCP 之前：各写各的】

问题是：每家 AI 公司的工具定义格式不一样。

▸ OpenAI：用 Function Calling

▸ Anthropic：用 Tool Use

▸ Google：又是另一套

你写了一个"查 GitHub"的工具给 Claude 用，想给 GPT 也用？对不起，得重写一遍。

────────────────────

【MCP 之后：统一协议】

MCP 干的事情就是：定义一个标准格式。

▸ 工具怎么描述（JSON Schema）

▸ 工具怎么调用（请求/响应格式）

▸ 权限怎么管理

这样，你写一个 MCP Server（比如"GitHub 连接器"），理论上所有支持 MCP 的 AI 都能用。

「就像 USB 接口——不管什么设备，插上就能用。」

────────────────────

【MCP 长什么样？一个简单例子】

假设你想让 AI 能查天气。

▸ 第一步：定义工具（JSON Schema）

{

"name": "get_weather",

"description": "查询指定城市的天气",

"input_schema": {

"type": "object",

"properties": {

"city": {

"type": "string",

"description": "城市名称，如北京、上海"

}

"required": ["city"]

}

▸ 第二步：AI 调用时会生成这样的请求

{

"tool": "get_weather",

"input": { "city": "北京" }

}

▸ 第三步：你的代码执行真正的查询，返回结果

{

"result": "北京今天晴，气温 -3°C 到 5°C"

}

▸ 第四步：AI 拿到结果，继续对话

就这么简单。MCP 规定的就是这几个 JSON 的格式。

────────────────────

【MCP 的隐藏门槛：模型要专门训练】

MCP 只是个「协议」，定义了 JSON 格式怎么写。

但问题是：「AI 模型要能理解这个格式，才能正确调用工具。」

这不是天生的。模型需要专门训练才能学会：

▸ 什么时候该调用工具（而不是自己瞎编答案）

▸ 调用哪个工具（从几十个工具里选对的）

▸ 参数怎么填（不能把"北京"填到"日期"字段里）

▸ 怎么处理返回结果（整合到回答里）

Claude 说它调用工具时的体验：不是"一个个 token 拼出 JSON"，而是"想一下就有了"——整个调用结构像一个完整的动作单元，直接冒出来。

这说明 Anthropic 对 Claude 做过专门的 Tool Calling 训练。这个能力是「本能」，不是「模拟」。

「但其他模型不一定有这个本能。」

▸ 有些开源模型只会聊天，不会调用工具

▸ 有些模型能调用，但经常填错参数、选错工具

▸ 有些模型调用格式跟 MCP 不兼容

所以 MCP 虽然是"开放标准"，但实际上：

▸ ✓ Claude、GPT-4 这类顶级模型：支持良好

▸ △ 部分开源模型：需要微调才能用

▸ ✗ 小模型/老模型：基本不支持

「协议是通用的，但能用这个协议的模型是稀缺的。」

────────────────────

【MCP 的价值】

对开发者：

▸ ✓ 工具复用：写一次，到处用

▸ ✓ 生态共享：别人写的工具你也能用

▸ ✓ 标准化：不用学每家的私有格式

对普通人：

▸ ✗ 没用。你又不写代码。

━━━━━━━━━━━━━━━━━━━━

◆ 二、Skill：MCP 的傻瓜版

━━━━━━━━━━━━━━━━━━━━

Anthropic 刚发布的 Claude Skill，本质就是：

「官方帮你写好、帮你部署好的 MCP。」

或者说：MCP 的 App Store 版。

────────────────────

【以前（2024）】

你想让 Claude 连 GitHub，得自己：

1. 写一个 MCP Server（Python/Node.js）

2. 定义工具的 JSON Schema

3. 处理 OAuth 鉴权

4. 部署到某个地方（你的服务器或本地）

5. 配置 Claude 连接这个 Server

对程序员来说是基操，对产品经理来说是天书。

────────────────────

【现在（2025 Skill）】

Anthropic 把这些常用的连接器打包成了"Skill"。

用户点一下"安装 GitHub Skill"，Claude 就自动拥有了读取仓库的权限。

不用写代码，不用配置，不用部署。

「就像手机上装 App 一样。」

────────────────────

【为什么不用自己跑 Server 了？】

因为 Anthropic 帮你跑了。

▸ MCP 模式：你自己写 Server，自己部署，自己维护

▸ Skill 模式：Anthropic 在云端跑好了 Server，你只管用

本质上 Skill 背后还是 MCP Server，只是：

▸ 代码是 Anthropic（或第三方开发者）写的

▸ 部署在 Anthropic 的云上

▸ 你只需要授权（比如登录 GitHub），不用管技术细节

「Server 没消失，只是从你家搬到了 Anthropic 家。」

代价是什么？

▸ 你的数据要过 Anthropic 的服务器

▸ 你没法定制 Skill 的行为（人家写死了）

▸ 商店里没有的 Skill，你还是得自己写 MCP Server

────────────────────

【Skill 长什么样？对比 MCP】

同样是"查天气"这个功能：

▸ MCP 方式（程序员）：

1. 写一个 Python/Node.js 服务

# weather_server.py

from mcp import Server

server = Server("weather")

@server.tool("get_weather")

def get_weather(city: str):

# 调用天气 API

return f"{city}今天晴，气温 -3°C 到 5°C"

server.run()

2. 部署到你的服务器或本地

3. 配置 Claude 连接这个 Server

▸ Skill 方式（小白）：

【网页版 Claude.ai】

1. 打开 Settings > Capabilities > Skills

2. 找到想用的 Skill

3. 打开开关

4. 完事

【Claude Code】

把 Skill 文件夹放到 ~/.claude/skills/ 目录下，自动加载

【API】

请求时加 Beta header，指定要用的 Skill

区别一目了然：

MCP Skill

代码你写 Anthropic/第三方写

部署你管 Anthropic 管

定制随便改不能改

数据在你手里过 Anthropic

适合程序员小白

────────────────────

【对谁有用？】

▸ ✓ 产品经理：终于能让 Claude 连上公司的 Notion 了

▸ ✓ 运营人员：可以让 Claude 帮忙发推特、管日程

▸ ✓ 小白用户：点点点就能用

────────────────────

【对谁没用？】

▸ ✗ 程序员：你本来就会写 MCP Server，商店里的 Skill 反而是"僵尸预设"

▸ ✗ 高阶用户：官方 Skill 的提示词会干扰你自己的提示词

────────────────────

【我的判断】

Skill 是给「不会写代码的人」用的义肢。

如果你会写代码，直接用 MCP 自己写私有工具，比用商店的 Skill 更灵活、更可控。

商店里的 Skill 就像预装的 App——能用，但不一定好用。

━━━━━━━━━━━━━━━━━━━━

◆ 三、Agent：2025 年最大的泡沫

━━━━━━━━━━━━━━━━━━━━

现在到了最火的词：Agent。

先给一个定义：

「Agent = AI + 自主决策 + 工具调用 + 循环执行」

普通 AI 聊天：你问一句，它答一句。

Agent：你给一个目标，它自己拆解任务、调用工具、观察结果、继续执行，直到完成。

────────────────────

【Agent 在干嘛？】

一个典型的 Agent 工作流：

1. 用户："帮我订明天北京到上海的机票，最便宜的"

2. Agent 思考：需要查航班 → 调用"航班查询"工具

3. 工具返回：10 个航班，价格 500-2000

4. Agent 思考：需要比价 → 找到最便宜的

5. Agent 思考：需要下单 → 调用"订票"工具

6. Agent 执行：填写信息、确认支付

7. 返回结果："已订票，航班 MU5101，500 元"

看起来很美好对吧？

────────────────────

【为什么现在的 Agent 都是玩具？】

问题出在第 2-6 步的每一步。

AI 不是 100% 可靠的。它会：

▸ 理解错误：你说"最便宜"，它选了"最快"

▸ 工具调错：该查航班，它去查了酒店

▸ 参数填错：日期写成 2024 年而不是 2025 年

▸ 幻觉：编造一个不存在的航班号

▸ 死循环：卡在某个步骤反复重试

────────────────────

【概率链崩塌：10 步任务的数学】

假设 AI 每一步的成功率是 p。

一个任务需要 10 步。

总成功率 = p^10

▸ 如果 p = 99%（顶级模型）：0.99^10 = 90%（还行）

▸ 如果 p = 95%：0.95^10 = 60%（勉强能用）

▸ 如果 p = 90%：0.90^10 = 35%（废了）

▸ 如果 p = 80%：0.80^10 = 10%（纯赌博）

现在市面上的 Agent，用的大多是中等模型（成本考虑），单步成功率大概 80-90%。

10 步任务的成功率：10%-35%。

「换句话说：你让它办事，十次有六七次会搞砸。」

这就是为什么现在的 Agent 只能做简单任务（3-5 步），复杂任务必崩。

────────────────────

【Human-in-the-loop：真正能用的方案】

怎么解决？

答案很简单：别让 AI 完全自主，让人类在关键节点介入。

▸ AI 执行 → 报告进度 → 人类确认 → 继续执行

这叫"Human-in-the-loop"（人在回路中）。

但这就不是"自主 Agent"了，这是"AI 助手"。

「所谓的 Agent 革命，其实是把 AI 助手包装了一个新名字。」

━━━━━━━━━━━━━━━━━━━━

◆ 四、Meta × Manus：废物 + 骗子 = 独角兽

━━━━━━━━━━━━━━━━━━━━

好，现在聊聊今天刷屏的新闻。

Meta 花 20 亿美元收购了 Manus。

────────────────────

【Manus 是什么？】

Manus 是一个"通用 Agent"公司。

创始团队是中国人，公司注册在新加坡——赚中国人的钱，不给中国交税，标准操作。

它的卖点是：让 AI 帮你在电脑上"点点点"——打开网页、填表、订票、发帖。

技术路线：

▸ 底层：套一个大模型（Claude 或 GPT-4）

▸ 中层：写一堆 Prompt 让它"规划任务"

▸ 上层：用 Selenium/Puppeteer 模拟鼠标点击

「本质就是个高级版的按键精灵。」

几个月前它火过一阵，媒体说"中国之光"、"邀请码卖天价"。

但用过的人都知道：它经常点错、卡住、死循环。

因为它底层模型的单步成功率不够高，概率链一长就崩。

────────────────────

【Meta 为什么买它？】

Meta 不是为了"智能"买它。

Meta 想做的是：把这个能力塞进 Ray-Ban 智能眼镜里。

（注：Ray-Ban 是雷朋，眼镜品牌。Meta 跟它合作出了智能眼镜，能拍照、语音助手。）

想象一下：

▸ 你戴着眼镜看一眼海报

▸ 说一句"帮我买票"

▸ AI 自动打开网页、填写信息、完成支付

这是 Meta 的元宇宙 + AI 战略。

它不在乎 Manus 的 Agent 有多智能——它只需要一个能"模拟点击"的壳子。

────────────────────

【朋友圈为什么高潮？】

因为大家看到的是：

▸ "又有人因为 AI 暴富了"

▸ "Meta 这种巨头都入场了"

▸ "是不是风口真的来了"

他们转发的不是技术，是「焦虑」。

▸ 焦虑自己被时代抛弃

▸ 焦虑不懂 AI 会失业

▸ 焦虑错过这波红利

「朋友圈转发量 = 焦虑指数」

────────────────────

【为什么我说是"垃圾联姻"？】

Meta 的 AI 能力（Llama）在顶级智力赛道上是笑话。

▸ Llama 4 被 DeepSeek-V3 按在地上摩擦

▸ 国内很多开发者宁可用 Qwen、DeepSeek、Kimi，也不用 Llama——因为真的不好用

▸ 杨乐村（LeCun，Meta 前首席 AI 科学家，2025 年 11 月离职创业）天天喊"世界模型"，自家公司全靠堆 LLM

▸ Meta 走的是"开源倾销"路线，想做 AI 界的安卓，但智商不够

Manus 的 Agent 能力也是玩具级。

▸ 底层套别人的模型

▸ 经常点错、卡住

▸ 复杂任务成功率可能不到 30%

两个都不是顶级玩家，凑一起就成了"独角兽"？

「这不是技术的胜利，是资本的胜利。」

━━━━━━━━━━━━━━━━━━━━

◆ 五、真正的"Agent"长什么样？

━━━━━━━━━━━━━━━━━━━━

说完泡沫，说说真正能用的东西。

────────────────────

【我现在的工作流】

我用 Claude Code（命令行版 Claude）干活。

▸ 我说："把这个目录下超过 30 天的日志删掉"

▸ Claude 理解意图 → 生成 Shell 命令 → 执行 → 返回结果

这个流程：

用户 → 自然语言 → AI → Shell 命令 → Linux 内核 → 结果

对比 Manus 的流程：

用户 → 自然语言 → AI → 识别屏幕截图 → 模拟鼠标移动 → 点击 → 再截图 → 再识别……

哪个更快、更准、更省资源？

────────────────────

【为什么命令行比图形界面强？】

图形界面（GUI）是给人类用的——人类用眼睛看屏幕很快，但打字很慢。

命令行（CLI）是给机器用的——精准、高效、无歧义。

大语言模型"看屏幕"极其低效：

▸ 截图要转成像素 → 像素要编码成 token → token 数量爆炸

▸ 一张 1080p 截图可能要消耗几千个 token

▸ 而同样的信息用命令行输出，可能只要几十个 token

顺便说一句：即使是最大的 Gemini 3.0，上下文也只有"百万 token"——听起来很多对吧？

换算一下：100 万 token ≈ 几 MB 的文本。一张 1.44MB 的软盘就能装下。

（注：软盘是一种古老的存储介质，容量 1.44MB，比你用过的所有 U 盘都小。现在的年轻人可能没见过。）

「AI 的'记忆'其实小得可怜。」

让 AI 去"看屏幕、点鼠标"，就像让一个会说话的人去打手语——能用，但低效。

「AI 本来就会"说"命令，你非要让它"比划"，这不是脱裤子放屁吗？」

────────────────────

【你才是那个 Agent】

Manus 之类的 Agent 想做的是："完全自主，不需要人类干预"。

但我们已经证明了，现在的模型达不到这个要求。

真正能用的方案是：

▸ AI 是"运动神经"——负责执行具体操作

▸ 人类是"大脑皮层"——负责决策和纠错

你不需要一个"自主 Agent"，你需要一个「听得懂话的助手」。

而 Claude Code 这种命令行 AI，已经做到了：

▸ 你用自然语言描述意图

▸ 它翻译成精确的命令

▸ 你看结果，决定下一步

「你自己就是那个 Agent。AI 是你的延伸，不是你的替代。」

━━━━━━━━━━━━━━━━━━━━

◆ 总结

━━━━━━━━━━━━━━━━━━━━

【三个词的本质】

▸ MCP：给 AI 装"手"的标准接口协议。对开发者有用。

▸ Skill：MCP 的傻瓜版，打包好的工具商店。对小白有用。

▸ Agent：AI + 自主决策 + 工具调用。概念很美，现实很骨感。

【为什么 Agent 是泡沫】

▸ 单步成功率不够高

▸ 概率链一长就崩

▸ 复杂任务成功率可能不到 30%

【Meta × Manus】

▸ Meta：想做 AI 界的安卓，走倾销路线

▸ Manus：高级按键精灵，技术含量有限

▸ 收购原因：给 Ray-Ban 眼镜找个"点击壳子"

▸ 朋友圈高潮原因：焦虑 + 从众

【真正能用的 AI 工具】

▸ 命令行 AI（Claude Code）> 图形界面 Agent（Manus）

▸ Human-in-the-loop > 完全自主

▸ 你才是那个 Agent，AI 是你的延伸

────────────────────

【最后】

下次看到"Agent"这个词，问两个问题：

1. 单步成功率是多少？

2. 任务需要几步？

然后算一下 p^n。

如果答案小于 50%，那就是玩具。

如果答案大于 90%，那才值得用。

目前市面上大部分 Agent，都是前者。

「真正的智能不是'自己干'，是'知道什么时候该问人'。」

现在的 Agent 还没学会这一点。

━━━━━━━━━━━━━━━━━━━━

◆ 附注：名词对照

▸ MCP（Model Context Protocol）：模型上下文协议，Anthropic 提出的工具调用标准

▸ Skill：Claude 的"技能商店"，打包好的 MCP 工具

▸ Agent：能自主决策和执行任务的 AI 系统

▸ Tool Calling：工具调用，让 AI 调用外部工具的能力

▸ Human-in-the-loop：人在回路中，人类参与 AI 决策过程

▸ CLI：命令行界面

▸ GUI：图形用户界面

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业