我要投稿

小智App与MCP技术畅谈

发布日期：2025-06-30 16:26:43 浏览次数： 2024

作者：极客技术分享

微信搜一搜，关注“极客技术分享”

下面是正在开发中的一些界面截图：

如图所示：现在正在开发的功能是智能体和MCP，这个是未来发展的趋势

什么是智能体Agent呢？与大模型的关系是什么？

想象一下，智能体 (Agent) 就像一个能独立思考和行动的“小助手”。它能感知周围环境（比如看到、听到），自己做决策，然后采取行动去完成特定目标。比如，你家里的扫地机器人就是一个简单的智能体，它能感知到垃圾，规划清洁路线并执行清扫。

那么，大模型 (LLM) 在这里扮演什么角色呢？大模型通常是智能体的“大脑”。它为智能体提供了强大的理解、推理和规划能力。

举个例子：一个“旅行规划智能体”。你告诉它“我想去一个温暖的海边城市度假一周”，大模型会帮助智能体理解你的意图，分析可能的目的地，然后智能体可能会调用外部工具（如天气查询、机票预订系统）来收集信息、比较方案，并最终为你规划出一个完整的行程。

简单说，大模型是“思考者”，智能体是“行动者”。两者结合，就能让AI更好地为我们服务，完成更复杂的任务。

未来手机的发展趋势是什么？

基于智能体与大模型的协同，未来手机将进化为更懂你的“超级助理”。

它不再仅仅是被动执行命令的工具，而是能主动感知你的情境（如日程、位置、习惯），并由大模型驱动其“大脑”进行智能决策。例如，在你下班时，手机智能体可能会结合实时交通、天气和你的口味偏好，主动为你推荐回家路线或预订餐厅。

跨应用的复杂任务也将通过一句话轻松搞定，比如“帮我预订明晚7点常去那家餐厅的两人位，并通知张三”。手机智能体将自主调用地图、日历、订餐和通讯应用来完成，成为连接数字与物理世界的个性化智能中枢。

MCP是什么？为什么需要MCP？

首先，什么是MCP（模型上下文协议）？

想象一下，我们有很多AI“专家”（不同的模型、工具、数据库）。MCP (Model-Context Protocol) 就像是为这些专家设计的一套通用的沟通规则和数据格式。它定义了如何清晰、一致地传递信息（比如你的指令、历史对话、外部知识等“上下文”）以及如何请求和接收特定任务的执行结果。

为什么需要MCP？

正如我们前面讨论的，未来的手机智能体需要调用各种能力：大模型进行理解和规划，日历应用查日程，地图应用导航，订票应用买票等等。如果每个应用、每个模型都有自己独特的“说话方式”和“理解方式”，那么让它们协同工作就会像建巴别塔一样困难。

MCP就是为了解决这个“语言不通”的问题。它希望提供一个标准，让所有参与方都能顺畅地交换信息，降低集成难度，提高协作效率。

MCP在未来手机发展中的作用和当下可行的技术方案：

统一的“大脑”与“四肢”的沟通桥梁：操作系统层面集成

1：手机操作系统可以内置对MCP的支持。当大模型需要调用系统级功能（如设置闹钟、调节亮度）或第三方App的特定功能时，通过OS提供的MCP接口进行。App生态的API封装

2：鼓励第三方App开发者将其核心功能通过符合MCP规范的API暴露出来。例如，一个笔记App可以提供一个“创建笔记”的MCP接口。中间件/代理服务

3：可以开发一个运行在手机上的“智能体协调器”或“MCP代理”。这个代理负责接收大模型的MCP指令，将其翻译成各个App能理解的传统API调用，并将结果转换回MCP格式反馈给大模型。作用

4：手机上的大模型（大脑）在理解用户意图后，需要调用手机上的各种应用或功能（四肢）。MCP可以作为标准指令格式，让大模型清晰地告诉某个App（如“相机App”）：“请切换到人像模式并聚焦于画面中央的人脸”。App执行后，再通过MCP格式反馈结果。可行方案

跨应用任务流的编排：基于意图的路由

1：大模型生成一个包含多个步骤的“计划”，每个步骤都是一个MCP格式的“意图+参数”。协调器根据意图路由到相应的App或服务。标准化上下文对象

2：定义标准的MCP上下文对象（如用户信息、位置信息、任务状态），方便在任务流的不同阶段传递和复用。作用

3：对于复杂指令如“帮我预订明晚三里屯的餐厅，并把预订信息发给小明，同时创建日历提醒”，MCP能够让大模型将任务拆解，并按顺序或并行地通过MCP调度日历、订餐App、通讯App。每个步骤的上下文（如餐厅名称、时间）可以通过MCP在不同模块间传递。可行方案

工具和知识的动态调用：轻量级功能即服务 (FaaS)

1：将手机上的小工具或小型专用模型封装成符合MCP的微服务，按需调用。插件化架构

2：类似于浏览器插件，手机可以允许安装符合MCP规范的“智能体插件”，扩展智能体的能力。作用

3：当大模型需要外部知识（如实时天气、股票价格）或特定工具（如计算器、翻译器）时，可以通过MCP向注册的“MCP服务提供者”发出请求。可行方案

MCP（模型上下文协议）在未来手机场景下的概念架构图

+-----------------+                              |    User Input   |                              | (Voice, Text)   |                              +--------+--------+                                       |                                       v                         +---------------------------+                         |   AI Agent Core / LLM     |  <--- 手机的“大脑”                         | (Understanding, Planning, |                         |  Orchestration, Memory)   |                         +-----------+---------------+                                     | ▲                                     | | MCP Request (e.g., "Get Weather for Beijing")                                     | | MCP Response (e.g., "Sunny, 25°C")                                     v |                         +===========================+                         |  **MCP (Model-Context    |  <--- 通用沟通语言/标准接口                         |        Protocol)**        |                         +===========================+                                     | ▲                                     | | (Data/Control Signals via MCP)            -------------------------+ +-------------------------           /            |            |            |            \          v             v            v            v             v+------------+  +-------------+  +-----------+  +----------+  +----------+| On-Device  |  | System      |  | External  |  | Hardware |  | Other    || Apps       |  | Services    |  | APIs/Cloud|  | Access   |  | Agent    || (Calendar, |  | (Location,  |  | (Weather, |  | (Camera, |  | Modules/ || Maps)      |  | Notifications)|  | Booking)  |  | Mic)     |  | Tools)   |+------------+  +-------------+  +-----------+  +----------+  +----------+          ▲             ▲            ▲            ▲             ▲          |             |            |            |             |          -------------------------  ------------------------- (Feedback/Data to Agent Core via MCP)                                     |                                     v                              +-----------------+                              |   User Output   |                              | (Screen, Voice) |                              +-----------------+

架构图解说：

1. User Input (用户输入): 用户通过语音、文字等方式向手机发出指令或提出问题。

2. AI Agent Core / LLM (AI智能体核心/大模型):

这是手机的“大脑中枢”。它接收用户输入，利用大模型的自然语言理解（NLU）能力来明白用户的意图。

它负责规划如何完成任务，这可能涉及到调用多个功能或App。

它进行编排，决定调用哪些模块以及调用的顺序。

它维护上下文 (Memory) ，记住对话历史、用户偏好等。

3. MCP (Model-Context Protocol) (模型上下文协议):

这是整个架构的关键。MCP在这里扮演**“通用沟通语言”和“标准接口层”** 的角色。

当AI Agent Core需要调用某个功能时，它会按照MCP的规范，将请求（包含意图、参数、上下文信息等）发送出去。

当被调用的模块完成任务后，也会按照MCP的规范，将结果或状态反馈给AI Agent Core。

4. Capabilities Layer (能力层 - 通过MCP交互):On-Device Apps (本地应用):