我要投稿

托管 Agent 执行循环只是起点，AgentRun 托管的更是企业 AI 生产全链路

发布日期：2026-04-21 18:57:12 浏览次数： 1818

作者：阿里云云原生

微信搜一搜，关注“阿里云云原生”

行业背景：托管式 Agent 成为主流方向

Cloud Native

AI Agent 正从技术概念快步走向生产应用。然而，当开发者试图将原型推向生产环境时往往发现：从“跑通 Demo”到“稳定上线”，每一步都是对基础设施的真实考验。更聪明的模型解决不了这道鸿沟——企业真正需要的，是一个能全面承接底层复杂性的基础设施平台。

这正是阿里云 AgentRun 的出发点。自 2025 年 12 月正式发布以来，AgentRun 以生态开放、灵活组装为设计理念，为 AI Agent 提供从开发、部署到运维的全生命周期管理。在已落地的企业客户中，平均 TCO 降低 60%。

与此同时，托管式 Agent 正在成为行业共识。Anthropic 推出 Claude Managed Agents，进一步印证了这一方向的确定性——越来越多的平台开始把 Agent Loop、沙箱隔离、会话管理这些底层复杂性从开发者手里接管过来，开发者只需声明“需要一个什么样的 Agent”，剩下的推理、工具调用、上下文管理交给平台承接。

这套托管范式的核心设计已逐渐收敛，通常围绕四个概念展开：

Agent 定义：声明模型、系统提示词、可用工具，创建一次，多个会话复用。
运行环境：Agent 的容器模板，定义网络策略、文件系统等隔离边界。
会话：将 Agent 与运行环境绑定，代表一次完整的任务执行。
事件流：会话内的消息通道，实时推送用户输入、模型回复、工具调用，一次典型的执行流程是：声明 Agent → 初始化运行环境 → 创建会话 → 发送消息 → 接收事件流。

作为一站式 Agentic AI 基础设施平台，阿里云 AgentRun 在这条主线上走得更深：模型无关是基础——通义千问、DeepSeek、智谱 AI、自部署开源模型均可自由接入；企业级能力是重点投入——数据不出域、多租户隔离、全链路可观测、Serverless 原生弹性。

这些在真实落地中反复被客户验证的能力，构成了 AgentRun 区别于通用托管产品的核心差异。

AgentRun 如何定义托管 Agent

Cloud Native

AgentRun 的几个核心抽象，可以和上述托管范式对应起来：

超级 Agent：内置 Agent Loop 的可执行对象，对应“Agent 定义 + 内置运行时”。

Agent Runtime 与 Sandbox：运行环境和隔离沙箱，底层是阿里云函数计算FC。
会话管理：一次任务对应一个会话，持有上下文、中间状态、事件流。
MCP 工具与 Skills 市场：工具级扩展 + 任务级扩展，两条路径并存。
模型服务 ModelService：模型代理层，解耦 Agent 逻辑和模型选择。
记忆与知识库：长期记忆和 RAG 检索，作为 Agent 常驻上下文。

使用流程上和其他托管平台一致：声明一个超级 Agent、创建会话、发送消息、接收事件流。差异落在能力拆分的粒度、模型接入方式、以及企业场景的深度支持上。

AgentRun 拥有的差异化能力是什么

Cloud Native

Claude Managed Agents 把 Agent 托管需要的几件核心事情做齐了：Agent 定义、Environment 容器沙箱、Session 会话、Events 事件流，再加上绑定 Claude 模型与一组内置工具（Bash、文件操作、Web 搜索）。这套组合足以支撑大多数通用场景，也把托管 Agent 的产品范式清晰地立了起来。

AgentRun 在同一条主线上，因为定位是云平台视角的运行时，在四个地方做了更深一些的投入：运行时与沙箱基于阿里云函数计算 FC，启动到毫秒级，内核级隔离下能装下代码解释器、浏览器自动化、Computer Use 这类更重的能力；模型服务做到厂商无关，通义千问、DeepSeek、OpenAI、自部署开源模型可以自由切换和组合；工具与技能同时支持 MCP 和 Skills 市场，覆盖工具级和任务级两个粒度；会话与记忆把长期记忆和知识库作为 Agent 常驻的一等上下文，业务层不用再自建一套。

▍3.1 Agent 运行时与 Sandbox：更低的隔离层级

Agent 运行时与 Sandbox 底层基于阿里云函数计算 FC。每个沙箱与运行时独立内核，启动在毫秒级。

这样设计有两个原因：

一是多租户隔离更彻底。不同租户、不同会话的沙箱从内核就是隔离的，不存在容器逃逸的风险面。

二是沙箱能装下更重的能力。代码解释器需要挂 Jupyter Kernel、浏览器自动化需要 Headless Chromium、GUI 自动化需要完整桌面环境。这些在 MicroVM 里做，资源控制和兼容性空间更大。

目前 Sandbox 内置的能力：

Bash 与文件系统：完整 Shell 环境，文件上传下载双向打通。
代码解释器：Python、Node.js、Java 的 Jupyter Kernel，执行状态跨多轮保留。
浏览器自动化：基于 CDP over WebSocket，支持完整 Chromium 控制。
Computer Use：桌面级 GUI 操作能力。

▍3.2 厂商无关的模型服务：将模型选择留给用户

AgentRun 不绑定特定模型厂商。通过模型服务层，同一个 Agent 可以在通义千问、DeepSeek、OpenAI、自部署开源模型之间切换，也可以按任务类型路由到不同模型。

这是云平台视角产品的一个自然选择。面向不同行业和合规要求的客户，模型无关是一种基础能力：

成本敏感场景优先走小模型，必要时 Fallback 到大模型。
代码生成、长文本理解、多模态处理各自适合的模型不同。
合规场景对数据出境有硬性要求，只能使用境内或自部署模型。

AgentRun 的模型服务统一承载这些策略，同时提供 Token 级限流、多模型 Fallback、调用级成本归因。业务代码不感知底层模型变化，切换模型是配置层面的事。

▍3.3 MCP 与 Skills：工具级扩展与任务级复用

工具是 Agent 完成实际任务的“双手”。AgentRun 提供两条互补的路径：

MCP：原生支持标准协议，生态里已有的 MCP Server 直接接入，粒度小、组合自由。
Skills 市场：任务级能力单元，上千种经过测试的预置技能（网页检索、文档解析、数据可视化、SaaS API 对接），一次勾选挂到 Agent 上使用。

私有 Skills 托管同样打通：支持上传 Python / Node.js 包，或用 Markdown 声明式语法描述，AI 自动生成脚手架；托管时做代码安全扫描。来源不确定的 Skill 可挂到独立 Sandbox 运行，异常被 MicroVM 隔离在沙箱内。Skills 基于 Serverless 按需加载，配合 find-agentrun-skills 工具链打通本地开发与云端托管。

▍3.4 会话与记忆

会话事件流通过 SSE 推送，前端或上游应用可以实时拿到 Agent 的回复、工具调用、思考过程。会话的上下文、中间状态、文件产物都会持久化，支持后续恢复。

记忆独立于会话。短期记忆跟随会话；长期记忆跨会话保留用户偏好、历史结论、跨任务的知识；知识库承载 RAG 场景的完整链路（文档切片、向量化、检索召回）。

多轮对话或长时间任务这类需求，业务层不用再自己搭一套。

企业级场景：AgentRun 的深水区能力

Cloud Native

作为建立在阿里云上的托管 Agent 产品，AgentRun 的定位决定了企业级能力必须做深。这一节集中展开几个方向，也是我们在项目落地中反复被客户提到的关键点。

▍4.1 数据不出域：VPC 与专有网络

金融、政务、医疗类行业对数据主权的要求非常硬。Agent 不能把企业内网数据传给外部服务，同时又需要访问内部数据库、中间件和内部 API。

AgentRun 基于函数计算的网络能力，提供三种模式：

PUBLIC：完全公网访问。
PRIVATE：完全 VPC 内，不接公网。
混合：既能访问公网，也能打通 VPC。

Agent 可以直接访问企业 VPC 内的数据库、中间件、内部 API，请求链路在阿里云内部闭环。专有云和边缘部署形态也在规划中。

▍4.2 统一凭证管理

Agent 调用外部 API 时，凭证是绕不开的一环。如果留给业务层自行处理，AK/SK 和 Token 很容易散落在 Prompt 和工具代码里，难以审计和轮换。

AgentRun 把 Credential 作为一级资源，支持 OAuth2、API Key、JWT、Basic Auth、AK-SK、自定义 Header 等多种类型。凭证统一创建、绑定到工具或技能上、按需禁用和轮换，传输与存储全程加密。

这个抽象的价值在落地中体现得很直接：出问题时凭证可以快速禁用，审计要求来时操作链路有据可查，不同环境之间的凭证隔离也不用靠手工维护。

▍4.3 RAM 集成与多租户

AgentRun 对接阿里云 RAM 权限体系。不同子账号、不同团队看到的 Agent、工具、模型资源各自隔离，权限粒度可细到资源级。

多租户场景下，每个租户的会话、文件、凭证在数据层完全隔离，运行时由 MicroVM 沙箱保证隔离。这套能力对于 SaaS 类产品或大型集团内部多业务线共用 Agent 平台的场景尤其重要。

▍4.4 可观测性：OpenTelemetry 全链路

Agent 在生产环境的问题大多不是代码 Bug，而是 Prompt 触发了意外行为、模型输出不稳定、工具链路某一环超时。没有全链路 Tracing，排查非常困难。

AgentRun 集成 OpenTelemetry，生产环境可以看到：

每一次模型调用的耗时、Token 消耗、命中的模型。
每个工具调用的入参、出参、延迟。
任务整体成本，按 Agent、会话、工具维度归因。

数据接入日志服务后，可以直接用于告警、成本报表、性能分析。对于大规模使用的 Agent 系统，这一层往往决定了能不能规模化。

▍4.5 模型治理

ModelService 除了模型无关，还承担了企业级的模型治理职责：

多 Key 负载均衡，避免单个 Key 触发限流。
主备模型 Fallback，一个模型不可用时自动切换。
Token 级限流和并发控制，防止成本失控。
调用级成本归因，能追溯每一次推理的费用。

对规模化使用模型的企业来说，这一层是刚需。没有它，配额被耗尽和成本失控都是时间问题。

▍4.6 Serverless 原生弹性

AgentRun 构建在函数计算之上。没请求时缩到 0，不计费；有流量时按秒计费，冷启动在百毫秒级。

流量不稳定的 Agent 应用（客服辅助、数据分析、周期性任务）用这种模式比常驻实例节省很多。弹性策略和底层资源调度对用户透明，也减少了运维负担。

开发者生态：AgentRun

专注 SDK、CLI 与 Skills 市场

Cloud Native

托管 Agent 能跑起来只是第一步。让开发者愿意用、用得顺手，生态建设同样关键。CMA 在这一块投入不小：一次发布覆盖 Python、TypeScript、Go、Java、C#、Ruby、PHP 七种语言的 SDK，配套的 ant CLI 工具，几行命令就能跑通一个完整的 Agent 会话。这个投入方向是对的，降低开发者的上手门槛，才会有真正规模化的应用场景。

AgentRun 在做同样的事情。当前已经可以通过阿里云控制台完成 Agent 的创建、调试和部署，但我们也在面向开发者侧补齐两块：

开源 SDK：覆盖 Python 等主流语言，对齐主流 SDK 的使用体验，支持异步流式调用、事件回调、工具注册等常见能力。
开源 CLI：打通本地开发到云端部署的完整链路，一行命令创建 Agent、绑定资源并快速调试。

整体目标是让开发者用几行代码就能搭一个可用的 Agent，用一行命令就能把它部署到生产环境。

# AgentRun 开源 SDK 预览from agentrun import SuperAgentClientclient = SuperAgentClient()agent = client.create(    name="数据分析助手",    model="qwen-max",    tools=["code_interpreter", "web_search"],    skills=["data-visualization", "csv-parser"],)stream = await agent.invoke_async(    messages=[{"role": "user", "content": "帮我分析一下这个月的销量数据"}])async for event in stream:    print(f"[{event.event}] {event.data}")

除 SDK 和 CLI 之外，Skills 市场的持续扩充、多 Agent 编排框架、Agent 评测工具链也是开发者生态的一部分，相关工作正在推进中。

结语

Cloud Native

托管式 Agent 的产品范式已经有了行业共识，Anthropic Claude Managed Agents 是其中一个代表。AgentRun 在同一条路线上，因为是云平台视角的产品，把重心放在了企业级能力上：数据不出域、模型无关、统一凭证、RAM 多租户、全链路观测、Serverless 原生弹性。这些也是我们接下来会继续投入的方向。

阿里云 AgentRun 让开发者可以专注于 Agent 的核心业务逻辑创新，无需自建和管理底层基础设施。2026 年 2 月，国际市场研究机构 Omdia 发布《2026 年亚太Agentic AI 开发平台市场评估报告》，阿里云凭借 AgentRun 卓越的性能优化、极高的性价比以及企业级的安全保障，摘得“领导者”桂冠，5 项核心能力获得最高评级（Advanced）。如果你正在为 Agent 应用寻找一个能跑在生产环境的基础设施，阿里云 AgentRun 将是你的最佳选择。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业