2026年4月23日 周四晚上19:30,来了解“从个人单点提效,到构建企业AI生产力”(限30人)
免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

托管 Agent 执行循环只是起点,AgentRun 托管的更是企业 AI 生产全链路

发布日期:2026-04-21 18:57:12 浏览次数: 1528
作者:阿里云云原生

微信搜一搜,关注“阿里云云原生”

推荐语

阿里云AgentRun重新定义企业AI生产,一站式解决Agent从开发到落地的全链路挑战。

核心内容:
1. 托管式Agent成为行业趋势,阿里云AgentRun降低企业60%TCO
2. AgentRun核心架构解析:超级Agent、沙箱隔离、会话管理等关键技术
3. 模型无关设计+企业级能力,打造差异化AI基础设施平台

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
Agentrun%2Fibdsg7%2Fyc5nz02g1beaznrn" data-pm-slice="0 0 []">
01

行业背景:托管式 Agent 成为主流方向

Cloud Native

AI Agent 正从技术概念快步走向生产应用。然而,当开发者试图将原型推向生产环境时往往发现:从“跑通 Demo”到“稳定上线”,每一步都是对基础设施的真实考验。更聪明的模型解决不了这道鸿沟——企业真正需要的,是一个能全面承接底层复杂性的基础设施平台。

这正是阿里云 AgentRun 的出发点。 自 2025 年 12 月正式发布以来,AgentRun 以生态开放、灵活组装为设计理念,为 AI Agent 提供从开发、部署到运维的全生命周期管理。在已落地的企业客户中,平均 TCO 降低 60%。

与此同时,托管式 Agent 正在成为行业共识。Anthropic 推出 Claude Managed Agents,进一步印证了这一方向的确定性——越来越多的平台开始把 Agent Loop、沙箱隔离、会话管理这些底层复杂性从开发者手里接管过来,开发者只需声明“需要一个什么样的 Agent”,剩下的推理、工具调用、上下文管理交给平台承接。

这套托管范式的核心设计已逐渐收敛,通常围绕四个概念展开:

  • Agent 定义:声明模型、系统提示词、可用工具,创建一次,多个会话复用。
  • 运行环境:Agent 的容器模板,定义网络策略、文件系统等隔离边界。
  • 会话:将 Agent 与运行环境绑定,代表一次完整的任务执行。
  • 事件流:会话内的消息通道,实时推送用户输入、模型回复、工具调用,一次典型的执行流程是:声明 Agent → 初始化运行环境 → 创建会话 → 发送消息 → 接收事件流

作为一站式 Agentic AI 基础设施平台,阿里云 AgentRun 在这条主线上走得更深:模型无关是基础——通义千问、DeepSeek、智谱 AI、自部署开源模型均可自由接入;企业级能力是重点投入——数据不出域、多租户隔离、全链路可观测、Serverless 原生弹性。

这些在真实落地中反复被客户验证的能力,构成了 AgentRun 区别于通用托管产品的核心差异。

02

AgentRun 如何定义托管 Agent

Cloud Native

AgentRun 的几个核心抽象,可以和上述托管范式对应起来:

  • 超级 Agent:内置 Agent Loop 的可执行对象,对应“Agent 定义 + 内置运行时”。
  • Agent Runtime 与 Sandbox:运行环境和隔离沙箱,底层是阿里云函数计算FC。
  • 会话管理:一次任务对应一个会话,持有上下文、中间状态、事件流。
  • MCP 工具 与 Skills 市场:工具级扩展 + 任务级扩展,两条路径并存。
  • 模型服务 ModelService:模型代理层,解耦 Agent 逻辑和模型选择。
  • 记忆与知识库:长期记忆和 RAG 检索,作为 Agent 常驻上下文。

使用流程上和其他托管平台一致:声明一个超级 Agent、创建会话、发送消息、接收事件流。差异落在能力拆分的粒度、模型接入方式、以及企业场景的深度支持上。

03

AgentRun 拥有的差异化能力是什么

Cloud Native

Claude Managed Agents 把 Agent 托管需要的几件核心事情做齐了:Agent 定义、Environment 容器沙箱、Session 会话、Events 事件流,再加上绑定 Claude 模型与一组内置工具(Bash、文件操作、Web 搜索)。这套组合足以支撑大多数通用场景,也把托管 Agent 的产品范式清晰地立了起来。

AgentRun 在同一条主线上,因为定位是云平台视角的运行时,在四个地方做了更深一些的投入:运行时与沙箱基于阿里云函数计算 FC,启动到毫秒级,内核级隔离下能装下代码解释器、浏览器自动化、Computer Use 这类更重的能力;模型服务做到厂商无关,通义千问、DeepSeek、OpenAI、自部署开源模型可以自由切换和组合;工具与技能同时支持 MCP 和 Skills 市场,覆盖工具级和任务级两个粒度;会话与记忆把长期记忆和知识库作为 Agent 常驻的一等上下文,业务层不用再自建一套。

3.1 Agent 运行时与 Sandbox:更低的隔离层级

Agent 运行时与 Sandbox 底层基于阿里云函数计算 FC。每个沙箱与运行时独立内核,启动在毫秒级。

这样设计有两个原因:

一是多租户隔离更彻底。不同租户、不同会话的沙箱从内核就是隔离的,不存在容器逃逸的风险面。

二是沙箱能装下更重的能力。代码解释器需要挂 Jupyter Kernel、浏览器自动化需要 Headless Chromium、GUI 自动化需要完整桌面环境。这些在 MicroVM 里做,资源控制和兼容性空间更大。

目前 Sandbox 内置的能力:

  • Bash 与文件系统:完整 Shell 环境,文件上传下载双向打通。
  • 代码解释器:Python、Node.js、Java 的 Jupyter Kernel,执行状态跨多轮保留。
  • 浏览器自动化:基于 CDP over WebSocket,支持完整 Chromium 控制。
  • Computer Use:桌面级 GUI 操作能力。

3.2 厂商无关的模型服务:将模型选择留给用户

AgentRun 不绑定特定模型厂商。通过模型服务层,同一个 Agent 可以在通义千问、DeepSeek、OpenAI、自部署开源模型之间切换,也可以按任务类型路由到不同模型。

这是云平台视角产品的一个自然选择。面向不同行业和合规要求的客户,模型无关是一种基础能力:

  • 成本敏感场景优先走小模型,必要时 Fallback 到大模型。
  • 代码生成、长文本理解、多模态处理各自适合的模型不同。
  • 合规场景对数据出境有硬性要求,只能使用境内或自部署模型。

AgentRun 的模型服务统一承载这些策略,同时提供 Token 级限流、多模型 Fallback、调用级成本归因。业务代码不感知底层模型变化,切换模型是配置层面的事。

3.3 MCP 与 Skills:工具级扩展与任务级复用

工具是 Agent 完成实际任务的“双手”。AgentRun 提供两条互补的路径:

  • MCP:原生支持标准协议,生态里已有的 MCP Server 直接接入,粒度小、组合自由。
  • Skills 市场:任务级能力单元,上千种经过测试的预置技能(网页检索、文档解析、数据可视化、SaaS API 对接),一次勾选挂到 Agent 上使用。

私有 Skills 托管同样打通:支持上传 Python / Node.js 包,或用 Markdown 声明式语法描述,AI 自动生成脚手架;托管时做代码安全扫描。来源不确定的 Skill 可挂到独立 Sandbox 运行,异常被 MicroVM 隔离在沙箱内。Skills 基于 Serverless 按需加载,配合 find-agentrun-skills 工具链打通本地开发与云端托管。

3.4 会话与记忆

会话事件流通过 SSE 推送,前端或上游应用可以实时拿到 Agent 的回复、工具调用、思考过程。会话的上下文、中间状态、文件产物都会持久化,支持后续恢复。

记忆独立于会话。短期记忆跟随会话;长期记忆跨会话保留用户偏好、历史结论、跨任务的知识;知识库承载 RAG 场景的完整链路(文档切片、向量化、检索召回)。

多轮对话或长时间任务这类需求,业务层不用再自己搭一套。

04

企业级场景:AgentRun 的深水区能力

Cloud Native

作为建立在阿里云上的托管 Agent 产品,AgentRun 的定位决定了企业级能力必须做深。这一节集中展开几个方向,也是我们在项目落地中反复被客户提到的关键点。

4.1 数据不出域:VPC 与专有网络

金融、政务、医疗类行业对数据主权的要求非常硬。Agent 不能把企业内网数据传给外部服务,同时又需要访问内部数据库、中间件和内部 API。

AgentRun 基于函数计算的网络能力,提供三种模式:

  • PUBLIC:完全公网访问。
  • PRIVATE:完全 VPC 内,不接公网。
  • 混合:既能访问公网,也能打通 VPC。

Agent 可以直接访问企业 VPC 内的数据库、中间件、内部 API,请求链路在阿里云内部闭环。专有云和边缘部署形态也在规划中。

4.2 统一凭证管理

Agent 调用外部 API 时,凭证是绕不开的一环。如果留给业务层自行处理,AK/SK 和 Token 很容易散落在 Prompt 和工具代码里,难以审计和轮换。

AgentRun 把 Credential 作为一级资源,支持 OAuth2、API Key、JWT、Basic Auth、AK-SK、自定义 Header 等多种类型。凭证统一创建、绑定到工具或技能上、按需禁用和轮换,传输与存储全程加密。

这个抽象的价值在落地中体现得很直接:出问题时凭证可以快速禁用,审计要求来时操作链路有据可查,不同环境之间的凭证隔离也不用靠手工维护。

4.3 RAM 集成与多租户

AgentRun 对接阿里云 RAM 权限体系。不同子账号、不同团队看到的 Agent、工具、模型资源各自隔离,权限粒度可细到资源级。

多租户场景下,每个租户的会话、文件、凭证在数据层完全隔离,运行时由 MicroVM 沙箱保证隔离。这套能力对于 SaaS 类产品或大型集团内部多业务线共用 Agent 平台的场景尤其重要。

4.4 可观测性:OpenTelemetry 全链路

Agent 在生产环境的问题大多不是代码 Bug,而是 Prompt 触发了意外行为、模型输出不稳定、工具链路某一环超时。没有全链路 Tracing,排查非常困难。

AgentRun 集成 OpenTelemetry,生产环境可以看到:

  • 每一次模型调用的耗时、Token 消耗、命中的模型。
  • 每个工具调用的入参、出参、延迟。
  • 任务整体成本,按 Agent、会话、工具维度归因。

数据接入日志服务后,可以直接用于告警、成本报表、性能分析。对于大规模使用的 Agent 系统,这一层往往决定了能不能规模化。

4.5 模型治理

ModelService 除了模型无关,还承担了企业级的模型治理职责:

  • 多 Key 负载均衡,避免单个 Key 触发限流。
  • 主备模型 Fallback,一个模型不可用时自动切换。
  • Token 级限流和并发控制,防止成本失控。
  • 调用级成本归因,能追溯每一次推理的费用。

对规模化使用模型的企业来说,这一层是刚需。没有它,配额被耗尽和成本失控都是时间问题。

4.6 Serverless 原生弹性

AgentRun 构建在函数计算之上。没请求时缩到 0,不计费;有流量时按秒计费,冷启动在百毫秒级。

流量不稳定的 Agent 应用(客服辅助、数据分析、周期性任务)用这种模式比常驻实例节省很多。弹性策略和底层资源调度对用户透明,也减少了运维负担。

05

开发者生态:AgentRun

专注 SDK、CLI 与 Skills 市场

Cloud Native

托管 Agent 能跑起来只是第一步。让开发者愿意用、用得顺手,生态建设同样关键。CMA 在这一块投入不小:一次发布覆盖 Python、TypeScript、Go、Java、C#、Ruby、PHP 七种语言的 SDK,配套的 ant CLI 工具,几行命令就能跑通一个完整的 Agent 会话。这个投入方向是对的,降低开发者的上手门槛,才会有真正规模化的应用场景。

AgentRun 在做同样的事情。当前已经可以通过阿里云控制台完成 Agent 的创建、调试和部署,但我们也在面向开发者侧补齐两块:

  • 开源 SDK:覆盖 Python 等主流语言,对齐主流 SDK 的使用体验,支持异步流式调用、事件回调、工具注册等常见能力。
  • 开源 CLI:打通本地开发到云端部署的完整链路,一行命令创建 Agent、绑定资源并快速调试。

整体目标是让开发者用几行代码就能搭一个可用的 Agent,用一行命令就能把它部署到生产环境。

# AgentRun 开源 SDK 预览from agentrun import SuperAgentClientclient = SuperAgentClient()agent = client.create(    name="数据分析助手",    model="qwen-max",    tools=["code_interpreter""web_search"],    skills=["data-visualization""csv-parser"],)stream = await agent.invoke_async(    messages=[{"role""user""content""帮我分析一下这个月的销量数据"}])async for event in stream:    print(f"[{event.event}{event.data}")

除 SDK 和 CLI 之外,Skills 市场的持续扩充、多 Agent 编排框架、Agent 评测工具链也是开发者生态的一部分,相关工作正在推进中。

06

结语

Cloud Native

托管式 Agent 的产品范式已经有了行业共识,Anthropic Claude Managed Agents 是其中一个代表。AgentRun 在同一条路线上,因为是云平台视角的产品,把重心放在了企业级能力上:数据不出域、模型无关、统一凭证、RAM 多租户、全链路观测、Serverless 原生弹性。这些也是我们接下来会继续投入的方向。

阿里云 AgentRun 让开发者可以专注于 Agent 的核心业务逻辑创新,无需自建和管理底层基础设施。2026 年 2 月,国际市场研究机构 Omdia 发布《2026 年亚太Agentic AI 开发平台市场评估报告》,阿里云凭借 AgentRun 卓越的性能优化、极高的性价比以及企业级的安全保障,摘得“领导者”桂冠,5 项核心能力获得最高评级(Advanced)。如果你正在为 Agent 应用寻找一个能跑在生产环境的基础设施,阿里云 AgentRun 将是你的最佳选择。

延伸阅读:

  • 阿里云 AgentRun 产品文档

    https://help.aliyun.com/zh/functioncompute/fc/what-is-agentrun

  • Claude Managed Agents 官方文档

    https://platform.claude.com/docs/en/managed-agents/overview

  • AgentRun 控制台

    https://functionai.console.aliyun.com/cn-hangzhou/agent/runtime

  • AgentRun 客户群群号:134570017218,如有技术问题或合作意向,欢迎联系我们。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询