微信扫码
添加专属顾问
我要投稿
Kimi与阿里云强强联手,打造高效稳定的AI Agent基础设施,让智能体服务更流畅可靠。 核心内容: 1. Kimi AI Agent的核心功能与应用场景 2. 阿里云ACK和ACS如何支撑Kimi的高并发需求 3. AI Agent落地面临的技术挑战与解决方案
Kimi的C端Agent业务在高峰期承载了数以万计并发请求,每一次的请求都需要快速分配独立算力保证用户体验。在模型训练阶段,强化学习与数据合成,也需要海量隔离的计算资源的并行运行,且需要频繁启停。让智能体走进用户,无疑对基础设施提出了全新的要求。
为此,Kimi与阿里云深度合作,以阿里云容器服务Kubernetes版ACK和阿里云容器计算服务ACS的Agent Sandbox(ACS Agent Sandbox)为核心,构建了一套端到端的Agent Infra基础设施体系。
AI Agent落地需要
什么样的Agent Infra?
Agent产品并非简单的软件功能叠加,而是代表了一种全新的交互范式,即让AI能够理解复杂的用户意图,并自主分解任务、调用工具、执行并完成一系列多步骤工作流,从而真正替代人类完成创造性或分析性的工作。
“深度研究”和“OK Computer”,主要是通过自然语言指令,模型自主规划及反思,驱动一个虚拟的计算机沙箱环境,自动化执行复杂的任务流,包括工具调用、联网搜索,代码调测等常见任务。在高峰期,系统需要同时处理数以万计的用户请求,每个请求都可能触发一次或多次Agent的复杂推理和工具调用。系统需要快速为每个用户请求分配独立的计算资源,以避免任务间的相互干扰和资源争抢。
除了在面向用户的服务,Kimi在K2等新一代模型训练过程中,也进行了大规模强化学习(RL)训练和Agentic数据合成。模型训练过程中,系统需要快速启停、并行运行海量的Agent实例,模拟各种复杂的用户行为和任务场景,与环境进行海量的交互,从而生成高质量、多样化的轨迹数据。同时为了满足模型训练的并行执行效率,Kimi对于海量算力的弹性使用和稳定性也提出了更高的要求。
图|Kimi Agent场景示意图
挑战一:沙箱环境如何支撑Agent服务即时响应
沙箱环境的弹性能力与启动速度是Kimi面临的第一个大挑战。AI Agent的任务具有高度的突发性和不确定性,用户请求可能在瞬间激增。传统的虚拟机或容器部署方式动辄数分钟的启动时间,对于需要即时响应的Agent服务而言是不可接受的。
沙箱环境的隔离性与安全性,也至关重要。由于Agent会执行由大模型生成的未经人工验证的代码,沙箱必须提供强隔离能力,防止其对其他租户、宿主机或其他关键系统造成影响,确保多租户场景下的安全。
挑战二:如何满足沙箱的状态连续性以及应对大规模并发带来的调度压力
对于需要长时间运行的Agent任务,沙箱还需要具备灵活的状态保持与恢复能力,以便在任务暂停后能够快速恢复到之前的执行点,以提升任务执行成功率。
同时,随着Kimi用户规模的扩大,大规模并发带来的系统稳定性问题也不容忽视。当大量用户同时使用Agent服务时,整个集群的调度能力、资源争抢以及控制面的压力都将面临巨大考验。
挑战三:如何以最低成本支撑海量并发
合理的成本控制也是需要考虑的现实问题。AI Agent任务通常呈现短时高峰的特征,若为峰值需求预置大量计算资源,会造成巨大的资源浪费。因此,如何实现按需弹性进行稳定的资源调度,以最低的成本支撑海量并发,也是Kimi面临的一大挑战。
图|Agent Infra架构图
综上所述,AI Agent对Infra的核心诉求,包括:
大规模弹性的沙箱环境支持,这是保证Agent任务执行能力的基石,同时也要求沙箱具备相应的快速启停、安全隔离等特性,以应对海量并发交互的场景;
会话级状态保持与长时间运行支持,以满足多轮推理与复杂任务编排的需求;
灵活的工具调用服务和强大的知识与记忆能力,是Agent实现更高智能化和持续学习的关键;
完善的Agent开发平台和安全监控服务,可以为Agent产品的顺利上线提供重要保障。
兼具性能、成本与可靠性的
AI Agent运行底座
通过与阿里云深度的技术协同,Kimi的Agent Infra顺利落地,并稳定高效的支撑了面向C端用户和算法研究员的生产服务。在这一过程中,双方解决了一系列复杂的技术挑战,涵盖弹性、成本、稳定性、状态保持和安全等多个方面。
// 一个快、准、稳的弹性沙箱调度机制
AI Agent的在线服务流量像潮水一样起伏不定,比如工作日高峰期,可能会有成千上万用户同时发起请求,系统需要在几秒内多处理好几倍的任务。为了不让用户卡住或超时,系统必须在极短时间(秒级)启动成数千上万个新的沙箱实例,每个都独立运行、互不干扰。
类似的需求也出现在模型训练阶段:强化学习或数据合成任务常常要批量启动成百上千个Agent实例,需要频繁创建和销毁沙箱环境,节奏快、频次高。
面对这种“既要快、又要准、还得稳”的挑战,阿里云以ACK的节点池即时弹性能力和ACS Agent Sandbox为核心,为Kimi打造了一个高性能、低成本的沙箱环境解决方案。该方案通过容器节点池即时扩容、ACS Agent Sandbox资源预调度以及智能的资源策略,实现了对Agent沙箱环境的精细化管理和高效调度。
图|ACK的节点池即时弹性能力/ACS Agent Sandbox协同调度
ACK节点池保障“即时弹性”快速扩容
面临突发性流量时,ACK节点池通过多可用区、多实例规格的组合,保障了计算资源的扩容。ACK则支持跨可用区创建节点池,并根据实时负载动态选择最优实例规格(如通用型、计算密集型或存储优化型),既避免因单一可用区资源不足导致扩容失败,又通过多规格适配不同业务需求,提升资源利用率。
为缩短节点从初始化到业务就绪的耗时,ACK支持多种方式加速节点启动:用户可将业务镜像、依赖组件及配置预打包至自定义镜像中,节点启动时无需重复拉取镜像,初始化时间可降低60%以上。同时,ACK支持数据盘快照加速,通过预置数据盘快照快速克隆,使初始化耗时从分钟级降至秒级,尤其适合Agent沙箱的快速启动场景。
图|节点池即时弹性扩容
在网络层面,节点真正可用往往需要依赖节点上ENI(弹性网卡)创建和挂载完成,产生了较长的等待时间。ACK节点池结合Terway网络插件优化,通过预先分配ENI并绑定到待扩容节点,有效避免了无效等待,显著加速Pod的网络就绪与业务流量接入。
结合以上优化加速方案,ACK节点弹性扩容对弹性全链路,实现了高扩容成功率和分钟级千节点的扩容效率。
ACS Agent Sandbox实现沙箱环境极速秒级启动
为了进一步满足Agent对瞬时、海量、碎片化算力的极致要求,Kimi还使用了ACS Agent Sandbox 来实现Agent沙箱环境的极速启动。
ACS Agent Sandbox底层采用轻量级虚拟机(MicroVM)技术,将虚拟化开销降低90%,在实际场景中,实现了大规模并发弹性,同时满足数千沙箱秒级启动的要求,能够在业务负载突增时即时提供计算资源。这得益于以下方面的优化:
ACS Agent Sandbox基于国内最大容量规模的阿里云弹性资源池,结合用户负载特征的沙箱资源预调度优化,通过预测预调度、资源复用等手段,节省了沙箱环境的调度、创建时间。同时优化了网络、存储端到端的方案,有效缩短单个沙箱冷启动的时间。
在镜像拉取维度,沙箱需要先拉取指定的容器镜像,但因网络质量和容器镜像大小等因素,镜像拉取耗时往往成了沙箱启动的主要耗时。为加速实例的启动速度,ACS Agent Sandbox基于云盘快照技术提供镜像缓存功能。通过预先将需要使用的镜像制作成镜像缓存,然后基于该镜像缓存来大规模创建沙箱,避免或者减少镜像层的下载,从而进一步提升沙箱的启动速度。
另外,Agent应用启动时往往面临组件依赖加载、应用初始化等资源密集型任务,瞬时资源需求可达稳定态的2-3倍。如果按峰值预留规格,会导致大量资源浪费;而ACS Agent Sandbox通过Quota热更新技术,允许沙箱在创建初期自动获取临时burst资源,几秒内将CPU/内存提升至数倍,待应用启动完成后再平滑回退至基准规格。这一机制避免了因资源不足导致的启动阻塞,实测可使Python类沙箱应用启动时间缩短60%以上,同时又确保了成本可控。
ResourcePolicy资源调度策略,构建算力分级调度
为了整体应对AI Agent瞬时高并发、请求高频波动的特性,Kimi采用阿里云的ACK ResourcePolicy构建了常态算力与Serverless算力的分级调度体系。
该策略通过声明式配置定义算力分配优先级规则,将预留节点作为基线容量池保障日常稳定负载,当Pod排队数超过阈值(如500个)或等待超时(如30s)后,自动将超额请求溢出调度至ACS Agent Sandbox Serverless池。该策略也可根据实时Pod积压数量、资源缺口比例动态切换,确保用户使用Agent的稳定性和一致性。这种混合模式不仅使Kimi Agent的综合成本降低,还将突发峰值承载能力提升了数倍,实现了容量确定性、弹性速度与成本优化的平衡。
// 一套保障Agent「持续」待命的机制
另一方面,越来越多的Agent任务不再是“一问一答”的短交互,而是需要长时间思考、多步规划的连续过程。比如,一个研究型Agent可能在后台整理文献、调用工具、生成报告,整个过程持续几分钟甚至更久。如果在这期间系统因资源紧张把沙箱直接销毁,Agent的所有中间成果——包括已加载的数据、推理路径、临时文件——都会丢失,用户只能从头再来。
为避免这种“断线重连”式的体验,Kimi要求即使沙箱的计算资源被释放,其内存状态和磁盘数据也能安全保存下来。当下次用户发起请求时,系统能快速从存储中还原整个环境,实现“秒级唤醒”,让用户感Agent一直在待命。
这套“休眠-唤醒-克隆”机制不仅保障了任务的连续性,还带来了额外收益:同一个Agent状态可以被快速克隆出多个副本,用于强化学习中的多路径探索,既提升了资源利用率,也加速了算法迭代。
实例休眠及唤醒能力
ACS Agent Sandbox提供了状态保持功能,支持沙箱环境的一键休眠和快速唤醒。使用方式上也达到了灵活便捷,支持通过原生K8s Pod协议、Sandbox CR或 E2B SDK触发沙箱休眠和唤醒。
图|ACS休眠能力
在成本考验方面,ACS Agent Sandbox可以支持内存状态的持久化,在休眠期间沙箱的CPU和内存资源释放,降低在休眠期间的资源成本。休眠期间支持按需选择保留内存数据、临时存储文件数据、IP等,灵活应对不同业务场景的需求。
同时,支持数秒快速唤醒Pod,Pod的内存状态保持,完整恢复到休眠前的沙箱环境,实现在成本与体验之间的最佳平衡,降低了长周期任务的资源持有成本。
克隆能力,实现Agent RL分支路径探索
在休眠功能的基础上,阿里云容器服务团队同步研发了实例克隆能力,支持通过 ACS Agent Sandbox制作内存级别的快照Checkpoint,以及基于一个Checkpoint瞬时创建大量初始状态一致的实例。通过在存算分离架构下复用同一份底层快照,克隆操作无需重新加载依赖、环境或初始化内存,大规模实例可以在数秒内并行就绪。
在Agent RL场景,常见蒙特卡洛树搜索(MCTS)这类强化学习算法中,智能体需要在一个节点的基础上,同时模拟多条不同的未来路径以评估最佳行动。如果没有高效的克隆能力,只能为每条路径单独启动一个全新的、初始化开销巨大的沙箱,或者在单个沙箱中串行执行,效率极低。而通过克隆,可以瞬间生成数千个拥有相同状态的沙箱副本,每个副本负责一条路径的模拟,极大地加速了搜索过程。
// 一个扛住十万级Pod的稳定调度底座
随着使用Kimi Agent功能的用户持续增长,后台并发运行的Pod规模迅速攀升至数万甚至数十万级别。如此大规模的Pod频繁创建、调度和销毁,对 Kubernetes集群的核心组件,尤其是调度器和API Server带来了巨大压力。一旦响应延迟或调度堆积,就可能拖慢整个Agent服务的响应速度。
因此,如何确保在如此大规模的负载下,集群依然能够稳定运行,也是Agent服务能否成功的关键之一。
调度器性能大幅提升
阿里云容器服务ACK针对大规模AI负载场景,对Kubernetes的核心组件进行了深度优化和加固。在调度器层面通过参数调整提高了队列处理深度以及单个Pod的处理速度,确保当触发集群自动伸缩时能够处理尽可能多的Pending Pod。非自动伸缩场景下调度器通过对相似Pod的调度结果的中间缓存以及不同链路的并行处理,成倍减少相似Pod的调度开销,最终实现千节点规模下每秒数百Pod的调度效率。
ACK调度器支持Pod亲和性缓存、等价类调度,同时结合调度器性能参数调优,在实际场景中,能够提升调度器性能至开源版本的数倍。
API Server稳定性改进
ACK管控侧针对Agent场景沙箱快速弹起,快速释放特点基于大规模多AZ高可用架构部署。基于大规模多AZ高可用架构管控拓扑部署,同时针对该场景对 ETCD/APIServer/KCM/VK/Scheduler/ACS管控等组件做了全链路端到端参数优化,管控组件支持动态弹性扩容,来满足Agent沙箱秒级弹性,高并发 API访问诉求。
// 一套让Agent“记得住、找得准”的搜索与记忆机制
高质量的搜索和记忆服务,是构建复杂Agent的关键基础,在Agent任务执行前、执行中,都会高频依赖搜索从互联网海量信息中精准获取高质量信源。而 Agent的“记忆”能力,能保证Agent在跨会话场景中维持连贯性,同时也能给产品带来更多个性化、智能化体验的提升。
阿里云多模数据库Lindorm通过存储计算分离、多引擎共享融合的云原生架构,帮助Kimi构建了具备高效检索和海量存储能力的记忆与搜索模块。
图|Lindorm多引擎能力
通过该方案,Kimi取得了如下收益:
稳定易开发:Lindorm作为一个多模数据库,集成了宽表引擎、搜索引擎、向量引擎、AI引擎四大核心组件,数据在内部自动流转,无需自建同步链路。这些特点对比开源自建方案提供更稳定、更统一便捷的开发方式,帮助Kimi快速构建了Agent背后的AI搜索基础设施;
双路召回:Lindorm原生支持基于RRF的全文-向量双路召回能力,并且支持用户设置自定义权重;
数据压缩效果提升:Lindorm支持云盘、OSS等多种存储,并内置深度优化的压缩算法,比开源减少30%~50%存储成本。
// 一套让Agent“互不打扰”的安全隔离防护
在多租户环境下,不同用户的AI Agent实例共享同一套物理集群资源,安全隔离就成了不可妥协的底线:必须确保每个用户的Agent都运行在独立的环境中,既不能读取或干扰他人的数据,也无法越权执行系统操作。
运行时安全隔离
存储挂载隔离能力
在Agent持久化存储方面,文件存储(NAS)支持通过为每个Agent实例动态分配独立的子目录或存储卷,在共享存储池上构建逻辑隔离的存储空间,同时通过访问控制列表(ACL)或POSIX权限严格限制各实例对其空间的读写权限。这种"共享存储池+逻辑隔离"的架构,既发挥了NAS便捷共享、弹性扩展的优势,又通过细粒度权限控制实现了存储层面的强隔离,使不同Agent在共享物理资源的同时保持数据安全边界。
网络隔离能力NetworkPolicy
在Kimi的Agent服务中,使用了阿里云NetworkPolicy限制Agent之间的网络通信,防止恶意Agent访问敏感数据或服务。NetworkPolicy支持命名空间隔离、端口控制及流量路由。在大规模集群场景下,阿里云还提供了优化大规模Terway集群NetworkPolicy扩展性的方案,通过调整策略配置和优化网络组件,确保策略管理不会给Kubernetes的管控带来过大压力。
面向生产级AI Agent
兼具效率和成本的落地基础
此外,通过常态算力与Serverless算力的智能调度策略,Kimi Agent的整体TCO成本大幅降低。使用实例休眠唤醒能力,也进一步降低了长周期Agent任务的资源持有成本。综合阿里云上丰富的PaaS及安全监控能力,这套基础设施方案不仅满足了当前复杂的Agent应用场景,更为未来构建更智能、更自主的AI系统奠定了坚实的技术基础,助力Kimi在AI Agent时代不断实现模型和产品的持续创新。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-01-23
IBM 发布 IBM Enterprise Advantage 服务,助力企业规模化落地智能体 AI
2026-01-23
Opera One R3版本正式发布,新增人工智能、谷歌集成等功能
2026-01-23
深度解析——为什么Claude code CEO Dario 如此反中?
2026-01-23
Anthropic 内部技术与非技术团队如何通过 Claude Code 实现工作流深度转型
2026-01-23
AI编码实践:从Vibe Coding到SDD
2026-01-23
刚刚!Cursor 2.4 发布:Subagents 让 AI 晋升“项目经理”,还能秒出 UI 设计图!
2026-01-23
为什么Codex似乎更强,Claude Code却更流行?
2026-01-22
刚刚,Anthropic 发布 Claude「宪法」:一份写给 AI 的人生指南
2025-10-26
2026-01-10
2025-11-19
2025-11-13
2025-11-03
2026-01-01
2025-11-12
2025-12-09
2025-11-21
2025-11-15
2026-01-23
2026-01-23
2026-01-22
2026-01-22
2026-01-21
2026-01-21
2026-01-12
2026-01-12