免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

Manus高溢价收购背后,是Agent开发落地困境

发布日期:2026-01-09 15:09:58 浏览次数: 1568
作者:InfoQ

微信搜一搜,关注“InfoQ”

推荐语

Meta高价收购Manus的背后,揭示了Agent开发落地的真实困境与突破路径。

核心内容:
1. Manus被收购背后的工程能力价值与行业定位
2. ToB场景中Agent开发面临的典型工程难题
3. 阿里云"1+2+N"体系提供的工业化解决方案

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

最近,“Meta 以 20 亿美元收购 Manus ”的消息传得很热。

Manus 曾被嘲讽“套壳”,但业内人士认为,虽然 Manus 整体架构和理念不算颠覆式“新”,但在任务连通性、容错、回退机制等实现上,极度考验工程能力,远不是“换个皮”那么简单。

在 Manus 创始团队与媒体的最近一次访谈中,联合创始人季逸超提出目前 Manus 定位只是一位“通用型助手”,帮普通人把复杂工作流做完,不能完全替代用户本身。这也是因为在 ToC 场景里,普通用户对体验要求很苛刻——慢一点不行,错一点也不行,Manus 团队很清楚这一点。

如果说 ToC 用户已经够“难伺候”,那 ToB 客户对 Agent 的要求只会更高:一方面,企业希望 Agent 真正“上生产”,意味着要接入复杂的权限体系、业务系统和合规要求;另一方面,任何一次错误操作、脏数据写入、流程走错,带来的代价都远比个人用户高得多。

所以会看到,过去一年很多企业在这条路上吃了不少苦:投入人力、投入预算,最后做出来的 Agent 用不了。MIT《2025 年商业 AI 现状》报告里提到,约 95% 的生成式 AI 试点项目很难进入生产环境,很多最终都卡在上线前后。

问题出在哪?就在于这些一连串的工程难题。

比如代码标准不统一、系统接口五花八门、工具调用不稳定、开发周期被拉得很长;数据资产混乱、想用调不出;安全合规和权限管理一碰就痛;甚至出现“越用越退化”的优化难题。

说到底,并不是模型不行,也不是工程师不会做,而是整个 Agent 开发还不够成熟,大家还在摸索阶段,没有提前规划一套更清晰、更稳定的“做法”。

所以,国内的云厂商开始认真思考一个问题:到底怎样才能帮助企业把 Agent 的难题解决掉?有没有一种更适合落地的开发范式?

2025 云栖大会上,阿里云 CTO 周靖人就曾提出过“AI 时代的 Agent 开发范式」。而在 1 月 7 日,阿里云百炼对“1+2+N”体系和开发范式做了一次更系统的升级,把它落成一个工程化的体系。

image.png

这套“1+2+N”体系的想法并不复杂,本质是把 Agent 落地拆成三层:

稳底座(1):把模型和云资源这些基础能力做稳定、可扩展、可治理。地基不稳,再漂亮的 Agent 也只能停在 PoC。

定范式(2):给企业一套把 Agent 做成“工业产品”的开发与运行体系,能开发、能部署、能迭代,交付不再反复折腾。

理杂活(N):把真实业务里最难、最碎、但最致命的集成、权限、评测、成本这些“脏活累活”,做成可插拔的组件,让企业能按需拼装。

从这个角度看,这次阿里云百炼迭代背后体现的是一种更务实的方向:要用更工业化的方式,让企业的 Agent 在真实业务里跑起来。

1 “N”:通用大方案,不如啃硬骨头的“高手组件”

经过大量 Agent 的试错,企业如今在启动一个 Agent 项目时,最先拎出来掂量的往往不是模型,而是数据怎么处理与调用、安全问题能不能搞定、上线后怎么评估和优化。

这些硬问题不先解决,再漂亮的 Agent 构想也很难真正走进生产环境。而在阿里云百炼的“1+2+N”体系里,“N”恰恰就是优先来啃这些硬骨头的。

更关键的是,这一次“N”做了很大的升级:它把落地过程中那些最常见、最难啃、最容易反复踩坑的环节抽象出来,沉淀成一组可插拔、可组合的模块化组件。Agent 开发的难题看起来五花八门,但很多难题其实有共通的解法,可以被提炼、被复用。

“N”组件的存在,可以让企业缺什么就用什么、按需组合,把时间花在业务价值上,而不是重复造轮子。

这次升级里,一个直观的变化在应用广场:阿里云百炼把同类 Agent 做成了十多个精选合集,提供新的多模态模板,支持免登录体验,也能一键调用 API,把“试试到跑起来”的路径压得更短。

真正决定“能不能落地”的挑战,还有数据连接与知识管理、安全与权限控制、可观测与持续优化等问题。

企业做 AI 转型,数据治理永远是“卡脖子”环节。尽管大家都知道数据重要,但真落到工程上,标注、清洗以及让模型读懂私有数据的成本极其高昂。

目前,企业内部约 80% 的数据以 PDF、图像、视频或会议录音等非结构化形式存在。据 IDC 预测,这些数据多处于“不可检索、不可复用”的沉睡状态。随着全球数据量预计在 2026 年激增至 221ZB,如何将这些碎片资产转化为 Agent 可调用的知识,成为企业发展的关键。

阿里云百炼的思路是把这条链路做成“工具化”:用多模态 RAG、多模态数据库、Connector 连接器,把数据处理变成更工业化的流水线。

多模态数据库通过智能解析、分类归档,打破图像 / 音频 / 视频等模态壁垒;多模态知识库 RAG 不再局限于纯文本,支持数十种格式的高精度解析,包括扫描件 PDF、复杂报表、音视频会议记录等。

在 Workflow 层面添加多模态文件处理与生成节点,同时提供覆盖 Chunking、Embedding、(多模态)Embedding、Rewrite、Retrieval、ReRank 等在内的向量化全流程能力,用于检索与消化企业数据资产。

百炼平台还提供开箱即用的 RAG 工具,企业无需自建复杂的向量库与检索链路,也能获得高性能的知识检索与生成能力。

RAG-ezgif.com-optimize (1).gif

把知识库做起来只是第一步。要让 Agent 真正有用,它就得能接入实时数据。然而,长期以来 ERP、CRM 等异构系统间的集成成本高昂,导致 65% 的企业受访者认为业务系统沦为新的“数据孤岛”。

百炼平台推出的 Connector(企业级数据连接器),就是想把这个门槛降到最低。

通过 Connector,企业可以一键对接飞书、语雀、MySQL 及 OSS 存储;连上之后,这些数据既能直接喂给知识库,也能驱动工作流跑起来;平台还提供数十种预置工具(Tools),支持用自然语言直接查询或检索数据等。

当然,数据一旦接进来了,真正棘手的问题也随之出现:权限边界与责任归属难题。

长期以来,很多 Agent 在企业业务中多以匿名形式存在。这种“身份透明”导致操作链路难以溯源,不仅无法明确执行指令的主体,更埋下了越权操作的隐患。

为此,百炼平台引入 Agent Identity 组件,将 Agent 纳入企业身份治理的范畴。

通过集成 Okta、EntraID 等主流系统,平台为每个 Agent 分配数字身份,使其行为从孤立的匿名调用转变为绑定主体、可供审计的合规操作。

百炼平台也将传统的“常驻权限”升级为“按需授权”仅在执行任务时获得短期令牌,任务结束权限即刻回收。

配合权限降级机制,Agent 的边界被严格限制在用户授权范围内,确保无法越权。全链路审计日志则让每一步决策都透明可查,解决了企业“敢不敢给权限”的顾虑。

针对执行环境安全,百炼平台也构建了 Sandbox(沙盒)物理隔离屏障。当 Agent 处理外部代码或第三方数据时,系统可以利用虚拟化技术将其限制在独立空间内,精简系统调用并严控网络访问。

每一个任务会话均在“即用即弃”的容器中运行,执行完毕立即重置,彻底阻断了数据残留与交叉污染。平台同步引入实时监控与会话回放,一旦监测到异常行为将立即终止任务。这种设计为 Agent 提供了“受控下的自由”:在屏障内保持灵活性,在边界外确保系统安全。

而当 Agent 真正跑进业务之后,新的共性难题也会浮现:怎么评估、怎么持续改进。

与传统软件不同,Agent 的执行具有非确定性:即便输入相同,也可能因模型的随机性、工具调用顺序或上下文波动产生不同的输出。这导致开发者难以追踪 Agent 决策逻辑,在任务失败时无法精准定位是模型、工具还是流程缺陷。

百炼平台通过 Trace(可观测)与 Evaluate(评估)组件,实现了从“黑盒”到“透明”的转变。

Trace 组件提供完整的执行轨迹追踪,清晰复现了从思考(Thought)、行动(Action)到观察(Observation)的每一步。开发者可以判断哪一步耗时最长、哪个工具失败率最高,或是在哪个环节陷入了逻辑死循环。

结合 Token 消耗、响应速度等量化指标,这些数据可通过 Grafana 进行可视化监控,构建起实时的生产环境观测能力。

基于此,Evaluate 则建立了体系化的评价标准。

在任务完成度评价方面,百炼平台可以通过衡量目标满足率与输出质量对 Agent 进行评分;并支持“模型评测(LLMasJudge)”、专家打分与人工复查相结合的混合模式,对失败任务进行深度归因。

可以说,基于日志(Logs)、指标(Metrics)与追踪(Traces)的三大支柱,百炼平台设计了一个“评估—优化—验证”的持续迭代闭环。这种由数据驱动的迭代机制,也驱动着 Agent 实现“越用越好用”的工程闭环。

相比于自建底层架构,直接调用百炼平台的成熟组件能让开发周期缩减数倍。以 RAG 系统为例,以往搭建搜索和解析链路需要数周,现在利用多模态 RAG 组件,几个小时就能跑通。

企业不需要为每个 Agent 单独开发身份认证或数据接口,一套 Agent Identity 就能管好所有 Agent 的工号,一个 Connector 就能接通全公司的数据源。

放在阿里云百炼“1+2+N”体系中,组件化正填补模型到业务之间的最后一块拼图:模型提供计算力,开发范式定好流程,而这“N”个组件则专门负责解决数据怎么连、权限怎么划、效果怎么评、安全怎么管这些具体的“杂活”。

2 “2”:“下一代”Agent,需要新开发范式

“N”组件把坑填平,只解决了“这事能不能接得上、管得住”。企业真正要把 Agent 变成长期能用的工业生产能力,还得解决另一个现实问题:怎么开发、怎么协作、怎么迭代。

阿里云百炼“1+2+N”体系里的“2”,就负责这一点,它涵盖两种开发方式(低代码 + 高代码),以及配套 Agent 开发平台,通过同一套平台和运行时,分别服务两类人、两种交付方式。

为什么要做成“2”种模式?因为企业落地 Agent 的过程,基本就是两条路同时走:想快速试点、尽快看到效果,低代码更省事、更快;真要进核心业务、对接复杂系统,高代码才够灵活、够深。

image.png

更现实的是,企业在代码协作上存在长期的“割裂”:低代码不够用,高代码效率低。产品经理用低代码搭建的草案,往往需要技术团队用高代码重新开发,而这种重复劳动会导致业务逻辑在传递中失真。

为了让 Agent 更快、更深地融入业务,百炼把低代码和高代码“打通”:企业可以从低代码起步做验证,再逐步演进到高代码做优化,形成一种更自然的渐进式开发,让真正懂业务的人与懂技术的人有机协作。

据 Gartner 的预测,到 2028 年,企业里相当一部分 Agent 应用会由业务人员主导搭建。双开发模式很可能会成为 Agent 走向工业化落地的一种主流形态。

但“2”的意义还不止是“怎么写代码”。更重要的是:下一代 Agent 本身就需要新的开发范式。

过去的一年,很多企业里的 Agent 实际上还停留在比较“表层”的形态:一种是以提示词工程为核心、更多承担辅助角色的 Copilot;另一种是能处理重复流程、严格按预设步骤执行的“数字员工”。它们能提升效率,但往往缺少主动规划与闭环执行能力。

Agent 不应仅“被告知怎么做”,而是“应该主动思考怎么做”。

因此阿里云百炼提出了 Agent2.0:未来的 Agent 要能围绕目标自主规划,把复杂问题拆成可执行的小任务,过程中还能根据反馈调整策略,最后交付更稳定、质量更高的结果。

按照这个定义,Agent2.0 的核心链路是“规划—执行—反思”。

而现实里很多 Agent 开发失败,问题往往是开发范式还停留在老路上。传统那种线性链路(用户 → Agent → 模型 → 输出)有三个硬伤:没有规划,就很难应对动态场景;没有反馈与纠错,走偏就很难拉回来;没有长期记忆,交互体验容易断裂。

为了能承载 Agent2.0 的生产级落地,百炼平台对开发范式做了系统升级:AgentScope 从过去偏“开源写代码”的工具形态,演进为覆盖 Agent 全生命周期的工业化开发平台。

image.png

第一步,是把“上手门槛”压到尽量低。

一方面,AgentScope 做了对主流模型能力的统一集成,内置 100+ 预训练模型,拿来就能用。

另一方面,百炼平台提供了一批可复用的智能体库,比如交易智能体(EvoTraders)、调研智能体、金融分析智能体、数据科学智能体(Data-Juicer)、浏览器使用智能体、语音智能体等,减少从零开始的成本。

第二步,是围绕更高级的 Agent2.0,把“协作与执行”能力补齐。

AgentScope 主要通过三块来支撑:

多智能体编排:引入基于 Actor 模型的分布式架构,支持多个专业 Agent 的并行协作与自动调度。研究表明,协作模式任务成功率比单一 Agent 高出 90.2%。

智能体上下文管理(长期记忆):深度适配 Mem0、ReMe 等记忆系统。使得 Agent 能够自主存储并检索历史交互中的关键信息,在后续任务中实现能力的持续迭代。

工具调用能力:全面兼容 StreamableHTTP、SSE、STDIO 等主流接口标准。通过支持 AnthropicAgentSkill 规范,在运行时即可动态加载新工具或移除冗余资源。

在工具调用这层,ReAct 这类“边想边做”的范式,也被不少实践证明更容易形成任务闭环:学术基准测试中,ALFWorld 任务只需 2 个示例即可达到 71% 的成功率,高于强化学习模型的 37%;在复杂任务中,准确率相较纯 FunctionCalling 提升约 15%–20%,成本比 CodeAct 低 78.9%。

在 Agent2.0 优化与部署阶段,阿里云百炼通过 AgentScope-Studio+AgentScope-Runtime 打通了全生命周期的工业化链路。

AgentScope-Studio 可通过自定义多维表现指标,评估工作流设计的合理性;提供从输入到输出的全链路追踪与可视化,让 Agent 行为与决策过程实现“可观测、可复盘”。

百炼平台利用评测结果持续改进,让失败样本成为训练资产,形成“评测→优化→验证→再优化”的迭代闭环,实现从“盲目调参”到“数据驱动优化”的范式转换。

在落地部署环节,AgentScope-Runtime 支持 Docker、K8S、ACK、Serverless 等多种部署形态;通过 Agent-as-a-Service 将 Agent 封装为可独立调用的 API 服务,兼容 A2A 与 ResponseAPI 等协议,便于集成、弹性扩缩与快速迭代。

如果把阿里云百炼的开发范式拆开来看,其实就是从“构建”走向“运营”的一个完整闭环。

前半段构建,重点是更快、更省力地把东西搭起来:

用可选智能体模板减少重复劳动;用多智能体编排与工作流把复杂任务拆成可协作的子任务;用高低代码一体化实现统一开发与交付;通过 ReAct 等方式完成多任务的规划、执行与自我纠偏,再结合用上下文和长期记忆支撑长链路执行等。

后半段上线运营,就是做让它智能地跑起来:

用可观测和自动化评测把效果变成可量化的指标;打通真实系统和数据源,拿到反馈并持续优化;在企业既有基础设施上实现更便捷的部署与稳定运维;同时借助 Identity、模型单元专属部署、机密推理等能力,把权限、安全与合规治理补齐。

这套开发范式的最大亮点,就是它统一按照“工业级 Agent2.0”的标准做事:高效的开发体系 + 可持续的反馈闭环 + 便捷可靠的上线部署。

3 “1”:模型优势之外,深挖“模型服务”工程

最后,无论是组件化拼装,还是低 / 高代码协作,最终都要落在同一个问题上:模型调用能不能稳定、能不能扛流量、能不能控成本、能不能过合规。

所以“1”是整个体系的地基——模型与云服务底座把推理服务、弹性、部署形态与安全边界做成统一供给,保证上层“能跑起来,也跑得久”。

很多企业在用 Agent 的过程中,卡住的往往不是“模型会不会”,而是一些更现实、更工程的问题:1)延迟、并发、稳定性跟不上真实业务流量;2)成本容易失控(链路长、多轮工具调用、重试一多就更明显);3)部署和合规麻烦(私有化、混合云、权限边界、数据隔离等)。

在调用模型的时候,企业最关心的也无非就两件事:成本与性能。为此,百炼平台提供了一套云资源调度组合拳:“异步调用 + 闲时调度”。

截屏 2026-01-08 18.51.31.png

以前搞大规模的数据清洗、标注,或者是分析长视频,这些任务不仅计算密集,而且耗时漫长。最头疼的就是走“同步调用”,跑到一半接口超时了,任务断掉,前面全白干。

有了异步调用就省事多了,它像寄快递一样,你把任务丢给后台,拿个任务 ID,就可以去干别的。不用在那儿死等结果,等服务器处理完了你再回来取就可以。

而“闲时调度”更像“错峰用电”:不着急的任务挪到资源空闲的时候跑,单价更划算,整体资源利用率也更高。阿里云百炼官方给出的数据是,动态调度后闲时推理成本可降低 50%。对需要处理海量数据的企业来说,这种节省是实打实的。

此外,阿里云百炼这次把“模型服务能力”也做了系统升级,主要围绕四块:模型后训练、专属模型单元部署、平台可观测、推理安全防护,系统性地”深挖“模型的服务能力。

先从选型说起。百炼平台把模型体验中心做了结构性重构,把在线模型的能力做成更直观的“能力图谱”,支持文本、视觉理解、图像 / 视频生成、语音交互等全模态体验。

这样企业就不用靠猜,也不用“盲选”,可以在平台上直接对比不同模型在具体场景下的表现,再做选择。

模型选定之后,是否“实用”往往取决于后训练。很多企业真正需要的不是通用能力,而是用自家数据和业务知识微调出来的“专家模型”,这才更贴近业务,也是企业的核心壁垒。

模型训完后,真正容易被“拦住”的常常是部署。自建集群运维复杂、成本也难估:为了应付峰值不得不预留一堆算力,平时又闲着浪费;多租户环境下的数据隔离和性能争抢,会让企业心里不踏实。

阿里云百炼推出“模型单元”部署,其实相当于给企业开了条“专属通道”,减少资源争抢带来的不确定性,让高并发和低延迟更稳定。

同时提供全托管的 Serverless 方式:系统会跟着实时流量自动扩缩容——忙的时候自动扩,保证体验;闲的时候自动收,尽量省成本。

image.png

官方给出的测试数据里,模型单元部署相对传统自建集群方案,推理性能提升超过 1.3 倍,并发能力提升超过 1.5 倍。对企业来说,这类提升的意义很直接:同样的业务量,成本更低性能更好。

此外,调用模型处理数据时,最难绕开的是安全——尤其在金融、医疗、法律等高敏行业。很多企业不是不想用,而是卡在一句话:数据给到模型,会不会出事?

为此,百炼平台推出模型“机密推理服务”,依托三层安全架构,为企业构建起全链路的数据保护围墙:

第一层是基于 CPU/GPU 硬件可信执行环境的机密计算能力,将模型推理运行在硬件隔离的安全区内。即便云侧其他组件遭受攻击,敏感数据也难以被窃取或泄露。

第二层是端到端加密的可信链路:实现了从用户端到云端计算中心的全程加密传输。数据在加密状态下进入 TEE 区域处理,计算结果在加密状态下返回,确保数据在“流动”与“处理”的全生命周期中始终处于保护伞下。

第三层是公开审计的可信服务:平台提供可验证的身份与安全能力证明。企业不仅能自主校验服务安全性,更能以此作为合规背书,向管理层、审计机构及客户证明其 AI 系统的高安全性。”

在使用体验上,机密推理被做成了“一键交付”的形态:企业只需要在模型库中选择支持机密推理的版本,一键部署到 TEE 隔离环境,就能直接调用机密推理服务来处理敏感数据。

放在一起看,这次升级是在原有模型性能优势之上,又补上了几块关键拼图:云资源调度、后训练、模型单元化部署、机密推理安全体系等。几块一起发力,让大模型调用变得更实用、更省钱,也更安全。

4 没人愿意再“从零开始”,阿里云百炼 Agent 平台企业版已发布

从市场角度来看,政企、金融、医疗等行业在采购云服务时,始终受困于一种不完美的平衡。

公有云上手快、性能强,但数据边界与合规要求是跨不过的门槛;私有化部署虽有安全感,但往往陷入“模型、工具、流程”极其复杂的运维战泥潭,开发周期长、技术更新慢。

1 月 7 日,阿里云百炼企业版的发布,为市场提供了一个既保留数据主权,又拥有云端顶级效率的方案。

企业版支持专有云、本地化及 VPC 隔离,百炼平台将云端的成熟能力“下沉”至企业环境。更重要的是,百炼平台企业版支持源码级交付。这不仅仅是技术开放,更是给予企业自主演进的确定性。

企业不再需要买一堆零件回去组装,而是直接获得一个在自身安全边界内运行的 Agent 基座。

事实上,企业版也并非新功能的简单集合,而是将百炼平台“1+2+N”体系(顶级模型、成熟范式、核心组件)封装为完整的交付体:

双代码统一:兼顾业务验证的敏捷性与复杂逻辑的深度定制。

多模态 RAG:激活企业沉睡的音视频与文档资产,转化为实时知识。

Trace 与 Evaluate:将 Agent 的黑盒行为拉到台面上,让调试与迭代成为标准工序。

大规模组织的管理诉求:企业版强化了多租户部署、SSO 账号集成以及细粒度的权限审计。这些功能解决了 IT 部门的核心忧虑——让 Agent 的应用在组织内部不仅“能跑通”,更“可治理”。

一个行业走向成熟的标志,是目光从技术指标移向业务价值的“深水区”。

阿里云百炼 Agent 平台企业版,本质上在扮演“AI 时代技术中台”的角色。从行业趋势上看,未来企业大概率将不会从零开始建设 AI 能力,而是直接基于一个完整、成熟的技术中台起步。

这意味着,在一年的野蛮生长后,留给企业 AI 试错的窗口期正在关闭。

展望 2026 年,Agent 应用爆发增长几乎已成共识。Gartner 预测,到 2026 年底,40% 的企业应用将集成任务型 AI agents(相比 2025 年不足 5%),这也标志着 Agentic AI 正从概念走向主流生产环境。

对阿里云这样的全栈人工智能服务商而言,这将是多年技术积累转化为业务增量的红利期;对使用模型与 Agent 的企业客户而言,也将是 Agent 正式进入“拼效率、拼落地”的竞争元年。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询